🤖 Microsoft Fara1.5: OpenAI Operator 능가하는 72% SOTA 웹 자동화 에이전트

안녕하세요! 오늘은 Microsoft Research가 개발한 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보겠습니다. Fara1.5는 브라우저 기반 작업을 자동으로 수행하는 AI 모델로, 4B, 9B, 27B 세 가지 크기로 제공됩니다. 특히 Online-Mind2Web 벤치마크에서 72% 점수로 기존 상용 모델들을 능가하며, 웹 자동화 작업의 새로운 기준을 세웠습니다.

이 블로그에서는 Fara1.5의 핵심 기술, 작동 방식, 성능 비교, 안전 기능, 실제 활용 방법에 대해 상세히 설명하겠습니다. 함께 살펴보시죠!

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

🤖 Fara1.5란 무엇인가?

Fara1.5는 Microsoft Research가 개발한 컴퓨터 사용 에이전트(CUA) 모델 패밀리입니다. 브라우저에서 상품 비교, 양식 작성, 이벤트 예약 등 복잡한 웹 작업을 자동으로 수행할 수 있습니다.

💡 컴퓨터 사용 에이전트(CUA)란? 컴퓨터나 브라우저에서 인간처럼 작업을 수행하는 AI 시스템입니다. 화면을 보고, 생각하고, 행동하는 관찰-사고-행동 루프를 통해 웹 페이지와 상호작용합니다.

세 가지 모델 크기

Fara1.5는 다양한 성능과 비용 요구사항을 충족하기 위해 세 가지 크기로 제공됩니다:

모델	파라미터	기본 모델	특징
`Fara1.5-4B`	4억	Qwen3.5-4B	경량형, 저비용 작업
`Fara1.5-9B`	9억	Qwen3.5-9B	중간형, Microsoft Foundry 제공
`Fara1.5-27B`	27억	Qwen3.5-27B	고성능, SOTA 성능 달성

Microsoft는 "각 모델 크기에서 가장 성능이 좋은 CUA 모델"이라고 설명합니다. Fara1.5-9B는 기존 Fara-7B의 34.1% 점수를 거의 두 배인 63.4%로 향상시켰습니다.

⚙️ Fara1.5 작동 방식

관찰-사고-행동 루프

Fara1.5는 인간처럼 웹 페이지를 탐색하는 관찰-사고-행동 루프를 사용합니다:

1. 관찰(Observe): 대화 기록과 최근 3개 브라우저 스크린샷을 입력으로 받습니다.

2. 사고(Think): 시각-언어 모델(VLM)이 컨텍스트를 분석하고 추론합니다.

3. 행동(Act): 한 단계에서 하나의 원자적 행동을 수행합니다.

행동 종류에는 다음이 포함됩니다:

표준 마우스-키보드 입력 (클릭, 타이핑, 스크롤)
웹 특화 행동 (웹 검색, URL 입력)
컨텍스트 관리 행동 (사용자 질문, 정보 저장)

Fara1.5 데모 영상

FaraGen1.5: 합성 데이터 파이프라인

Fara1.5는 FaraGen1.5 시스템을 통해 대규모 훈련 데이터를 생성했습니다. 실제 웹에서 수행하기 어렵거나 위험한 작업(로그인, 이메일 발송, 결제)을 합성 환경에서 안전하게 학습합니다.

구성 요소	설명
환경	실제 웹 URL + 6개 샌드박스 환경 (이메일, 캘린더, 미디어 플랫폼, ML 실험 관리자, 마켓플레이스)
솔버	GPT-5.4 교사 에이전트 + 사용자 시뮬레이터가 후보 경로 생성
검증자	정확성, 효율성, 사용자 상호작용 품질 기준으로 경로 필터링

📊 훈련 데이터 구성

Fara1.5는 약 200만 샘플로 훈련되었으며, 다양한 작업 유형을 포함합니다:

데이터 유형	비율	설명
웹 경로	60.0%	실제 웹사이트에서의 작업 경로
합성 환경	12.8%	샌드박스 환경에서의 작업
양식 작성/상호작용	12.5%	사용자 상호작용 학습
그라운딩	8.8%	화면 요소 위치 파악
VQA	4.9%	시각 질문 답변
GUI 드래그	0.8%	드래그 앤 드롭 작업
지시 준수 + 안전	0.1%	안전 및 지시 준수 학습

훈련은 교차 엔트로피 손실을 사고와 행동에 적용하며, 최근 3턴에만 손실을 계산합니다. 이는 최종 행동에 집중하여 효율적인 학습을 가능하게 합니다.

Fara1.5 데모 영상

🏆 벤치마크 성능 분석

Fara1.5는 두 주요 벤치마크에서 픽셀-행동 모델 중 최고 성능을 달성했습니다.

Online-Mind2Web 결과

Online-Mind2Web은 136개 웹사이트에서 300개 작업을 테스트하는 실시간 벤치마크입니다:

모델	점수	비교
`Fara1.5-27B`	72.0%	🥇 SOTA (픽셀-행동 모델)
`Yutori Navigator n1`	64.7%	2위
`Fara1.5-9B`	63.4%	Fara-7B 대비 2배 향상
`OpenAI Operator`	58.3%	상용 서비스
`Gemini 2.5 CU`	57.3%	상용 서비스
`Fara1.5-4B`	57.3%	Gemini 2.5 CU와 동등

💡 주요 발견: Fara1.5-27B는 OpenAI Operator(58.3%), Gemini 2.5 Computer Use(57.3%), Yutori Navigator n1(64.7%) 등 기존 상용 모델들을 모두 능가했습니다.

WebVoyager 결과

WebVoyager는 다양한 웹 작업 완료율을 측정합니다:

모델	점수
`Fara1.5-27B`	88.6%
`Fara1.5-9B`	86.6%
`Fara1.5-4B`	80.8%

Microsoft는 "Fara1.5-27B가 두 벤치마크에서 픽셀-행동 모델 중 새로운 최고 성능(SOTA)을 설정했다"고 밝혔습니다.

🔒 안전 기능 및 사용자 상호작용

Fara1.5는 안전한 웹 자동화를 위해 여러 보호 기능을 포함합니다:

안전 설계 원칙

위험 작업 거부: 공개 안전 데이터셋과 Microsoft의 책임 AI 정책 기반으로 유해 작업을 거부
사용자 승인 요청: 중요 결정점에서 사용자에게 승인 및 확인 요청
행동 로깅: 모든 행동이 기록되어 감사 가능 (MagenticLite 인터페이스)

사용자 상호작용 시점

Fara1.5는 다음 상황에서 사용자에게 질문합니다:

사용자 정보가 누락된 경우
작업이 불명확하게 정의된 경우
이메일 발송, 결제 등 되돌릴 수 없는 작업
사용자의 이전 승인 없이 위험 행동 수행 전

이러한 설계는 "사용자 선호를 존중하고 필요 시 승인과 확인을 요청"하는 목표를 실현합니다.

🚀 제공 및 활용 방법

Microsoft Foundry에서 제공

Fara1.5 모델은 Microsoft Foundry 플랫폼에서 제공됩니다:(블로그 작성 시점 링크 미동작)

모델	상태	플랫폼
`Fara1.5-9B`	제공 중	Microsoft Foundry + MagenticLite 통합
`Fara1.5-4B`	출시 예정	Microsoft Foundry
`Fara1.5-27B`	출시 예정	Microsoft Foundry

GitHub에서 인터페이스 제공

추론 인터페이스는 GitHub에서 제공됩니다: (블로그 작성 시점 Fara1.5 추론 인터페이스 미제공)

# GitHub 리포지토리
https://github.com/microsoft/fara

# Fara1.5 인터페이스 사용법
# Microsoft Foundry에서 API 호출 또는
# MagenticLite 인터페이스로 통합 사용

MagenticLite 통합

MagenticLite는 Fara1.5와 통합된 인터페이스입니다. 모든 행동이 로깅되어 감사할 수 있으며, 사용자 상호작용을 직접 관리할 수 있습니다.

MagenticLite 통합 데모 영상

📊 다른 컴퓨터 사용 에이전트와 비교

Fara1.5는 기존 상용 컴퓨터 사용 에이전트와 어떻게 차별화될까요?

특징	Fara1.5	OpenAI Operator	Gemini 2.5 CU
모델 크기 옵션	3개 (4B/9B/27B)	단일 모델	단일 모델
Online-Mind2Web	72.0%	58.3%	57.3%
합성 환경 학습	지원 (6개 샌드박스)	미공개	미공개
안전 설계	공개 (안전 데이터셋)	미공개	미공개
행동 로깅	지원 (MagenticLite)	제한적	제한적
사용자 승인	명시적 설계	지원	지원

⚠️ 한계점과 주의사항

Fara1.5는 강력한 성능을 보여주지만 몇 가지 한계가 있습니다:

⚠️ 주의사항:

실시간 웹 테스트 필요: 벤치마크 성능은 테스트 환경에서의 결과입니다. 실제 환경에서의 성능은 다를 수 있습니다.
모델 크기별 성능 차이: 4B 모델은 57.3%로 Gemini 2.5 CU와 동등하지만, 27B 모델의 72% 성능을 기대하려면 더 큰 모델 필요
Microsoft Foundry 제공: 현재 Fara1.5-9B만 제공 중, 4B와 27B는 "출시 예정" 상태(블로그 작성시점 Fara1.5 테스트 불가)
픽셀-행동 모델: DOM 기반 모델과 직접 비교 어려움

🎯 맺음말

지금까지 Microsoft Research의 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보았습니다. Fara1.5는 4B, 9B, 27B 세 가지 크기로 제공되며, Online-Mind2Web 벤치마크에서 72% SOTA 성능을 달성했습니다. 특히 관찰-사고-행동 루프, FaraGen1.5 합성 데이터 파이프라인, 안전 설계 등이 기존 상용 모델인 OpenAI Operator와 Gemini 2.5 Computer Use를 능가하는 성능을 가능하게 했습니다. 다만 Fara1.5-4B와 Fara1.5-27B는 Microsoft Foundry에서 "출시 예정" 상태이고, 현재 Fara1.5-9B도 링크가 동작하지 않고 있습니다.

링크가 정상화되면 여러분도 한번 Fara1.5를 Microsoft Foundry에서 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

📚 참고 문헌 및 출처

Microsoft Research. (2026). Fara1.5 Computer Use Agent. Retrieved from https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
GitHub. Microsoft Fara Repository. Retrieved from https://github.com/microsoft/fara

'AI 도구' 카테고리의 다른 글

🆓 320시간 무료 AI 학습: 23K Star AI Engineering from Scratch 완벽 가이드 (0)	2026.05.28
🤖 새 프로젝트 코드 이해 1시간 → 5분: Understand-Anything 무료 가이드 (0)	2026.05.28
🤖 CLI-Anything: 모든 소프트웨어를 AI 에이전트용 CLI로 변환하는 오픈소스 (0)	2026.05.27
🔒 {긴급 보안 알림] GGUF Parser 취약점: Ollama·LM Studio 로컬 AI 보안 대응 가이드 (0)	2026.05.27
🤖 LeRobot Humanoid: $2,500 오픈소스 3D 프린트 휴머노이드 로봇 완벽 가이드 (0)	2026.05.24