안녕하세요! 오늘은 Microsoft Research가 개발한 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보겠습니다. Fara1.5는 브라우저 기반 작업을 자동으로 수행하는 AI 모델로, 4B, 9B, 27B 세 가지 크기로 제공됩니다. 특히 Online-Mind2Web 벤치마크에서 72% 점수로 기존 상용 모델들을 능가하며, 웹 자동화 작업의 새로운 기준을 세웠습니다.
이 블로그에서는 Fara1.5의 핵심 기술, 작동 방식, 성능 비교, 안전 기능, 실제 활용 방법에 대해 상세히 설명하겠습니다. 함께 살펴보시죠!

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
🤖 Fara1.5란 무엇인가?
Fara1.5는 Microsoft Research가 개발한 컴퓨터 사용 에이전트(CUA) 모델 패밀리입니다. 브라우저에서 상품 비교, 양식 작성, 이벤트 예약 등 복잡한 웹 작업을 자동으로 수행할 수 있습니다.
💡 컴퓨터 사용 에이전트(CUA)란? 컴퓨터나 브라우저에서 인간처럼 작업을 수행하는 AI 시스템입니다. 화면을 보고, 생각하고, 행동하는 관찰-사고-행동 루프를 통해 웹 페이지와 상호작용합니다.
세 가지 모델 크기
Fara1.5는 다양한 성능과 비용 요구사항을 충족하기 위해 세 가지 크기로 제공됩니다:
| 모델 | 파라미터 | 기본 모델 | 특징 |
|---|---|---|---|
Fara1.5-4B |
4억 | Qwen3.5-4B | 경량형, 저비용 작업 |
Fara1.5-9B |
9억 | Qwen3.5-9B | 중간형, Microsoft Foundry 제공 |
Fara1.5-27B |
27억 | Qwen3.5-27B | 고성능, SOTA 성능 달성 |
Microsoft는 "각 모델 크기에서 가장 성능이 좋은 CUA 모델"이라고 설명합니다. Fara1.5-9B는 기존 Fara-7B의 34.1% 점수를 거의 두 배인 63.4%로 향상시켰습니다.


⚙️ Fara1.5 작동 방식
관찰-사고-행동 루프
Fara1.5는 인간처럼 웹 페이지를 탐색하는 관찰-사고-행동 루프를 사용합니다:

1. 관찰(Observe): 대화 기록과 최근 3개 브라우저 스크린샷을 입력으로 받습니다.
2. 사고(Think): 시각-언어 모델(VLM)이 컨텍스트를 분석하고 추론합니다.
3. 행동(Act): 한 단계에서 하나의 원자적 행동을 수행합니다.
행동 종류에는 다음이 포함됩니다:
- 표준 마우스-키보드 입력 (클릭, 타이핑, 스크롤)
- 웹 특화 행동 (웹 검색, URL 입력)
- 컨텍스트 관리 행동 (사용자 질문, 정보 저장)
| Fara1.5 데모 영상 |
FaraGen1.5: 합성 데이터 파이프라인
Fara1.5는 FaraGen1.5 시스템을 통해 대규모 훈련 데이터를 생성했습니다. 실제 웹에서 수행하기 어렵거나 위험한 작업(로그인, 이메일 발송, 결제)을 합성 환경에서 안전하게 학습합니다.

| 구성 요소 | 설명 |
|---|---|
| 환경 | 실제 웹 URL + 6개 샌드박스 환경 (이메일, 캘린더, 미디어 플랫폼, ML 실험 관리자, 마켓플레이스) |
| 솔버 | GPT-5.4 교사 에이전트 + 사용자 시뮬레이터가 후보 경로 생성 |
| 검증자 | 정확성, 효율성, 사용자 상호작용 품질 기준으로 경로 필터링 |
📊 훈련 데이터 구성
Fara1.5는 약 200만 샘플로 훈련되었으며, 다양한 작업 유형을 포함합니다:
| 데이터 유형 | 비율 | 설명 |
|---|---|---|
| 웹 경로 | 60.0% | 실제 웹사이트에서의 작업 경로 |
| 합성 환경 | 12.8% | 샌드박스 환경에서의 작업 |
| 양식 작성/상호작용 | 12.5% | 사용자 상호작용 학습 |
| 그라운딩 | 8.8% | 화면 요소 위치 파악 |
| VQA | 4.9% | 시각 질문 답변 |
| GUI 드래그 | 0.8% | 드래그 앤 드롭 작업 |
| 지시 준수 + 안전 | 0.1% | 안전 및 지시 준수 학습 |
훈련은 교차 엔트로피 손실을 사고와 행동에 적용하며, 최근 3턴에만 손실을 계산합니다. 이는 최종 행동에 집중하여 효율적인 학습을 가능하게 합니다.
| Fara1.5 데모 영상 |
🏆 벤치마크 성능 분석
Fara1.5는 두 주요 벤치마크에서 픽셀-행동 모델 중 최고 성능을 달성했습니다.

Online-Mind2Web 결과
Online-Mind2Web은 136개 웹사이트에서 300개 작업을 테스트하는 실시간 벤치마크입니다:
| 모델 | 점수 | 비교 |
|---|---|---|
Fara1.5-27B |
72.0% | 🥇 SOTA (픽셀-행동 모델) |
Yutori Navigator n1 |
64.7% | 2위 |
Fara1.5-9B |
63.4% | Fara-7B 대비 2배 향상 |
OpenAI Operator |
58.3% | 상용 서비스 |
Gemini 2.5 CU |
57.3% | 상용 서비스 |
Fara1.5-4B |
57.3% | Gemini 2.5 CU와 동등 |
💡 주요 발견: Fara1.5-27B는 OpenAI Operator(58.3%), Gemini 2.5 Computer Use(57.3%), Yutori Navigator n1(64.7%) 등 기존 상용 모델들을 모두 능가했습니다.
WebVoyager 결과
WebVoyager는 다양한 웹 작업 완료율을 측정합니다:
| 모델 | 점수 |
|---|---|
Fara1.5-27B |
88.6% |
Fara1.5-9B |
86.6% |
Fara1.5-4B |
80.8% |
Microsoft는 "Fara1.5-27B가 두 벤치마크에서 픽셀-행동 모델 중 새로운 최고 성능(SOTA)을 설정했다"고 밝혔습니다.
🔒 안전 기능 및 사용자 상호작용
Fara1.5는 안전한 웹 자동화를 위해 여러 보호 기능을 포함합니다:
안전 설계 원칙
- 위험 작업 거부: 공개 안전 데이터셋과 Microsoft의 책임 AI 정책 기반으로 유해 작업을 거부
- 사용자 승인 요청: 중요 결정점에서 사용자에게 승인 및 확인 요청
- 행동 로깅: 모든 행동이 기록되어 감사 가능 (MagenticLite 인터페이스)
사용자 상호작용 시점
Fara1.5는 다음 상황에서 사용자에게 질문합니다:
- 사용자 정보가 누락된 경우
- 작업이 불명확하게 정의된 경우
- 이메일 발송, 결제 등 되돌릴 수 없는 작업
- 사용자의 이전 승인 없이 위험 행동 수행 전
이러한 설계는 "사용자 선호를 존중하고 필요 시 승인과 확인을 요청"하는 목표를 실현합니다.
🚀 제공 및 활용 방법
Microsoft Foundry에서 제공
Fara1.5 모델은 Microsoft Foundry 플랫폼에서 제공됩니다:(블로그 작성 시점 링크 미동작)
| 모델 | 상태 | 플랫폼 |
|---|---|---|
Fara1.5-9B |
제공 중 | Microsoft Foundry + MagenticLite 통합 |
Fara1.5-4B |
출시 예정 | Microsoft Foundry |
Fara1.5-27B |
출시 예정 | Microsoft Foundry |
GitHub에서 인터페이스 제공
추론 인터페이스는 GitHub에서 제공됩니다: (블로그 작성 시점 Fara1.5 추론 인터페이스 미제공)
# GitHub 리포지토리
https://github.com/microsoft/fara
# Fara1.5 인터페이스 사용법
# Microsoft Foundry에서 API 호출 또는
# MagenticLite 인터페이스로 통합 사용
MagenticLite 통합
MagenticLite는 Fara1.5와 통합된 인터페이스입니다. 모든 행동이 로깅되어 감사할 수 있으며, 사용자 상호작용을 직접 관리할 수 있습니다.
| MagenticLite 통합 데모 영상 |
📊 다른 컴퓨터 사용 에이전트와 비교
Fara1.5는 기존 상용 컴퓨터 사용 에이전트와 어떻게 차별화될까요?
| 특징 | Fara1.5 | OpenAI Operator | Gemini 2.5 CU |
|---|---|---|---|
| 모델 크기 옵션 | 3개 (4B/9B/27B) | 단일 모델 | 단일 모델 |
| Online-Mind2Web | 72.0% | 58.3% | 57.3% |
| 합성 환경 학습 | 지원 (6개 샌드박스) | 미공개 | 미공개 |
| 안전 설계 | 공개 (안전 데이터셋) | 미공개 | 미공개 |
| 행동 로깅 | 지원 (MagenticLite) | 제한적 | 제한적 |
| 사용자 승인 | 명시적 설계 | 지원 | 지원 |
⚠️ 한계점과 주의사항
Fara1.5는 강력한 성능을 보여주지만 몇 가지 한계가 있습니다:
⚠️ 주의사항:
- 실시간 웹 테스트 필요: 벤치마크 성능은 테스트 환경에서의 결과입니다. 실제 환경에서의 성능은 다를 수 있습니다.
- 모델 크기별 성능 차이: 4B 모델은 57.3%로 Gemini 2.5 CU와 동등하지만, 27B 모델의 72% 성능을 기대하려면 더 큰 모델 필요
- Microsoft Foundry 제공: 현재 Fara1.5-9B만 제공 중, 4B와 27B는 "출시 예정" 상태(블로그 작성시점 Fara1.5 테스트 불가)
- 픽셀-행동 모델: DOM 기반 모델과 직접 비교 어려움
🎯 맺음말
지금까지 Microsoft Research의 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보았습니다. Fara1.5는 4B, 9B, 27B 세 가지 크기로 제공되며, Online-Mind2Web 벤치마크에서 72% SOTA 성능을 달성했습니다. 특히 관찰-사고-행동 루프, FaraGen1.5 합성 데이터 파이프라인, 안전 설계 등이 기존 상용 모델인 OpenAI Operator와 Gemini 2.5 Computer Use를 능가하는 성능을 가능하게 했습니다. 다만 Fara1.5-4B와 Fara1.5-27B는 Microsoft Foundry에서 "출시 예정" 상태이고, 현재 Fara1.5-9B도 링크가 동작하지 않고 있습니다.
링크가 정상화되면 여러분도 한번 Fara1.5를 Microsoft Foundry에서 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

📚 참고 문헌 및 출처
- Microsoft Research. (2026). Fara1.5 Computer Use Agent. Retrieved from https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
- GitHub. Microsoft Fara Repository. Retrieved from https://github.com/microsoft/fara
'AI 도구' 카테고리의 다른 글
| 🆓 320시간 무료 AI 학습: 23K Star AI Engineering from Scratch 완벽 가이드 (0) | 2026.05.28 |
|---|---|
| 🤖 새 프로젝트 코드 이해 1시간 → 5분: Understand-Anything 무료 가이드 (0) | 2026.05.28 |
| 🤖 CLI-Anything: 모든 소프트웨어를 AI 에이전트용 CLI로 변환하는 오픈소스 (0) | 2026.05.27 |
| 🔒 {긴급 보안 알림] GGUF Parser 취약점: Ollama·LM Studio 로컬 AI 보안 대응 가이드 (0) | 2026.05.27 |
| 🤖 LeRobot Humanoid: $2,500 오픈소스 3D 프린트 휴머노이드 로봇 완벽 가이드 (0) | 2026.05.24 |