본문 바로가기
AI 도구

🤖 Microsoft Fara1.5: OpenAI Operator 능가하는 72% SOTA 웹 자동화 에이전트

by James AI Explorer 2026. 5. 28.
    728x90

    안녕하세요! 오늘은 Microsoft Research가 개발한 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보겠습니다. Fara1.5는 브라우저 기반 작업을 자동으로 수행하는 AI 모델로, 4B, 9B, 27B 세 가지 크기로 제공됩니다. 특히 Online-Mind2Web 벤치마크에서 72% 점수로 기존 상용 모델들을 능가하며, 웹 자동화 작업의 새로운 기준을 세웠습니다.

    이 블로그에서는 Fara1.5의 핵심 기술, 작동 방식, 성능 비교, 안전 기능, 실제 활용 방법에 대해 상세히 설명하겠습니다. 함께 살펴보시죠!

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

     

    🤖 Fara1.5란 무엇인가?

    Fara1.5는 Microsoft Research가 개발한 컴퓨터 사용 에이전트(CUA) 모델 패밀리입니다. 브라우저에서 상품 비교, 양식 작성, 이벤트 예약 등 복잡한 웹 작업을 자동으로 수행할 수 있습니다.

    💡 컴퓨터 사용 에이전트(CUA)란? 컴퓨터나 브라우저에서 인간처럼 작업을 수행하는 AI 시스템입니다. 화면을 보고, 생각하고, 행동하는 관찰-사고-행동 루프를 통해 웹 페이지와 상호작용합니다.

    세 가지 모델 크기

    Fara1.5는 다양한 성능과 비용 요구사항을 충족하기 위해 세 가지 크기로 제공됩니다:

    모델 파라미터 기본 모델 특징
    Fara1.5-4B 4억 Qwen3.5-4B 경량형, 저비용 작업
    Fara1.5-9B 9억 Qwen3.5-9B 중간형, Microsoft Foundry 제공
    Fara1.5-27B 27억 Qwen3.5-27B 고성능, SOTA 성능 달성

    Microsoft는 "각 모델 크기에서 가장 성능이 좋은 CUA 모델"이라고 설명합니다. Fara1.5-9B는 기존 Fara-7B의 34.1% 점수를 거의 두 배인 63.4%로 향상시켰습니다.

    ⚙️ Fara1.5 작동 방식

    관찰-사고-행동 루프

    Fara1.5는 인간처럼 웹 페이지를 탐색하는 관찰-사고-행동 루프를 사용합니다:

    1. 관찰(Observe): 대화 기록과 최근 3개 브라우저 스크린샷을 입력으로 받습니다.

    2. 사고(Think): 시각-언어 모델(VLM)이 컨텍스트를 분석하고 추론합니다.

    3. 행동(Act): 한 단계에서 하나의 원자적 행동을 수행합니다.

    행동 종류에는 다음이 포함됩니다:

    • 표준 마우스-키보드 입력 (클릭, 타이핑, 스크롤)
    • 웹 특화 행동 (웹 검색, URL 입력)
    • 컨텍스트 관리 행동 (사용자 질문, 정보 저장)
    Fara1.5 데모 영상

    FaraGen1.5: 합성 데이터 파이프라인

    Fara1.5는 FaraGen1.5 시스템을 통해 대규모 훈련 데이터를 생성했습니다. 실제 웹에서 수행하기 어렵거나 위험한 작업(로그인, 이메일 발송, 결제)을 합성 환경에서 안전하게 학습합니다.

    구성 요소 설명
    환경 실제 웹 URL + 6개 샌드박스 환경 (이메일, 캘린더, 미디어 플랫폼, ML 실험 관리자, 마켓플레이스)
    솔버 GPT-5.4 교사 에이전트 + 사용자 시뮬레이터가 후보 경로 생성
    검증자 정확성, 효율성, 사용자 상호작용 품질 기준으로 경로 필터링

    📊 훈련 데이터 구성

    Fara1.5는 약 200만 샘플로 훈련되었으며, 다양한 작업 유형을 포함합니다:

    데이터 유형 비율 설명
    웹 경로 60.0% 실제 웹사이트에서의 작업 경로
    합성 환경 12.8% 샌드박스 환경에서의 작업
    양식 작성/상호작용 12.5% 사용자 상호작용 학습
    그라운딩 8.8% 화면 요소 위치 파악
    VQA 4.9% 시각 질문 답변
    GUI 드래그 0.8% 드래그 앤 드롭 작업
    지시 준수 + 안전 0.1% 안전 및 지시 준수 학습

    훈련은 교차 엔트로피 손실을 사고와 행동에 적용하며, 최근 3턴에만 손실을 계산합니다. 이는 최종 행동에 집중하여 효율적인 학습을 가능하게 합니다.

    Fara1.5 데모 영상

     

    🏆 벤치마크 성능 분석

    Fara1.5는 두 주요 벤치마크에서 픽셀-행동 모델 중 최고 성능을 달성했습니다.

    Online-Mind2Web 결과

    Online-Mind2Web은 136개 웹사이트에서 300개 작업을 테스트하는 실시간 벤치마크입니다:

    모델 점수 비교
    Fara1.5-27B 72.0% 🥇 SOTA (픽셀-행동 모델)
    Yutori Navigator n1 64.7% 2위
    Fara1.5-9B 63.4% Fara-7B 대비 2배 향상
    OpenAI Operator 58.3% 상용 서비스
    Gemini 2.5 CU 57.3% 상용 서비스
    Fara1.5-4B 57.3% Gemini 2.5 CU와 동등

    💡 주요 발견: Fara1.5-27B는 OpenAI Operator(58.3%), Gemini 2.5 Computer Use(57.3%), Yutori Navigator n1(64.7%) 등 기존 상용 모델들을 모두 능가했습니다.

    WebVoyager 결과

    WebVoyager는 다양한 웹 작업 완료율을 측정합니다:

    모델 점수
    Fara1.5-27B 88.6%
    Fara1.5-9B 86.6%
    Fara1.5-4B 80.8%

    Microsoft는 "Fara1.5-27B가 두 벤치마크에서 픽셀-행동 모델 중 새로운 최고 성능(SOTA)을 설정했다"고 밝혔습니다.

    🔒 안전 기능 및 사용자 상호작용

    Fara1.5는 안전한 웹 자동화를 위해 여러 보호 기능을 포함합니다:

    안전 설계 원칙

    • 위험 작업 거부: 공개 안전 데이터셋과 Microsoft의 책임 AI 정책 기반으로 유해 작업을 거부
    • 사용자 승인 요청: 중요 결정점에서 사용자에게 승인 및 확인 요청
    • 행동 로깅: 모든 행동이 기록되어 감사 가능 (MagenticLite 인터페이스)

    사용자 상호작용 시점

    Fara1.5는 다음 상황에서 사용자에게 질문합니다:

    • 사용자 정보가 누락된 경우
    • 작업이 불명확하게 정의된 경우
    • 이메일 발송, 결제 등 되돌릴 수 없는 작업
    • 사용자의 이전 승인 없이 위험 행동 수행 전

    이러한 설계는 "사용자 선호를 존중하고 필요 시 승인과 확인을 요청"하는 목표를 실현합니다.

    🚀 제공 및 활용 방법

    Microsoft Foundry에서 제공

    Fara1.5 모델은 Microsoft Foundry 플랫폼에서 제공됩니다:(블로그 작성 시점 링크 미동작)

    모델 상태 플랫폼
    Fara1.5-9B 제공 중 Microsoft Foundry + MagenticLite 통합
    Fara1.5-4B 출시 예정 Microsoft Foundry
    Fara1.5-27B 출시 예정 Microsoft Foundry

    GitHub에서 인터페이스 제공

    추론 인터페이스는 GitHub에서 제공됩니다: (블로그 작성 시점 Fara1.5 추론 인터페이스 미제공)

    # GitHub 리포지토리
    https://github.com/microsoft/fara
    
    # Fara1.5 인터페이스 사용법
    # Microsoft Foundry에서 API 호출 또는
    # MagenticLite 인터페이스로 통합 사용
     

    MagenticLite 통합

    MagenticLite는 Fara1.5와 통합된 인터페이스입니다. 모든 행동이 로깅되어 감사할 수 있으며, 사용자 상호작용을 직접 관리할 수 있습니다.

    MagenticLite 통합 데모 영상

    📊 다른 컴퓨터 사용 에이전트와 비교

    Fara1.5는 기존 상용 컴퓨터 사용 에이전트와 어떻게 차별화될까요?

    특징 Fara1.5 OpenAI Operator Gemini 2.5 CU
    모델 크기 옵션 3개 (4B/9B/27B) 단일 모델 단일 모델
    Online-Mind2Web 72.0% 58.3% 57.3%
    합성 환경 학습 지원 (6개 샌드박스) 미공개 미공개
    안전 설계 공개 (안전 데이터셋) 미공개 미공개
    행동 로깅 지원 (MagenticLite) 제한적 제한적
    사용자 승인 명시적 설계 지원 지원

    ⚠️ 한계점과 주의사항

    Fara1.5는 강력한 성능을 보여주지만 몇 가지 한계가 있습니다:

    ⚠️ 주의사항:

    • 실시간 웹 테스트 필요: 벤치마크 성능은 테스트 환경에서의 결과입니다. 실제 환경에서의 성능은 다를 수 있습니다.
    • 모델 크기별 성능 차이: 4B 모델은 57.3%로 Gemini 2.5 CU와 동등하지만, 27B 모델의 72% 성능을 기대하려면 더 큰 모델 필요
    • Microsoft Foundry 제공: 현재 Fara1.5-9B만 제공 중, 4B와 27B는 "출시 예정" 상태(블로그 작성시점 Fara1.5 테스트 불가)
    • 픽셀-행동 모델: DOM 기반 모델과 직접 비교 어려움

    🎯 맺음말

    지금까지 Microsoft Research의 Fara1.5 컴퓨터 사용 에이전트에 대해 알아보았습니다. Fara1.5는 4B, 9B, 27B 세 가지 크기로 제공되며, Online-Mind2Web 벤치마크에서 72% SOTA 성능을 달성했습니다. 특히 관찰-사고-행동 루프, FaraGen1.5 합성 데이터 파이프라인, 안전 설계 등이 기존 상용 모델인 OpenAI Operator와 Gemini 2.5 Computer Use를 능가하는 성능을 가능하게 했습니다. 다만 Fara1.5-4B와 Fara1.5-27B는 Microsoft Foundry에서 "출시 예정" 상태이고, 현재 Fara1.5-9B도 링크가 동작하지 않고 있습니다.

     

    링크가 정상화되면 여러분도 한번 Fara1.5를 Microsoft Foundry에서 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

    https://fornewchallenge.tistory.com/

     

     


    📚 참고 문헌 및 출처

    728x90