본문 바로가기
AI 도구

🚀 Qwen3.7-Plus: 비전과 코드를 한 번에 처리하는 알리바바 최신 멀티모달 출시

by James AI Explorer 2026. 6. 4.
    728x90

    안녕하세요! 오늘은 알리바바가 6월 1일에 정식 출시한 Qwen3.7-Plus에 대해 알아보겠습니다. Qwen3.7-Plus는 비전과 언어를 통합한 멀티모달 에이전트 모델로, 화면 인식, 코드 작성, 도구 호출, GUI 조작까지 하나의 모델로 처리합니다. 특히 1M 토큰 컨텍스트35시간 자율 실행 환경을 지원하며, 가격은 경쟁 모델보다 최대 6배 저렴합니다. 이 글에서는 Qwen3.7-Plus의 핵심 기능, 벤치마크 성능, API 사용법, Qwen3.7-Max와의 차이점에 대해 상세히 살펴보겠습니다. 함께 살펴보시죠!

     

     

     

     

     

    🤖 Qwen3.7-Plus란 무엇인가?

    Qwen3.7-Plus는 알리바바 Qwen 팀이 2026년 6월 1일 공개한 멀티모달 에이전트 기반 모델입니다. 기존 Qwen3.7의 텍스트 처리 능력을 계승하면서, 이미지와 비디오 입력을 추가로 지원합니다. 단순한 멀티모달 모델을 넘어, GUI 조작, 스크린 읽기, 코드 생성, 도구 호출을 하나의 작업 루프 안에서 처리할 수 있습니다.

    이 모델은 Claude Code, OpenClaw, Qwen Code 등 다양한 에이전트 프레임워크와 호환됩니다. 즉, 사용 중인 프레임워크에 상관없이 동일한 수준의 멀티모달 에이전트 성능을 얻을 수 있습니다. 특히 화면 스크린샷만 보고 코드를 작성하거나, 앱 UI를 분석해 자동으로 조작하는 등 시각 정보를 기반으로 한 작업이 가능해졌습니다.

    핵심 특징 요약:

    • 모드: 텍스트 + 이미지 + 비디오 입력 지원
    • 컨텍스트: 100만 토큰
    • 자율 실행: 최대 35시간 연속 작업
    • 도구 호출: 1000회 이상 순차 호출 가능
    • 배포: Alibaba Cloud Model Studio, Qwen Studio
    • 프레임워크: Claude Code, OpenClaw, Qwen Code 등 호환

    📊 벤치마크 성능 분석

    Qwen3.7-Plus는 텍스트 중심 벤치마크와 코딩 에이전트 벤치마크 모두에서 Qwen3.6-Plus 대비 큰 향상을 보입니다. 특히 GUI 기반 에이전트 평가에서 두드러진 성과를 나타냅니다.

    💻 코딩 에이전트 벤치마크

    다음 표는 주요 코딩 에이전트 벤치마크에서 Qwen3.7-Plus의 성적입니다. 비교 대상으로 Opus-4.6 Max, K2.6 Thinking, GLM-5.1 Thinking, DeepSeek-V4-Pro Max, Qwen3.6-Plus를 포함했습니다.

    벤치마크 Opus-4.6 Max K2.6 Thinking GLM-5.1 Thinking DeepSeek-V4-Pro Max Qwen3.6-Plus Qwen3.7-Plus
    Terminal Bench 2.0-Terminus 65.4 66.7 63.5 67.9 61.6 70.3
    SWE-Verified 80.8 80.2 -- 80.6 78.8 77.7
    SWE-Pro 57.3 59.5 58.8 59.0 56.6 57.6
    SWE-Multilingual 77.5 76.7 -- 76.2 73.8 75.8
    NL2repo 47.6 42.8 41.0 35.5 34.4 41.1
    SciCode 51.9 52.2 45.1 -- 41.4 51.3
    QwenWebDev 1617 -- 1564 1570 1500 1536
    QwenSVG 1541 1325 1605 1506 1432 1588

    벤치마크 해석: Qwen3.7-Plus는 Terminal Bench 2.0-Terminus, NL2repo, SciCode, QwenSVG에서 Qwen3.6-Plus보다 높은 점수를 기록했습니다. 특히 GUI가 필요한 에이전트 작업과 과학 코드 작성에서 개선이 확인됩니다.

    🤝 일반 에이전트 벤치마크

    Qwen3.7-Plus는 GUI 조작, 도구 호출, 협업 에이전트 작업에서도 강세를 보입니다. 다음 표를 확인해보세요.

    벤치마크 Opus-4.6 Max K2.6 Thinking GLM-5.1 Thinking DeepSeek-V4-Pro Max Qwen3.6-Plus Qwen3.7-Plus
    Qwenclaw 65.5 54.7 58.7 59.2 57.2 61.8
    CoWorkBench 68.2 58.2 66.0 66.3 64.5 65.1
    ClawEval 70.4 61.5 62.7 58.4 57.1 62.7
    Skillsbench -- 56.2 53.1 52.3 45.7 54.9
    BFCL-V4 76.7 71.3 70.9 70.6 68.9 72.9
    MCP-Mark -- -- -- -- -- 81.0

    에이전트 성능 요약: Qwen3.7-Plus는 BFCL-V4와 MCP-Mark에서 Qwen3.6-Plus 대비 큰 폭의 상승을 보입니다. 특히 MCP 프로토콜과의 호환성 평가에서 81.0점을 기록하며, 실용적인 에이전트 워크플로에서 강점을 확인했습니다.

    👁️ 멀티모달 비전 능력

    Qwen3.7-Plus는 텍스트뿐 아니라 이미지와 비디오 입력을 직접 이해할 수 있습니다. 단순한 이미지 캡셔닝을 넘어, 스크린샷 속 UI 요소를 분석하고 코드 스니펫을 인식하며, 모바일 앱 화면을 읽고 조작하는데 사용됩니다.

    예를 들어 개발자는 앱 디자인 목업 이미지를 보고 해당 디자인을 구현하는 코드를 생성할 수 있고, QA 엔지니어는 테스트 실행 결과 화면을 모델에 전달해 문제를 진단받을 수 있습니다. 이처럼 GUI와 CLI가 하나의 루프에서 자연스럽게 섞이는 하이브리드 에이전트가 이번 출시의 핵심입니다.

    참고: Qwen3.7-Max는 텍스트 전용 모델입니다. 이미지나 비디오를 처리해야 한다면 Qwen3.7-Plus를 선택해야 합니다.

    💰 가격 및 사용 환경

    Qwen3.7-Plus는 입력 토큰당 0.40달러, 출력 토큰당 1.60달러에 제공됩니다. 캐시된 입력은 0.08달러로 매우 저렴합니다. 경쟁 모델인 Qwen3.7-Max와 비교하면 입력 기준으로 약 6배, 출력 기준으로 약 4.7배 저렴한 수준입니다.

    같은 1M 컨텍스트와 35시간 자율 실행 환경을 제공하면서도 가격 경쟁력이 높기 때문에, 예산이 제한된 팀이나 비용 효율을 중요하게 생각하는 사용자에게 매력적인 선택이 될 수 있습니다.

    항목 Qwen3.7-Plus Qwen3.7-Max
    출시일 2026-06-01 2026-05-21
    입력 가격 0.40 USD / 1M 토큰 2.50 USD / 1M 토큰
    출력 가격 1.60 USD / 1M 토큰 7.50 USD / 1M 토큰
    캐시 입력 0.08 USD / 1M 토큰 0.25 USD / 1M 토큰
    컨텍스트 1M 토큰 1M 토큰
    자율 실행 35시간 35시간
    비전 지원 지원 미지원

    🚀 사용 방법 및 접근 방법

    Qwen3.7-Plus는 현재 Alibaba Cloud Model StudioQwen Studio를 통해 API 호출로 사용할 수 있습니다. OpenAI 호환 엔드포인트를 제공하므로, 기존에 OpenAI SDK를 쓰던 코드에서 base_url만 변경해 바로 연동할 수 있습니다.

    from openai import OpenAI
    
    client = OpenAI(
        api_key="YOUR_DASHSCOPE_API_KEY",
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
    )
    
    response = client.chat.completions.create(
        model="qwen3.7-plus",
        messages=[
            {"role": "user", "content": [
                {"type": "text", "text": "이 스크린샷의 버그를 분석하고 수정 방법을 제안해줘."},
                {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}}
            ]}
        ]
    )
    
    print(response.choices[0].message.content)
     

    API 연동 팁: dashscope 패키지를 사용하면 Alibaba Cloud의 Qwen 모델을 OpenAI 방식 그대로 호출할 수 있습니다. 이미지 입력은 image_url 타입으로 전달하며, 비디오의 경우 파일 업로드나 URL 형식을 지원합니다.

    ⚔️ Qwen3.7-Max와 비교 분석

    같은 시기에 출시된 Qwen3.7-Max와 Qwen3.7-Plus는 같은 1M 컨텍스트와 35시간 자율 실행 환경을 공유하지만, 가격과 모달리티에서 차이가 있습니다. Max는 텍스트 전용 고성능 모델, Plus는 멀티모달 가성비 모델이라고 이해하면 쉽습니다.

    비교 항목 Qwen3.7-Plus Qwen3.7-Max
    모달리티 텍스트 + 이미지 + 비디오 텍스트만
    비전 Arena #16 해당 없음
    LM Arena 텍스트 #15 #13
    LM Arena 코딩 #12 #10
    SWE-Bench Pro 약 60% 60.6%
    가격 저렴 (~6배) 프리미엄

    코딩 에이전트, GUI 자동화, 문서 작업 등 대부분의 실무 시나리오에서는 Plus의 가성비가 앞섭니다. 반면 SWE-Bench Pro 0.6% 포인트 차이가 의미 있는 팀은 Max를 고려할 수 있습니다.

    💡 실제 활용 시나리오

    Qwen3.7-Plus는 GUI 조작이 필요한 자동화멀티모달 입력이 필요한 코딩 작업에서 특히 유용합니다. 몇 가지 대표 사례를 소개합니다.

    활용 사례 1: 화면 기반 코드 리뷰
    개발자가 에러 화면이나 로그 스크린샷을 모델에 전달하면, 모델이 문제 원인을 분석하고 수정 코드를 제안합니다. 텍스트만 보고 디버깅하는 것보다 훨씬 빠른 해결이 가능합니다.

    활용 사례 2: 디자인 목록 구현
    Figma나 PNG 형태의 디자인 목업 이미지를 전달하면, 해당 디자인을 HTML/CSS 코드로 변환해줍니다. 프론트엔드 프로토타이핑 시간을大幅 단축할 수 있습니다.

    활용 사례 3: 모바일 앱 자동화
    앱 UI 스크린샷을 읽고 다음 동작을 결정하는 autonomous agent를 구축할 수 있습니다. 테스트 자동화나 반복 업무 처리에 적용할 수 있습니다.

    # Qwen3.7-Plus API 요청 예시
    curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \\
      -H "Authorization: Bearer $DASHS...EY" \\
      -H "Content-Type: application/json" \\
      -d '{
        "model": "qwen3.7-plus",
        "messages": [
          {
            "role": "user",
            "content": [
              {"type": "text", "text": "이 이미지를 분석해주세요."},
              {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
            ]
          }
        ]
      }'
     

    ⚠️ 한계점과 주의사항

    Qwen3.7-Plus는 강력한 멀티모달 에이전트 모델이지만, 몇 가지 제약을 이해하고 사용해야 합니다.

    한계점:

    • 고해상도 비디오 입력 시 처리 시간이 길어질 수 있음
    • 한국어 벤치마크 비공식 평가 결과는 아직 제한적
    • 일부 특수 포맷 이미지 인식 정확도가 낮을 수 있음
    • Bailian 플랫폼 외 직접 API 연동은 가이드 확인 필요

    특히 한국어 환경에서의 성능은 공식 벤치마크에 영어와 중국어 위주로 집계되어 있습니다. 국내 사용자라면 실제 사용 전 소규모 테스트를 통해 요청-응답 품질을 직접 확인하는 것이 좋습니다.

     

     

     

     

     

    🎯 맺음말

    지금까지 알리바바가 2026년 6월 1일 출시한 Qwen3.7-Plus에 대해 알아보았습니다. Qwen3.7-Plus는 비전과 언어를 통합한 멀티모달 에이전트로, 1M 토큰 컨텍스트와 35시간 자율 실행 환경, 6배 저렴한 가격이 특징입니다. Terminal Bench 2.0, NL2repo, SciCode, MCP-Mark 등에서 Qwen3.6-Plus 대비 성능 향상을 확인했습니다.

    다만 한국어 벤치마크가 부족하고, 고해상도 비디오 처리에는 추가 검증이 필요합니다. 현재 코딩 에이전트나 GUI 자동화를 구축 중이라면, Qwen3.7-Plus를 먼저 테스트해보는 것을 추천합니다.

     

    여러분도 Qwen3.7-Plus를 Alibaba Cloud Model Studio에서 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

    https://fornewchallenge.tistory.com/

     

     

     

     

     

     


    📚 참고 문헌 및 출처

     

    728x90