본문 바로가기
AI 언어 모델

🏯🧠Hunyuan-T1: GPT 4.5 뛰어넘은 세계 최초 Hybrid-Transformer-Mamba MoE 모델

by James AI Explorer 2025. 3. 23.
    728x90

    안녕하세요! 오늘은 중국의 IT기업 텐센트가 새롭게 발표한 최신 인공지능 모델, Hunyuan-T1(혼원-T1)에 대해 살펴보겠습니다.  Hunyuan-T1은 세계 최초의 Mamba 아키텍처 기반 초대형 모델로, 트랜스포머 아키텍처와 Mamba 아키텍처를 결합한 하이브리드 구조를 채택하여, 긴 시퀀스 처리 능력을 획기적으로 향상시켰습니다. 특히, TurboS라는 고속 사고 기반 모델을 기반으로 대규모 사후 학습을 통해 추론 능력을 크게 확장하였으며, 인간 선호도에 더욱 부합하도록 설계되었습니다. 오늘 블로그에서는 Hunyuan-T1의 개요, 특징 및 주요 기능, 벤치마크 결과에 대해 알아보고 코딩, 수학, 추론성능을 직접 테스트해 보겠습니다. 

    🏯🧠Hunyuan-T1: GPT 4.5 뛰어넘은 세계 최초 Hybrid-Transformer-Mamba MoE 모델

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    1. Hunyuan-T1 개요

    텐센트 Hunyuan 팀에서 개발한 Hunyuan-T1 세계 최초의 Mamba 아키텍처 기반 울트라 대형 모델로, 뛰어난 추론 효율성을 목표로 탄생했습니다. 2024년 2월 중순, Hunyuan 팀은 중규모 Hunyuan 기반 모델을 활용한 Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview) 추론 모델을 Tencent Yuanbao 앱을 통해 처음 선보이며 사용자들에게 빠르고 심층적인 사고 경험을 제공했습니다. 이후 지속적인 연구 개발을 통해 모델을 업그레이드하여 2025년 3월, Hunyuan-T1 공식 버전을 출시하게 된 것입니다. 

    https://cloud.tencent.com/product/hunyuan

     

    腾讯混元大模型_大语言模型_自然语言大模型- 腾讯云

    腾讯客服 腾讯客服基于混元大模型支持客服多轮对话,在腾讯游戏、金融科技、腾讯视频、医疗健康、支付等多场景率先落地,业务喊人功率显著降低;同时作为客服助手,为人工客服提供推荐

    cloud.tencent.com

    텐센트 Hunyuan 팀에서 개발한 Hunyuan-T1세계 최초의 Mamba 아키텍처 기반 울트라 대형 모델로, 뛰어난 추론 효율성을 목표로 탄생했습니다. 세계 최초의 대규모 하이브리드-트랜스포머-Mamba MoE (Mixture of Experts) 모델인 TurboS 고속 사고 모델을 기반으로 대규모 사후 학습을 통해 추론 능력이 크게 확장되었으며 인간 선호도에 더욱 부합하게 학습되었습니다.

    728x90

    2. Hunyuan-T1 특징 및 주요 기능

    Hunyuan-T1은 기존 모델과 차별화되는 다양한 특징과 핵심 기능을 통해 뛰어난 추론 능력을 제공합니다.

    • 혁신적인 하이브리드-트랜스포머-Mamba MoE 아키텍처: Hunyuan-T1은 TurboS라는 고속 사고 기반 위에 구축되었으며, 트랜스포머 아키텍처와 Mamba 아키텍처를 결합한 하이브리드 구조를 채택했습니다. 특히 Mamba 아키텍처긴 시퀀스 처리 능력을 획기적으로 향상시켜 긴 문맥 추론에서 자주 발생하는 정보 손실 및 장거리 의존성 문제를 효과적으로 해결합니다. 또한, MoE (Mixture of Experts) 레이어를 통해 모델의 용량을 확장하고 각기 다른 전문성을 가진 여러 개의 '전문가' 네트워크를 활용하여 더욱 복잡하고 다양한 추론 task를 효율적으로 처리할 수 있습니다.
    • 강화된 장문맥 처리 능력: TurboS 기반은 Hunyuan-T1에게 뛰어난 장문맥 이해 능력을 부여합니다. 이는 긴 문서나 대화에서 중요한 정보를 놓치지 않고 전체적인 맥락을 파악하여 정확하고 깊이 있는 추론을 수행할 수 있도록 돕습니다. Mamba 아키텍처의 효율적인 컴퓨팅 방식은 장문맥 정보를 효과적으로 포착하는 동시에 컴퓨팅 자원 소모를 크게 줄여줍니다. 동일한 배포 조건에서 이전 모델 대비 2배 빠른 디코딩 속도를 제공합니다.
    • 집중적인 강화 학습 기반 사후 훈련: 모델의 사후 훈련 단계에서 컴퓨팅 자원의 96.7%를 순수 추론 능력 향상과 인간 선호도 최적화에 투자하고, 수학/논리 추론/과학/코드 등 다양한 영역의 세계적인 과학 및 추론 문제 데이터 세트를 수집하여 모델을 훈련했습니다.
    • 체계적인 훈련 계획 및 전략: Hunyuan-T1의 훈련에는 데이터 난이도를 점진적으로 높이는 커리큘럼 학습 방식을 채택하여 모델이 효율적으로 토큰을 사용하면서 추론 능력을 향상시키도록 설계되었습니다. 또한, 데이터 리플레이 및 주기적 정책 재설정과 같은 고전적인 강화 학습 전략을 활용하여 모델 훈련의 장기적인 안정성을 50% 이상 향상시켰습니다. 인간 선호도와의 정렬 단계에서는 초기 버전의 T1-preview 모델을 기반으로 모델 출력을 종합적으로 평가하고 점수를 매기는 자체 보상 (self-rewarding) 방식과 인간 피드백 보상 방식을 결합한 통합 보상 시스템 피드백 방식을 채택하여 모델이 스스로 개선하도록 유도했습니다. 

    https://tencent.github.io/llm.hunyuan.T1/README_EN.html

     

    llm.hunyuan.T1

    Reasoning Efficiency Redefined! Meet Tencent’s ‘Hunyuan-T1’—The First Mamba-Powered Ultra-Large Model 😄 blog   |    💬 demo   |    🔗 api   |    📝 Contact Reinforcement learning has pioneered a new Scaling paradigm in the post

    tencent.github.io

     

    3. Hunyuan-T1 벤치마크 결과

    Hunyuan-T1은 다양한 공용 벤치마크에서 뛰어난 성능을 입증하며 그 기술력을 인정받고 있습니다.

    Hunyuan-T1 벤치마크 결과

    MMLU-pro, CEval, AIME, Zebra Logic과 같은 다양한 중국어 및 영어 지식, 경쟁 수준의 수학 및 논리 추론 지표에서 DeepSeek R1과 비슷하거나 약간 더 나은 결과를 달성했습니다. 또한, 내부 인간 평가 데이터 세트에서도 R1과 동등한 수준의 성능을 보였으며, 문화 및 창의적 지시 따르기, 텍스트 요약, 에이전트 능력에서는 약간의 우위를 나타냈습니다.

     

    종합적인 평가 지표 측면에서 Hunyuan-T1의 전반적인 성능은 최고 수준의 첨단 추론 모델과 어깨를 나란히 합니다. 특히 광범위한 지식의 기억 및 이해 능력을 테스트하는 MMLU-PRO 평가에서 87.2점이라는 높은 점수로 O1 다음으로 2위를 기록했습니다. 또한, 물리학, 화학, 생물학 분야의 박사 수준의 어려운 문제들을 포함하여 전문 분야 지식과 복잡한 과학적 추론 능력을 평가하는 GPQA-diamond 평가에서는 69.3점을 달성했습니다.

    코드 평가 벤치마크인 LiveCodeBench에서 64.9점을 기록했으며, 특히 수학 문제 해결 능력 평가에서 뛰어난 성과를 보였습니다. MATH-500 평가에서는 96.2점이라는 우수한 점수를 기록하며 DeepSeek R1에 바짝 따라붙어 수학 문제 해결 능력에서의 뛰어난 역량을 입증했습니다. 이 외에도 다양한 정렬 task, 지시 따르기 task, 도구 활용 task에서 매우 뛰어난 적응력을 보여 ArenaHard task에서 91.9점을 기록했습니다.

    4. Hunyuan-T1 성능 테스트

    다음은 Hunyuan-T1의 성능을 테스트해 보겠습니다. Hunyuan-T1은 허깅페이스 스페이스에서 여러분도 직접 테스트해 보실 수 있습니다. 

    https://huggingface.co/spaces/tencent/Hunyuan-T1

     

    Hunyuan T1 - a Hugging Face Space by tencent

     

    huggingface.co

    • 구면 내에서 튀는 100개의 노란색 공 생성 스크립트: 천천히 회전하는 구 내에서 노란색 공이 머무르면서 충돌 감지를 처리하는 스크립트를 p5.js로 구현하기
    write a script for 100 bouncing yellow balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js
    구면 내에서 100개의 튀는 노란색 공에 대한 스크립트를 작성해줘, 충돌 감지를 제대로 처리해야 해. 구가 천천히 회전하도록 해줘. 공이 구 안에 머무르도록 해줘. p5.js로 구현해줘

    Hunyuan-T1의 구면 내에서 튀는 100개의 노란색 공 생성 답변

    Hunyuan-T1이 생성한 구면 내 100개의 노란색 공 생성 스크립트 실행결과

    Hunyuan-T1이 생성한 구면 내 100개의 노란색 공 생성 스크립트는 위 화면과 같이 구체의 회전과 투명도, 구체 내부에서의 노란 공 운동 등을 구현하는 데 성공하였습니다. 

    • 지구-화성 탐사궤도 애니메이션 생성: 우주선이 지구에서 출발해서 화성까지 갔다가 돌아오는 애니메이션 구현
    Generate code for an animated 3D plot of a launch from earth landing on mars and then back to earth at the next launch window
    지구에서 화성에 착륙한 후 다음 발사 창에서 지구로 돌아오는 애니메이션 3D 플롯에 대한 코드를 생성해줘

    Hunyuan-T1의 지구-화성 탐사궤도 애니메이션 생성 답변

    Hunyuan-T1이 생성한 지구-화성 탐사궤도 애니메이션은 단순한 직선운동으로 구현되어 궤적, 행성 운동, 속도/가속도 등의 우주공간에서의 물리 법칙이 구현되지 않았습니다.

    Hunyuan-T1이 생성한  지구-화성 탐사궤도 애니메이션 실행결과

    Hunyuan-T1이 생성한 지구-화성 탐사궤도 애니메이션 코드 실행결과를 Grok-3가 평가한 결과는 아래와 같습니다. 

    Hunyuan-T1이 생성한  지구-화성 탐사궤도 애니메이션 실행결과에 대한 Grok의 평가

    다음은 Hunyuan-T1의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 

    1) 코딩 테스트

    Hunyuan-T1 Python Expert 난이도: Pass
    Hunyuan-T1 JavaScript Expert 난이도: Pass
    Hunyuan-T1 C++ Expert 난이도: Fail

    Hunyuan-T1 Medium Hard Very Hard Expert
    Python Pass Pass Pass Pass
    JavaScript Pass Pass Pass Pass
    C++ Pass Pass Pass Fail

    코딩 테스트 결과 Hunyuan-T1 C++ Expert 난이도를 제외모든 난이도 문제를 성공하였으며,  C++ Expert 난이도 문제를 해결하는 과정에서 QwQ-Max-Preview가 4만 자의 추론 토큰을 출력한 것과 비슷한 수준인 약 3.8만 자의 추론 토큰을 출력하였습니다. 

    C++ Expert 난이도 문제에서 Hunyuan-T1이 출력한 추론 토큰 글자수

    2) 수학 테스트

    Hunyuan-T1 수학 테스트 기하학 문제: Pass
    Hunyuan-T1 수학 테스트 복합문제: Pass

    No. 문제 구분 문제 Hunyuan-T1
    1 기초 대수 문제 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 Pass
    2 기하학 문제 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. Pass
    3 확률 문제 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. Pass
    4 수열 문제 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. Pass
    5 최적화 문제 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? Pass
    6 복합 문제 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. Pass

    수학 테스트에서 Hunyuan-T1는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.

    3) 추론 테스트

    Hunyuan-T1 추론 테스트 수학 경시대회 문제: Pass
    Hunyuan-T1 추론 테스트 버스 문제: Pass
    Hunyuan-T1 추론 테스트 살인자 문제: Pass
    Hunyuan-T1 추론 테스트 구슬 문제: Pass

    No. 문제 Hunyuan-T1
    1 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다.
    6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?
    Pass
    2 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? Pass
    3 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. Pass
    4 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. Pass
    5 A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. Pass
      도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? Pass

    Hunyuan-T1의 테스트 종합결과는 다음과 같습니다. 

    구분 코딩 테스트 결과 수학 테스트 결과 추론 테스트 결과 평균
    Hunyuan-T1 91.67 100 100 97.22

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    5. 맺음말

    Hunyuan-T1은 텐센트의 최신 인공지능 모델로, 혁신적인 Mamba 아키텍처와 하이브리드 트랜스포머 구조를 통해 뛰어난 추론 능력을 자랑합니다. 이 모델은 다양한 영역에서 높은 성능을 발휘하며, 특히 수학, 논리, 코딩 등 복잡한 문제 해결에서 탁월한 성과를 보여주고 있습니다.

     

    트랜스포머가 대부분인 대규모 언어 모델의 기술분야에 새로운 혁신을 일으킨 텐센트의 Hunyuan-T1모델을 여러분도 허깅페이스 스페이스에서 한 번씩 경험해 보시길 추천드리면서, 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다!

     

    https://fornewchallenge.tistory.com/

     

     

    2025.03.05 - [AI 언어 모델] - 🐪🤖 QwQ-Max-Preview: 알리바바의 최신 추론 모델 심층 분석 !

     

    🐪🤖 QwQ-Max-Preview: 알리바바의 최신 추론 모델 심층 분석 !

    안녕하세요! 오늘은 알리바바에서 공개한 Qwen 시리즈의 최신 모델, QwQ-Max-Preview에 대해 살펴보겠습니다. QwQ-Max-Preview는 기존 Qwen2.5-Max를 기반으로 더욱 강화된 추론 능력과 다재다능한 문제 해결

    fornewchallenge.tistory.com

     

    728x90