본문 바로가기
AI 언어 모델

🚀 GPT-4o mini: OpenAI의 최첨단 고성능 저비용 AI 모델

by James AI Explorer 2024. 7. 20.
    728x90

    안녕하세요! 오늘은 OpenAI의 가장 비용 효율적인 소형 모델, GPT-4o mini에 대해서 알아보겠습니다. GPT-4o mini는 입력 토큰 백만 개당 15센트, 출력 토큰 백만 개당 60센트로 가격이 책정되어 있으며, 이는 GPT-3.5 Turbo보다 60% 이상 저렴한 가격으로, 이전의 최첨단 모델 GPT-4o보다 훨씬 저렴하게 다양한 응용 프로그램을 구축할 수 있습니다. 이 블로그에서는 GPT-4o mini 개요, 특징 및 주요 기능에 대해 알아보고 코딩 및 추론 테스트를 해보겠습니다.

    🚀 GPT-4o Mini: OpenAI의 고성능 저비용 최첨단 AI 모델

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    GPT-4o mini 개요

    GPT-4o mini는 128K 토큰의 컨텍스트 윈도우와 최대 16K 출력 토큰을 지원하며, 저비용과 고성능을 동시에 제공하여 GPT-3.5 Turbo보다는 약 3배, GPT-4o보다는 무려 33배 이상 저렴한 입력 가격을 제공하고, 출력 가격 또한 GPT-3.5 Turbo보다 약 2.5배, GPT-4o보다는 25배 저렴합니다. GPT-4o-mini는 GPT-3.5 Turbo와 GPT-4o에 비해 현저히 저렴한 가격으로 이용할 수 있어, 특히 대량의 텍스트 데이터를 처리해야 하는 경우 비용 절감 효과가 매우 클 것으로 예상됩니다.  

    모델 입력 가격 (1M 토큰당) 출력 가격 (1M 토큰당)
    GPT-3.5 Turbo $0.50 $1.50
    GPT-4o $5.00 $15.00
    GPT-4o mini $0.150 $0.600

    GPT-4o mini 특징 및 주요 기능은 다음과 같습니다.

    • 비용 효율성과 성능의 조화: GPT-4o mini는 저비용과 고성능을 동시에 제공함으로써, AI 응용 프로그램의 범위를 크게 확장할 수 있습니다. 예를 들어, 여러 모델 호출을 체인화하거나 병렬화하는 응용 프로그램, 대량의 컨텍스트를 모델에 전달하는 응용 프로그램, 고객과의 빠르고 실시간 텍스트 응답을 통한 상호작용 응용 프로그램 등이 가능합니다.
    • 다양한 입력 및 출력 지원: 현재 GPT-4o mini는 텍스트 및 비전(시각)을 API를 통해 지원하며, 앞으로 텍스트, 이미지, 비디오, 오디오 입력 및 출력을 지원할 예정이라고 합니다. 이 모델은 128K 토큰의 컨텍스트 윈도우와 요청당 최대 16K 출력 토큰을 지원하며, 2023년 10월까지의 지식을 보유하고 있습니다. 개선된 토크나이저 덕분에 한국어를 포함한 비영어 텍스트 처리도 비용 효율적으로 가능합니다.
    • 탁월한 텍스트 및 멀티모달 추론 능력: GPT-4o mini는 텍스트 지능 및 멀티모달 추론에서 GPT-3.5 Turbo를 비롯한 다른 소형 모델들을 능가합니다. 또한 GPT-4o와 동일한 범위의 언어를 지원하며, 함수 호출 성능도 우수하여 외부 시스템과의 데이터 가져오기나 작업 수행과 같은 응용 프로그램 개발에 유리합니다. GPT-4o mini는 GPT-3.5 Turbo보다 긴 컨텍스트에서 더 나은 성능을 발휘합니다.  
    728x90

    GPT-4o mini 성능 

    GPT-4o mini는 텍스트와 비전 추론 작업에서 MMLU 82.0%로 Gemini Flash와 Claude Haiku를 능가했습니다. 수학과 코딩에서도 MGSM 87.0%, HumanEval 87.2%를 기록하며 두 모델보다 뛰어난 성능을 보이면서, 멀티모달 추론 역시 MMMU 59.4%로 다른 모델보다 우수한 수준을 보이며, 다양한 응용 프로그램에서 강력한 성능을 입증했습니다.

    GPT-4o-mini 벤치마크 결과

     위 벤치마크 결과에서 보듯이 GPT-4o mini는 여러 중요한 벤치마크에서 우수한 성능을 보입니다.

    • 텍스트와 비전을 포함한 추론 작업: 다른 소형 모델보다 우수하며, MMLU(대규모 다중작업 이해 능력)에서 82.0%를 기록하여 Gemini Flash의 77.9%, Claude Haiku의 73.8%를 능가하는 성과를 보입니다.
    • 수학 및 코딩 능력: GPT-4o mini는 수학적 추론과 코딩 작업에서도 뛰어난 성능을 보였습니다. MGSM(Multilingual Grade School Math)에서 87.0%를 기록하여 Gemini Flash의 75.5%, Claude Haiku의 71.7%를 능가했으며, HumanEval 87.2%를 기록하여 Gemini Flash의 71.5%, Claude Haiku의 75.9%를 능가하는 코딩 성능을 보였습니다.
    • 멀티모달 추론: GPT-4o mini는 MMMU(Massive Multitask Language Understanding)에서 59.4%를 기록하여 Gemini Flash의 56.1%, Claude Haiku의 50.2%를 능가했습니다. 이를 통해 GPT-4o mini는 다양한 응용 프로그램에서 멀티모달 추론 능력을 발휘할 수 있음을 입증했습니다.

    GPT-4o mini 테스트

    다음은 GPT-4o mini의 코딩 및 추론성능을 테스트해 보겠습니다. 테스트 환경은 Windows 11 Pro(23H2), WSL2파이썬 버전 3.11비주얼 스튜디오 코드(이하 VSC) 1.91.1이며, VSC를 실행하여 "WSL 연결"을 통해 Windows Subsystem for Linux(WSL) Linux 환경에 액세스 하도록 구성하고, 채팅 인터페이스로 PraisonAI Chat를 사용하였습니다.

     

    GPT-4o mini의 코딩 및 추론성능을 테스트하기 위한 작업순서는 다음과 같습니다.

    1. 가상환경 생성 및 활성화: VSC에서 메인 디렉토리를 생성한 후, 아래 명령어로 가상환경을 생성하고 활성화합니다. 

    python3.11 -m venv myenv
    source myenv/bin/activate

    2. 의존성 패키지 설치 및 API KEY 설정: GPT-4o-mini와 대화하기 위한 웹 기반 채팅 인터페이스, PraisonAI [Chat] 패키지를 설치하고 OpenAI API KEY를 발급받아 설정합니다. API KEY 발급은 OpenAI에 가입한 후, Billing 페이지에서 결제방법을 등록하고 원하는 금액을 충전한 다음, https://platform.openai.com/api-keys에 접속하여 API KEY를 발급하면 됩니다. 

    pip install praisonai[chat]
    export OPENAI_API_KEY=발급받은 API KEY

    가상환경 생성 및 활성화, 의존성 패키지 설치

    3. 챗봇 인터페이스 실행: "praisonai chat"을 입력하여 채팅 인터페이스를 실행하면 http://localhost:8084/주소에서 웹 채팅 인터페이스 로그인 창이 뜨며, ID와 패스워드에 admin/admin을 입력하여 로그인합니다. 

    praisonai chat

    API KEY 설정, 챗봇 인터페이스 실행
    praisonai chat 로그인

    4. 모델 설정: 사용자 프롬프트 입력창 왼쪽 설정 아이콘을 클릭하고 모델명을 "gpt-4o-mini"를 입력합니다. 

    gpt-4o-mini 모델 설정

    코딩성능 테스트

    다음은 GPT-4o-mini의 코딩성능을 테스트해 보겠습니다. 먼저 "pygame을 이용해서 시작 버튼이 있는 스네이크 게임을 만들어줘"라고 요청한 결과, GPT-4o-mini세 번째 시도만에 아래 화면과 같이 모든 기능이 정상적으로 동작하는 스네이크 게임을 생성하였습니다. 

    GPT-4o-mini 스네이크 게임 생성 요청 및 답변
    GPT-4o-mini가 만든 스네이크 게임

    다음 코딩 테스트는 edabit.com 코딩 교육 사이트의 파이썬 코딩 시험문제 테스트이며, GPT-4o-mini는 모든 난이도 단계를 한 번에 성공하였습니다. 

    Python Easy 단계:성공
    Python Medium 단계:성공
    Python Hard 단계:성공
    Python Very Hard 단계:성공
    Python Expert 단계: 성공

    Python/Pass@1 Easy Medium Hard Very Hard Expert
    GPT-4o-mini Pass Pass Pass Pass Pass

    추론성능 테스트 

    다음은 추론성능 테스트로서, 첫 번째 문제는 셔츠 건조시간 문제입니다. 

    "5장의 셔츠를 햇빛에 건조하는데 4시간이 걸린다고 해보자. 그렇다면 20장의 셔츠를 건조하는 데는 얼마나 걸릴까요? 각 단계를 차근차근 설명해 주세요. 여러 셔츠를 동시에 건조할 수 있습니다. " - GPT-4o-mini 정답 : 4시간

    셔츠 건조시간에 대한 GPT-4o-mini의 답변

    다음 추론문제는 GSM8K (Grade School Math 8K, 8,500개의 다양한 초등학교 수학 서술형 문제 데이터셋)입니다.

    "베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요?" - GPT-4o-mini 정답 : 5달러   

    GSM8K 문제에 대한 GPT-4o-mini의 답변

    다음 추론 테스트는 살인자 문제입니다. 

    "방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요." - 정답 : 3명, GPT-4o-mini 오답

    GPT-4o-mini는 첫 번째 답변에서 방에 들어와서 살인을 저지른 사람을 제외하고 살인자가 총  2명이라고 오답을 제시했으며, 두 번째 답변에서 정답을 맞혔습니다. 

    살인자 문제 GPT-4o-mini 첫번째 답변
    살인자 문제 GPT-4o-mini 두번째 답변

    추론 테스트/Pass@1 셔츠 건조시간 GSM8K 문제 살인자 문제 비고
    GPT-4o-mini Pass Pass Fail  

     GPT-4o mini는 코딩테스트에서 모든 난이도의 문제를 한번에 맞혔으며, 추론 테스트에서도 3문제 중 2문제를 맞히면서 우수한 성능을 보여주었습니다.

    맺음말

    오늘은 OpenAI의 새로운 멀티모달 모델인 GPT-4o mini에 대해 살펴보았습니다. GPT-4o mini는 비용 효율성과 뛰어난 성능을 동시에 제공하며, 특히 대량의 텍스트 데이터를 처리해야 하는 응용 프로그램에서 큰 비용 절감 효과를 기대할 수 있습니다. MMLU, MGSM, HumanEval 등 다양한 벤치마크 테스트에서 다른 소형 모델들을 능가하는 성과를 보였고, 다양한 응용 프로그램에서 강력한 성능을 입증했습니다.

     

    또한, GPT-4o mini는 저렴한 가격으로 우수한 코딩 및 추론 능력을 제공하며, 앞으로 더 많은 입출력 기능과 확장성을 통해 AI 응용 프로그램 개발자들에게 더 많은 가능성을 열어줄 것으로 기대됩니다. 

     

    오늘 블로그는 여기까지입니다. 저는 그럼 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2024.07.18 - [AI 언어 모델] - 미스트랄 Codestral Mamba:🐍Mamba 아키텍처로 무장한 코드 생성 AI

     

    미스트랄 Codestral Mamba:🐍Mamba 아키텍처로 무장한 코드 생성 AI

    안녕하세요! 오늘은 미스트랄의 새로운 코드 생성 언어 모델, Codestral Mamba에 대해서 알아보겠습니다. Codestral Mamba는 프랑스의 Mistral AI 팀이 개발한 Mixtral 패밀리의 후속작으로, 특히 코드 생산성

    fornewchallenge.tistory.com

    728x90