본문 바로가기
AI 언어 모델

✨Gemini 1.5 프로 실험 버전: GPT-4o를 제치고 챗봇 아레나 1위!

by James AI Explorer 2024. 8. 3.
    728x90

    안녕하세요! 오늘은 2024년 8월 1일, 구글이 공개한 최신 AI 모델, Gemini 1.5 프로 실험 버전(0801)에 대해서 알아보겠습니다. 이 모델은 사용자가 각 챗봇의 응답을 익명으로 평가하는 LMSYS 챗봇 아레나의 리더보드에서 오랜 기간 동안 최고 자리를 지켜온 OpenAI ChatGPT-4o와 Claude 3.5 Sonnet을 제치고 새로운 벤치마크 1위의 기록을 세웠습니다. 이번 블로그에서는 Gemini 1.5 프로의 개요, 벤치마크 결과에 대해 살펴보고, 자체적으로 코딩 및 추론테스트를 해보겠습니다. 

    ✨Gemini 1.5 프로 실험 버전: GPT-4o를 제치고 챗봇 아레나 1위!

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    Gemini 1.5 프로 실험 버전(0801) 개요

    Gemini 1.5 프로 모델은 구글의 최신 AI 모델로, 한 번에 처리할 수 있는 입력 토큰 한도는 2,097,152회, 출력 토큰 한도는 8,192회입니다. 최대 7,200개의 이미지, 2시간의 동영상, 19시간의 오디오를 처리할 수 있습니다. 무료 플랜은 2 RPM(분당 요청 수), 32,000 TPM(분당 토큰 수), 50 RPD(일일 요청 수)를 지원하며, Pay-as-you-go 플랜은 360 RPM, 2,000,000 TPM, 10,000 RPD를 지원합니다. JSON 모드 및 스키마, 안전 설정 조정, 캐싱, 함수 호출, 코드 실행을 지원하며, 미세 조정은 지원하지 않습니다. 실험용 버전의 명칭은 "gemini-1.5-pro-exp-0801"입니다.

     

    Gemini 1.5 프로 실험 버전은 LMSYS 챗봇 아레나에서 1,300점을 기록하며, 이전 챔피언인 ChatGPT-4o(1,286점)와 Anthropic의 Claude-3.5 Sonnet(1,271점)를 초월했습니다. 이는 Gemini가 경쟁 모델들보다 전반적으로 더 뛰어난 능력을 가지고 있음을 나타냅니다. 이전 버전인 Gemini 1.5 프로는 1,261점을 기록했으나, 이번 실험적 버전은 그보다 훨씬 높은 점수를 기록했습니다. 

    LMSYS 챗봇 아레나 리더보드

    LMSYS 챗봇 아레나(Chatbot Arena)는 대규모 언어 모델(LLM)의 성능을 평가하고 비교하기 위한 플랫폼입니다. 챗봇 아레나는 사용자가 여러 챗봇의 응답을 비교하고 평가할 수 있는 환경을 제공합니다. 이 과정에서 사용자는 각 챗봇의 응답을 익명으로 평가하며, 이러한 평가 결과는 챗봇의 성능을 정량적으로 측정하는 데 사용됩니다

     

    현재 Gemini-1.5-pro-exp-0801은 실험적 버전으로 제공되고 있으며, 아래 화면과 같이 Google AI 스튜디오에 접속하시면 직접 경험해 보실 수 있습니다. 

    Google AI 스튜디오 Gemini 1.5 Pro 실험 모델

    728x90

    코딩 및 추론 테스트

    다음은 Gemini-1.5-pro-exp-0801의 코딩 및 추론성능을 테스트해 보겠습니다. 테스트 환경은 Windows 11 Pro(23H2), WSL2파이썬 버전 3.11비주얼 스튜디오 코드(이하 VSC) 1.91.1이며, VSC를 실행하여 "WSL 연결"을 통해 Windows Subsystem for Linux(WSL) Linux 환경에 액세스 하도록 구성하고, 채팅 인터페이스로 PraisonAI Chat를 사용하였습니다.

    테스트 환경 만들기

    Gemini-1.5-pro-exp-0801의 코딩 및 추론성능을 테스트하기 위한 작업순서는 다음과 같습니다.

    1. 가상환경 생성 및 활성화: VSC에서 메인 디렉토리를 생성한 후, 아래 명령어로 가상환경을 생성하고 활성화합니다. 

    python3.11 -m venv myenv
    source myenv/bin/activate

    2. 의존성 패키지 설치 및 API KEY 설정: Gemini-1.5-pro-exp-0801와 대화하기 위한 웹 기반 채팅 인터페이스, PraisonAI [Chat] 패키지를 설치하고 GEMINI_API_KEY를 발급받아 설정합니다. API KEY 발급은 Google AI 스튜디오에 접속하여 발급하면 됩니다. 

    pip install praisonai[chat]
    export GEMINI_API_KEY="발급받은 API KEY"
    source myenv/bin/activate && praisonai chat

    3. 챗봇 인터페이스 실행: "praisonai chat"을 입력하여 채팅 인터페이스를 실행하면 http://localhost:8084/주소에서 웹 채팅 인터페이스 로그인 창이 뜨며, ID와 패스워드에 admin/admin을 입력하여 로그인합니다. 

    praisonai chat

    praisonai chat 로그인

    4. 모델 설정: 사용자 프롬프트 입력창 왼쪽 설정 아이콘을 클릭하고 모델명을 "gemini/gemini-1.5-pro-exp-0801"를 입력합니다. 

    Gemini-1.5-pro-exp-0801 모델 설정

    코딩 테스트

    다음은 Gemini-1.5-pro-exp-0801의 코딩성능을 테스트해 보겠습니다. 테스트는  edabit.com 코딩 교육 사이트 Python, JavaScript, PHP, C++에 대하여 테스트하였으며, 재시도 없이 첫 번째 시도의 채점결과를 그대로 반영하였습니다. 

    Gemini-1.5-pro-exp-0801 코딩테스트
    Python 테스트 결과 Medium(좌), Hard(우)
    Python 테스트 결과 Very Hard(좌), Expert(우)
    JavaScript 테스트 결과 Medium(좌), Hard(우)
    JavaScript 테스트 결과 Very Hard(좌), Expert(우)
    PHP 테스트 결과 Medium(좌), Hard(우)
    PHP 테스트 결과 Very Hard(좌), Expert(우)테

    Gemini-1.5-pro-exp-0801 코딩 테스트 결과의 종합표는 다음과 같습니다. 결과는 매우 우수한 성능을 보여주었습니다. 

    gemini-1.5-pro-exp-0801/Pass@1 Easy Medium Hard Very Hard Expert
    Python Pass Pass Pass Pass Fail
    JavaScript Pass Pass Pass Pass Pass
    PHP Pass Pass Pass Pass Pass
    C++ Pass Pass Pass Pass Fail

    추론 테스트

    다음은 추론 테스트입니다. 문제는 총 6문제로 한국어, 영어 각 3문제 씩입니다. 문제와 정답은 다음과 같습니다.

    No. 문제 정답
    1 5장의 셔츠를 햇빛에 건조하는데 4시간이 걸린다고 해보자. 그렇다면 20장의 셔츠를 건조하는 데는 얼마나 걸릴까요? 각 단계를 차근차근 설명해 주세요. 4시간
    2 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? 5달러
    3 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. 3명
    4 A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. 테이블 위
    5 I have 2 apples, then I buy 2 more. I bake a pie with 2 of the apples. After eating half of the pie how many apples do I have left?  2개
    6 Sally is a girl. She has three brothers. Each of her brothers has the same two sisters. How many sisters does Sally have? 1명

    추론문제 1, 2
    추론문제 3, 4
    추론문제 5, 6

    추론문제/Pass@1 1 2 3 4 5 6
    gemini-1.5-pro-exp-0801 Fail Pass Pass Fail Pass Pass
    GPT-4o-mini Fail Pass Pass Pass Pass Pass

    추론 테스트 결과 Gemini-1.5-pro-exp-0801는 총 6문제 중 GPT-4o-mini보다 1문제 적은 4문제를 맞혔습니다. 

     

    전반적인 테스트 결과를 보면 Gemini-1.5-pro-exp-0801는 GPT-4o-mini와 비슷하거나 약간 낮은 성능을 보였습니다. 제 생각에는 챗봇의 답변을 보고 사용자가 익명으로 평가하는 챗봇 아레나의 특성으로 볼 때, 객관적인 성능을 나타내는 벤치마크 결과와는 좀 다를 수 있을 것 같습니다.

    맺음말

    오늘은 구글이 공개한 최신 AI 모델, Gemini 1.5 프로 실험 버전(0801)에 대해 살펴보았습니다. 이 모델은 챗봇 아레나에서 뛰어난 성능을 보이며, 기존 챔피언인 OpenAI의 ChatGPT-4o와 Anthropic의 Claude 3.5 Sonnet을 제치고 새로운 벤치마크 1위에 올랐습니다.

     

    블로그에서 살펴본 것과 같이 Gemini 1.5 프로 실험 버전(0801)은 Python, JavaScript, PHP, C++ 등 다양한 언어에서 매우 우수한 코딩 성능을 보여주었으며, 추론 테스트에서도 대부분의 문제를 정확하게 해결했습니다. 비록 일부 문제에서는 GPT-4o-mini보다 약간 낮은 성능을 보였지만, 전체적으로 매우 인상적인 결과를 기록했습니다.

     

    여러분도 Google AI 스튜디오에서 Gemini 1.5 프로 실험 버전을 직접 경험해 보시길 추천드리면서, 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2024.04.16 - [AI 도구] - [초보 필수] 제미나이 1.5 프로 API 활용 가이드: 40분 오디오 분석 1분 완료!

     

    [초보 필수] 제미나이 1.5 프로 API 활용 가이드: 40분 오디오 분석 1분 완료!

    안녕하세요! 오늘은 구글의 제미나이 1.5 프로 모델을 API를 이용해서 만나보겠습니다. 제미나이 1.5 프로는 최대 100만 토큰의 매우 긴 문맥을 이해하고 처리할 수 있으며, 텍스트, 코드, 이미지,

    fornewchallenge.tistory.com

     

    728x90