본문 바로가기
AI 언어 모델

🤖✨ Gemma 3 모델 심층 분석: 구글의 차세대 개방형 멀티모달 AI

by James AI Explorer 2025. 3. 15.
    728x90

    안녕하세요! 오늘은 구글이 새롭게 발표한 최신 인공지능 모델, Gemma 3에 대해 살펴보겠습니다. Gemma 3는 텍스트와 이미지 입력을 모두 처리할 수 있는 멀티모달 AI 모델로, 이전 버전보다 더욱 강력한 성능과 확장된 기능을 제공합니다. 특히, 다양한 크기와 사양으로 제공되어 단일 GPU 또는 TPU 환경에서도 실행 가능하다는 점이 큰 장점입니다.

    이번 블로그에서는 Gemma 3의 주요 특징과 기능, 벤치마크 결과를 살펴보고, 성능을 테스트해 보겠습니다. 

    🤖✨ Gemma 3 모델 심층 분석: 구글의 차세대 개방형 멀티모달 AI

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    1. Gemma 3 개요

    Gemma 3는 텍스트와 이미지 입력을 모두 처리하고 텍스트를 출력하는 멀티모달 기능을 갖춘 모델입니다. 이전 버전보다 더욱 향상된 성능과 확장된 기능을 제공하며, 다양한 규모와 사양으로 제공되어 사용자의 필요와 컴퓨팅 환경에 맞춰 선택할 수 있습니다. 주요 모델 종류와 사양은 다음과 같습니다:

    모델
    종류
    입력 컨텍스트 지원
    Gemma 3 1B
    텍스트 전용
    32K
    Gemma 3 4B, 12B, 27B
    멀티모달 (텍스트 및 이미지)
    128K

    Gemma 1B 모델은 32K 토큰의 입력 컨텍스트, 4B, 12B, 27B 모델은 128K 토큰의 매우 긴 입력 컨텍스트를 지원합니다. 이는 이전 Gemma 모델보다 16배 확장된 크기로, 훨씬 더 많은 양의 정보를 한 번에 처리할 수 있게 해 줍니다.

    매개변수 수와 양자화 수준에 따라 모델을 로드하는 데 필요한 대략적인 GPU 또는 TPU 메모리는 다음과 같습니다. 

    매개변수  전체 32비트 BF16 (16비트) SFP8(8비트) Q4_0(4비트) INT4(4비트)
    Gemma 3 1B 4GB 1.5GB 1.1 GB 892 MB 861 MB
    Gemma 3 4B 16GB 6.4 GB 4.4 GB 3.4 GB 3.2 GB
    Gemma 3 12B 48GB 20GB 12.2 GB 8.7 GB 8.2 GB
    Gemma 3 27B 108 GB 46.4GB 29.1 GB 21 GB 19.9 GB

    Gemma 3 모델텍스트 및 이미지 입력을 받아 최대 8192 토큰의 텍스트를 출력합니다. 학습 데이터는 웹 문서, 코드, 수학, 이미지 등이며, 27B 모델은 14조 토큰으로 학습되었습니다. 학습에는 Google TPU (v4p, v5p, v5e) 하드웨어와 JAX, ML Pathways 소프트웨어가 사용되었습니다.

     

    Gemma 3는 오픈 모델로, 개방형 가중치를 제공하여 사용자가 자유롭게 조정하고 배포할 수 있습니다. Kaggle과 Hugging Face에서 다운로드 가능하며, Creative Commons 및 Apache 2.0 라이선스를 따름으로써, 개발자와 연구자에게 VLM 기술에 대한 접근성을 높여줍니다.

    https://blog.google/technology/developers/gemma-3/

     

    Introducing Gemma 3: The most capable model you can run on a single GPU or TPU

    Today, we're introducing Gemma 3, our most capable, portable and responsible open model yet.

    blog.google

    728x90

    2. Gemma 3 특징 및 주요 기능

    Gemma 3는 다양한 분야에서 AI 애플리케이션 개발을 가능하게 하는 특징과 주요 기능을 탑재하고 있습니다.

    • 향상된 멀티모달 기능: 4B, 12B, 27B 모델은 텍스트와 이미지 데이터를 동시에 처리하고 이해하는 멀티모달 기능을 제공합니다. 이미지 해석, 객체 인식, 시각적 질의응답 등 다양한 작업을 수행할 수 있으며, 텍스트 기반 작업에 시각적 정보를 효과적으로 활용할 수 있도록 지원합니다.
    • 컨텍스트 이해 능력: 최대 128K 토큰의 넓은 컨텍스트 창은 Gemma 3가 긴 문서, 복잡한 대화, 다수의 이미지 등 방대한 양의 정보를 한 번에 처리하고 이해할 수 있도록 합니다. 이는 이전 모델들에서는 어려웠던 장문 요약, 심층적인 질의응답, 복잡한 추론 등의 작업에서 뛰어난 성능을 발휘할 수 있는 기반이 됩니다.
    • 폭넓은 언어 지원: 140개 이상의 언어에 대한 기본적인 지원은 전 세계 다양한 언어 사용자를 대상으로 하는 AI 애플리케이션 개발에 매우 유리합니다. 사용자는 자신의 모국어로 Gemma 3와 상호작용할 수 있으며, 다국어 기반의 텍스트 분석 및 생성 작업도 효율적으로 수행할 수 있습니다.
    • 최적화된 모델 크기 및 정밀도: 다양한 크기와 정밀도로 제공되는 Gemma 3 모델은 개발자가 자신의 하드웨어 환경과 성능 요구 사항에 맞춰 최적의 모델을 선택할 수 있도록 합니다. 특히 양자화된(quantized) 버전은 모델 크기와 컴퓨팅 자원 요구량을 줄이면서도 높은 정확도를 유지하여, 자원 제약적인 환경에서도 효율적인 모델 배포 및 실행을 가능하게 합니다.
    • 다양한 작업 수행 능력: Gemma 3 모델은 질문 답변, 텍스트 요약, 논리적 추론, 창의적인 텍스트 형식 생성 (시, 스크립트, 코드, 마케팅 문구, 이메일 초안 등), 이미지 데이터 분석 및 추출 등 광범위한 자연어 처리 및 컴퓨터 비전 관련 작업을 수행할 수 있습니다.
    • 함수 호출(Function Calling) 및 구조화된 출력 지원: Gemma 3는 함수 호출 및 구조화된 출력을 지원하여 개발자들이 특정 작업을 자동화하고 에이전트 기반의 경험을 구축하는 데 도움을 줍니다. 이를 통해 외부 도구나 API와 연동하여 더욱 복잡하고 실용적인 AI 애플리케이션을 개발할 수 있습니다.
    • 폭넓은 도구 및 프레임워크 통합: Gemma 3 및 ShieldGemma 2는 Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, Google AI Edge, UnSloth, vLLM, Gemma.cpp 등 다양한 개발 도구 및 프레임워크와 원활하게 통합됩니다. 이를 통해 개발자들은 자신이 익숙한 환경에서 Gemma 3를 쉽게 활용하고 실험할 수 있습니다.

    3. Gemma 3 벤치마크 결과

    Gemma 3는 다양한 벤치마크 테스트에서 동급 모델 대비 최첨단 성능을 입증했습니다. 특히, Chatbot 아레나 리더보드의 인간 선호도 평가에서 Llama3-405B, DeepSeek-V3, o3-mini를 능가하는 결과를 보여주며, 단일 GPU 또는 TPU 환경에서도 뛰어난 사용자 경험을 제공할 수 있음을 시사합니다.

    허깅페이스 Chatbot Arena 리더보드 결과

    Chatbot Arena Elo Score에서 1338점을 기록하며, 여러 오픈 소스 및 상용 모델보다 높은 성능을 보였으며, DeepSeek R1(1363점)에 이어 두 번째로 높은 점수를 기록하고, 이전 버전인 Gemma 2 27B(1220점)보다 성능이 크게 향상되었습니다. 다음은 Gemma 3 모델과 Gemini 모델과의 다양한 작업에 대한 벤치마크 결과를 비교한 표입니다:

    Gemma 3와 Gemini 모델의 벤치마크 결과 비교표

    • 추론 및 사실성 (Reasoning and Factuality): HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, Natural Questions, ARC-c, ARC-e, WinoGrande, BIG-Bench Hard, DROP 등 다양한 벤치마크에서 모델 크기가 커질수록 성능이 꾸준히 향상되는 것을 확인할 수 있습니다. 특히, 27B 모델은 TriviaQA, Natural Questions, ARC-e 등에서 높은 점수를 기록하며 뛰어난 추론 및 사실성 능력을 입증했습니다.
    • STEM 및 코드 (Science, Technology, Engineering, Mathematics and Code): MMLU, AGIEval, MATH, GSM8K, GPQA, MBPP, HumanEval 등의 벤치마크에서 Gemma 3 모델은 뛰어난 STEM 지식과 코딩 능력을 보여줍니다. 특히, 27B 모델은 MMLU, GSM8K 등에서 높은 성능을 나타냈습니다.
    • 다국어 (Multilingual): MGSM, Global-MMLU-Lite, WMT, FloRes, XQuAD, ECLeKTic, IndicGenBench 등 다양한 다국어 벤치마크에서 Gemma 3 모델은 뛰어난 다국어 처리 능력을 입증했습니다. 이는 140개 이상의 언어에 대한 학습 데이터가 효과적으로 활용되었음을 보여줍니다.
    • 멀티모달 (Multimodal): COCOcap, DocVQA, InfoVQA, MMMU, TextVQA, RealWorldQA, ReMI, AI2D, ChartQA, VQAv2, BLINK, OKVQA, TallyQA, SpatialSense VQA, CountBenchQA 등 다양한 시각적 질의응답 및 이미지 캡셔닝 벤치마크에서 Gemma 3 모델은 우수한 성능을 나타냅니다. 이는 텍스트와 이미지 입력을 효과적으로 이해하고 통합하는 능력을 보여줍니다.

    4. Gemma 3 성능 테스트

    다음은 Gemma 3 모델의 성능을 테스트해 보겠습니다. 먼저, 이미지 테스트는 Ollama에서 내려받은 Gemma 3:4B 모델을 Open WebUI 인터페이스 활용해서 이미지/그래프/표 인식, 글자 추출 및 코딩성능을 테스트하였습니다. Ollama 설치, 모델 다운로드 및 실행에 대한 내용은 아래 링크를 참고하세요.

    2024.11.10 - [AI 언어 모델] - 💡Ollama 로컬 멀티모달 AI: Llama 3.2 Vision 설치 및 활용 가이드

     

    💡Ollama 로컬 멀티모달 AI: Llama 3.2 Vision 설치 및 활용 가이드

    안녕하세요! 오늘은 Ollama를 이용해서 메타의 Llama 3.2 Vision을 로컬에서 활용하는 방법에 대해 알아보겠습니다. Llama3.2-vision은 이미지 추론 생성 모델 컬렉션으로, 11B와 90B 크기의 모델이 제공됩니

    fornewchallenge.tistory.com

    Open WebUI Gemma3:4B 실행화면

    질문) 이미지를 설명해줘
    답변) Pass: 이미지를 잘 표현하였습니다.

    질문) Gemma3 벤치마크 결과를 설명해줘
    답변)  오답: Gemma와 Gemini를 구분하지 못함 

    질문) 이미지의 각 층에 무슨 숫자가 있는지 알려줘
    답변) 오답: 입체구조 이해 부족(맨 아래층이 1층이라고 하면서도 1층에 9가 있다고 함)

    질문) Generate python code with no external library from the image
    답변) Python Expert 난이도: 정답

    질문) I only had the sliced meat, how much do I need to pay? include a 18% tip
    답변) 오답: 사용자 질문과 무관한 전체 금액 응답

    Gemma 3:4B는 이미지 관련 질문 5문제 중 3문제를 맞히지 못했습니다. 

     

    다음은 자체 테스트 프로그램으로 Google API를 활용해서 Gemma 3:27B코딩, 수학, 추론 성능을 테스트하였습니다. Google API를 활용하기 위한 모델명과 Base URL은 아래를 참고하세요.

    모델명: gemma-3-27b-it
    OpenAI 호환 Base URL: https://generativelanguage.googleapis.com/v1beta/openai/

    Google API를 활용한 Gemma 3:27B 자체 테스트 프로그램

    1) 코딩 테스트

    Gemma 3:27B Medium Hard Very Hard Expert
    Python Pass Pass Pass Pass
    JavaScript Pass Pass Pass Pass
    C++ Pass Pass Pass Pass

    코딩 테스트에서  Gemma 3 27B는 Python, JavaScript, C++의 모든 난이도 문제를 성공하였습니다. 👍

    2) 수학 테스트

    No. 문제 구분 문제 Gemma 3: 27B
    1 기초 대수 문제 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 Pass
    2 기하학 문제 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. Pass
    3 확률 문제 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. Pass
    4 수열 문제 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. Pass
    5 최적화 문제 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? Pass
    6 복합 문제 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. Pass

    수학 테스트에서 Gemma 3 27B는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.

    3) 추론 테스트

    No. 문제 Gemma 3: 27B
    1 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다.
    6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?
    Pass
    2 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? Pass
    3 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. Pass
    4 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. Pass
    5 A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. Pass
    6 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? Pass

    Gemma 3:27B 추론테스트 6문제를 모두 성공하였습니다. Gemma 3의 테스트결과를 종합하면 아래와 같습니다. 

    구분 이미지 테스트(4B) 코딩 테스트(27B) 수학 테스트 (27B) 추론 테스트 (27B)
    Gemma 3 40 100 100 100

    참고로, 2025년 3월 15일 오전 8시 현재, Gemma 3:27B는 아래 화면과 같이 구글 AI Studio와 API 연결을 통한 이미지 관련 질문에서 이미지를 인식하지 못하고 있습니다. 

    Google AI Studio Gemma 3:27B 모델 오류
    Google AI Studio Gemma 3:27B 모델 오류
    Google API Gemma 3:27B 이미지 인식 오류

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    5. 맺음말

    이번 글에서는 구글의 최신 AI 모델인 Gemma 3에 대해 심층적으로 살펴보았습니다. 멀티모달 지원, 강력한 추론 및 생성 능력, 그리고 단일 GPU·TPU에서도 실행 가능한 효율성까지, 다양한 측면에서 발전한 모습을 확인할 수 있었습니다.

    물론, 아직 개선이 필요한 부분도 존재하지만, 오픈 모델로 제공된다는 점에서 연구자와 개발자들에게 큰 기회를 제공할 것 같습니다. 

     

    여러분도 한 번씩 구글 AI Studio에서 Gemma 3를 체험해 보시면 좋을 것 같습니다. 앞으로 Gemma 3가 어떤 변화를 가져올지 기대해 보면서 저는 다음에 더욱 흥미로운 AI 소식과 분석으로 찾아오겠습니다. 감사합니다!

     

    https://fornewchallenge.tistory.com/

     

     

    2025.01.25 - [AI 도구] - 🤖📚누구나 쉽게 만드는 Gemini 2.0 Flash Exp 멀티모달 노트북 챗봇

     

    🤖📚누구나 쉽게 만드는 Gemini 2.0 Flash Exp 멀티모달 노트북 챗봇

    안녕하세요! 오늘은 Gemini 2.0 Flash Exp 모델을 기반으로 구글의 NotebookLM과 비슷한 멀티모달 노트북 챗봇을 만들어 보겠습니다. 이 챗봇은 텍스트, PDF, 이미지와 같은 다양한 데이터 형식을 한 번에

    fornewchallenge.tistory.com

     

    728x90