✨Claude 3.5 Haiku: Anthropic 최고 가성비 AI 모델 분석 및 테스트

안녕하세요! 오늘은 Anthropic에서 개발한 빠른 속도와 향상된 기능을 제공하는 최신 AI 모델, Claude 3.5 Haiku에 대해 알아보겠습니다. 200k 컨텍스트 윈도우를 지원하는 Claude 3.5 Haiku는 이전 버전인 Claude 3 Haiku와 비교해서 모든 기능이 향상되었으며, 이전 세대의 가장 큰 모델인 Claude 3 Opus를 여러 벤치마크에서 능가합니다. Claude 3.5 Haiku는 Anthropic의 자체 API와 Amazon Bedrock, Google Cloud의 Vertex AI를 통해 텍스트 전용 모델로 제공되며, 이미지 입력 기능도 추후 추가될 예정이라고 합니다. 이 블로그에서는 Claude 3.5 Haiku의 특징과 주요 기능, 벤치마크 결과에 대해 알아보고, Haiku 챗봇을 만들어서 코딩, 수학, 추론성능을 테스트해 보겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

Claude 3.5 Haiku 특징 및 주요 기능

Claude 3.5 Haiku는 빠른 속도, 향상된 명령어 준수, 보다 정확한 도구 사용 기능을 갖추고 있어 특수한 하위 에이전트 작업이나 방대한 데이터를 활용한 사용자 맞춤형 서비스 제공에 적합합니다. 주요 기능은 다음과 같습니다.

코드 완성: Claude 3.5 Haiku는 빠르고 정확한 코드 제안과 완성 기능을 제공하여 개발 워크플로우를 가속화합니다.
대화형 챗봇: 향상된 대화 기능, 빠른 응답 시간으로 많은 양의 사용자 상호 작용을 처리할 수 있는 챗봇에 적합합니다.
데이터 추출 및 라벨링: 정보를 효율적으로 처리하고 분류하여 빠른 데이터 추출 및 자동 라벨링 작업에 효과적입니다.
실시간 콘텐츠 조정: 향상된 추론 및 콘텐츠 이해 기능을 통해 안정적이고 즉각적인 콘텐츠 조정 기능을 제공합니다.
메시지 일괄 처리 API: 대량의 메시지 요청을 비동기식으로 처리할 수 있는 비용 효율적인 방법을 제공합니다. 일괄 처리는 즉각적인 응답이 필요하지 않은 작업에 적합하며, 처리량을 늘리면서 비용을 50% 절감할 수 있습니다.
프롬프트 캐싱: API 호출 시 프롬프트의 반복적인 부분을 재활용하여 처리 시간과 비용을 줄임으로써 API 사용을 최적화하는 기능으로, 반복적인 작업이나 일관된 요소가 있는 프롬프트의 처리 시간과 비용을 크게 줄여줍니다.

https://www.anthropic.com/claude/haiku

Claude 3.5 Haiku

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

Claude 3.5 Haiku 벤치마크 결과

Claude 3.5 Haiku는 다양한 코딩, 도구 사용, 수학 문제 해결에서 뛰어난 성능과 속도를 제공합니다. Claude 3.5 Sonnet과 GPT-4o, Gemini 1.5에 비해 전반적으로 성능이 낮지만, Code (HumanEval)에서는 88.1%로 우수한 성능을 유지했고, Multilingual Math에서도 85.6%로 다국어 수학 문제 해결에 강점을 보였습니다. Graduate Level Reasoning, Math Problem-Solving, Agentic Tool Use 등에서는 낮은 점수를 기록했으며, Agentic Coding(40.6%)과 Undergrad Level Knowledge(65.0%)에서 Claude 3.5 Sonnet 대비 부족한 성과를 보였습니다.

Claude 3.5 Haiku 챗봇 만들기

다음은 Claude 3.5 Haiku 챗봇을 만들어 보겠습니다. 이 블로그의 작업환경은 Windows 11 Pro, WSL2, 파이썬 3.11, 비주얼 스튜디오 코드(이하 VSC) 1.94.0이며, "WSL 연결"을 통해 Linux환경에서 진행하였습니다. 테스트 작업 순서는 다음과 같습니다.

1. 환경설정: VSC에서 아래와 같이 가상환경을 생성하고, 활성화한 후, 필요한 패키지를 설치합니다.

2. API Key 발급: 아래 Anthropic 사이트에서 API Key를 발급받습니다.

https://console.anthropic.com/settings/keys

Anthropic Console

console.anthropic.com

3. Claude 3.5 Haiku 챗봇 만들기: VSC에서 새 파이썬 파일을 만들고, 아래 코드를 복사해서 붙여 넣은 후, 저장합니다. API Key는 본인이 발급받은 API Key를 입력합니다.

import gradio as gr
import anthropic

class ClaudeChat:
    def __init__(self):
        self.client = anthropic.Anthropic(
            api_key="발급받은 API Key"  # API 키를 여기에 입력하세요
        )
        
    def get_response(self, message):
        try:
            response = self.client.messages.create(
                model="claude-3-5-haiku-20241022",
                max_tokens=1000,
                temperature=0,
                messages=[
                    {
                        "role": "user",
                        "content": [
                            {
                                "type": "text",
                                "text": message
                            }
                        ]
                    }
                ]
            )
            return response.content[0].text
        except Exception as e:
            return f"오류가 발생했습니다: {str(e)}"

def chat_interface(message, history):
    claude = ClaudeChat()
    response = claude.get_response(message)
    return response

# Gradio 인터페이스 생성
demo = gr.ChatInterface(
    fn=chat_interface,
    title="Claude 3.5 Haiku Chat",
    description="Claude 3.5 Haiku와 대화해보세요.",
    examples=[
        "안녕하세요!",
        "파이썬 코드를 작성하는 방법을 알려주세요.",
        "수학 문제를 풀어주세요."
    ],
    theme=gr.themes.Soft()
)

# 실행
if __name__ == "__main__":
    demo.launch()

4. app.py 실행: 코드를 실행하면, 아래와 같이 http://127.0.0.1:7860/ 주소에서 Claude 3.5 Haiku와 대화할 수 있습니다.

Claude 3.5 Haiku 테스트

다음은 완성된 Claude 3.5 Haiku Chat으로 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.

1. 코딩성능 테스트: Python, JavaScript, C++ 언어별 Medium, Hard, Very Hard, Expert 난이도 문제로 테스트하였습니다.

Claude 3.5 Haiku/Pass@1	Medium	Hard	Very Hard	Expert
Python	Pass	Pass	Pass	Pass
JavaScript	Pass	Pass	Pass	Pass
C++	Pass	Pass	Pass	Fail

코딩 테스트 결과, Claude 3.5 Haiku는 Python, JavaScript, C++ 중에서 C++의 Expert 난이도를 제외한 모든 문제를 맞히면서, 우수한 코딩 성능을 보여주었습니다.

2. 수학 성능 테스트: 기초 대수, 기하학, 확률, 수열, 최적화, 복합 문제 총 6문제로 테스트하였습니다.

No.	문제 구분	문제	Claude 3.5 Haiku	GPT-4o-mini
1	기초 대수 문제	두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요	Pass	Pass
2	기하학 문제	반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요.	Pass	Pass
3	확률 문제	주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요.	Pass	Pass
4	수열 문제	첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요.	Pass	Pass
5	최적화 문제	어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요?	Pass	Pass
6	복합 문제	복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다.	Pass	Pass

수학 성능 테스트 결과, Claude 3.5 Haiku는 모든 문제를 맞혔으며, GPT-4o-mini와 비슷한 성능을 보였습니다.

3. 추론 성능 테스트

No.	문제	Claude 3.5 Haiku	GPT-4o-mini
1	5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?	Pass	Pass
2	베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요?	Pass	Pass
3	전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다.	Fail	Pass
4	방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요.	Pass	Pass
5	A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step.	Fail	Pass

추론 테스트 결과, Claude 3.5 Haiku는 5문제 중 2문제를 틀렸으며, GPT-4o-mini보다 다소 낮은 성능을 보였습니다.

참고로, Claude 3.5 Haiku와 GPT-4o-mini의 백만토큰 당 가격은 아래와 같습니다.

기능	Claude 3.5 Haiku	GPT-4o-mini
입력 토큰	$1/MTok	$0.150/MTok
출력 토큰	$5/MTok	$0.600/MTok
프롬프트 캐싱 쓰기	$1.25/MTok	$0.075/MTok
프롬프트 캐싱 읽기	$0.10/MTok	$0.075/MTok

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

맺음말

오늘은 Anthropic의 최신 모델, Claude 3.5 Haiku의 주요 기능과 성능에 대해 살펴보았습니다. Claude 3.5 Haiku는 빠른 속도, 향상된 명령어 준수로 이전 Claude 모델보다 우수한 코딩 성능과 수학 문제 해결능력을 보여주었습니다.

Claude 3.5 Haiku를 테스트해 본 후기는 다음과 같습니다.

코딩성능은 우수하지만, 복잡한 추론 성능은 좀 더 개선이 필요하다.
GPT-4o-mini보다 성능이 일부 낮지만 가격이 비싸다

오늘 블로그 내용은 여기까지입니다. Claude 3.5 Haiku는 AI를 활용한 혁신적인 솔루션을 모색하는 사용자들에게 흥미로운 선택지가 될 것으로 보입니다. 저는 그럼 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다!

2024.06.22 - [AI 언어 모델] - Claude 3.5 Sonnet: GPT-4o를 뛰어넘은 성능 및 새로운 인터페이스 Artifacts 리뷰

Claude 3.5 Sonnet: GPT-4o를 뛰어넘은 성능 및 새로운 인터페이스 Artifacts 리뷰

안녕하세요! 오늘은 엔트로픽의 최신 대형 언어 모델 Claude 3.5 Sonnet에 대해서 알아보겠습니다. 이 모델은 경쟁 모델들과 이전 버전인 Claude 3 Opus를 뛰어넘는 성능을 가지면서도, 중급 모델인 Claude

fornewchallenge.tistory.com

저작자표시 (새창열림)

'AI 언어 모델' 카테고리의 다른 글

🤖💪Qwen2.5 Coder 32B: 오픈소스로 GPT-4o급 성능에 아티팩트까지! (50)	2024.11.14
💡Ollama 로컬 멀티모달 AI: Llama 3.2 Vision 설치 및 활용 가이드 (14)	2024.11.10
🎨Stable Diffusion 3.5: 향상된 이미지 품질과 프롬프트 정확도로 업그레이드된 최신 텍스트-이미지 AI (14)	2024.10.27
🎙️Spirit LM: 풍부한 감정을 표현하는 Meta의 최신 음성 모델 (33)	2024.10.23
🏆NVIDIA Llama-3.1-nemotron-70B: GPT-4o를 뛰어넘은 오픈소스 모델 (36)	2024.10.20