본문 바로가기
AI 언어 모델

🌟업스테이지 Solar Pro Preview 분석: 단일 GPU 최강 AI 모델

by James AI Explorer 2024. 9. 16.
    728x90

    안녕하세요! 오늘은 우리나라 AI 스타트업 Upstage의 최신 모델 Solar Pro Preview 모델에 대해 알아보겠습니다. 작년 말 허깅페이스 오픈소스 LLM 리더보드 1위를 차지했던 Solar의 업그레이드 모델인 Solar Pro Preview모델은 단일 GPU에서도 뛰어난 성능을 발휘하도록 설계된 대형 언어 모델(LLM)로, Depth Up-Scaling(DUS)과 고급 데이터 처리를 통해 자원 사용을 최적화하며 성능을 극대화하고, 양자화(Quantization) 기법으로 다양한 GPU 아키텍처에서 사용 가능합니다. 또한, Solar Pro Preview모델은 벤치마크에서 대부분 상위권 성능을 기록해 높은 효율성과 다양한 작업에서의 성능을 입증했습니다. 이 블로그에서는 Solar Pro Preview의 개요, 특징 및 주요 기능, 벤치마크 결과에 대해 살펴보고, 코딩 및 추론성능을 테스트해 보겠습니다. 

    🌟업스테이지 Solar Pro Preview 분석: 단일 GPU 최강 AI 모델

    https://www.upstage.ai/products/solar-pro-preview

     

    Solar Pro Preview | The most intelligent LLM on a single GPU — Upstage

    Upstage’s Solar Pro Preview delivers top-tier AI intelligence, achieving leading MMLU Pro and IFEval scores on a single GPU. Experience performance rivaling multi-GPU +70B models without infrastructure changes.

    www.upstage.ai

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    Solar Pro Preview 개요

    Solar Pro Preview는 단일 GPU에서 실행할 수 있는 22억 개의 매개변수를 갖춘 대형 언어 모델로, Upstage가 2024년 11월에 공개할 예정Solar Pro의 미리 보기 버전입니다. 이 모델은 30억 개 이하의 매개변수를 가진 다른 모델들과 비교하여 뛰어난 성능을 보여주며, 심지어 70억 개 이상의 매개변수를 가진 모델(Llama 3.1 70B)과도 MMLU-Pro(언어 이해 능력)와 IFEval(추론 능력)의 평균 성능 면에서 비슷한 수준을 자랑합니다.

    단일 GPU 환경 에서 다양한 언어 모델의 성능

    단일 GPU 환경에서 다양한 언어 모델의 성능을 비교한 위 그래프에서 Solar Pro Preview는 단일 GPU 환경에서 가장 높은 성능을 보입니다. 평가 지표는 MMLU-Pro(Massive Multitask Language Understanding, 언어 이해 능력)와 IFEval(Instruction-Following Evaluation, 추론 능력)의 평균을 사용하며, x축은 모델 크기, y축은 평균 점수를 나타냅니다.

     

    그래프에서 Solar Pro Preview는 비슷한 모델 크기를 가진 Gemma 2 27B IT보다 높은 점수를 기록하고 있으며, 더 큰 모델인 Command R이나, Phi 3.5 MoE Instruct 보다도 높은 성능을 보여줍니다. 이는 Solar Pro Preview가 효율적인 모델 설계를 통해 적은 자원으로도 높은 성능을 달성했음을 시사합니다.

    728x90

    Solar Pro Preview 특징

    Solar Pro Preview의 가장 큰 특징은 단일 GPU에서 실행될 수 있도록 설계되었다는 점입니다. 많은 AI 모델이 여러 GPU를 요구하는 반면, Solar Pro Preview는 단일 GPU에서 최고의 성능을 발휘하도록 최적화되었으며, 이는 비용 절감과 더불어 데이터 보안을 고려한 기업들에게 큰 이점이 됩니다. 다음은 이 모델의 주요 기능들입니다:

    • 단일 GPU에서 최적화된 성능: Solar Pro Preview는 최소 VRAM(비디오 메모리) 요구 사항을 염두에 두고 설계되었습니다. 실험 결과, 이 모델은 단일 GPU에서 실행 가능한 다른 오픈 모델들과 비교했을 때 더 나은 지능과 명령 수행 능력을 보여주었습니다. 특히, 이 모델은 기업들이 기존 하드웨어 환경을 그대로 유지하면서도 강력한 AI 솔루션을 도입할 수 있도록 설계되어, 기업이 인프라를 대대적으로 교체하지 않고도 AI를 효과적으로 활용할 수 있게 해줍니다. 
    • 깊이 업스케일링(Depth Up-Scaling. DUS): Solar Pro Preview는 Depth Up-Scaling(DUS) 기법과 고급 데이터 처리 방식을 통해 자원 사용을 최적화하면서도 성능을 극대화할 수 있었습니다. "깊이 업스케일링"은 대규모 언어 모델을 확장하기 위한 기술로, 주로 모델의 깊이(Depth)를 증가시키는 방법을 나타냅니다. 언어 모델의 깊이는 모델이 가지는 층(Layers)의 수를 의미하며, 이를 늘리는 것은 모델의 표현력과 성능을 향상시킬 수 있습니다. 자세한 내용은 아래 포스팅에서 확인하실 수 있습니다. 

    2023.12.31 - [AI 논문 분석] - SOLAR 10.7B: 대규모 언어 모델의 효과적인 깊이 업스케일링

     

    SOLAR 10.7B: 대규모 언어 모델의 효과적인 깊이 업스케일링

    안녕하세요! 오늘은 국산 대규모 언어 모델 Solar 10.7B의 깊이(Depth) 업스케일링 기술에 대한 논문을 살펴보겠습니다. "깊이 업스케일링"은 대규모 언어 모델을 확장하기 위한 기술로, 주로 모델의

    fornewchallenge.tistory.com

    • 양자화(Quantization): 또한, 모델 최적화를 위한 양자화 기법이 적용되어 단일 GPU에서 더 큰 모델을 실행할 수 있게 했습니다. 이를 통해 다양한 GPU 아키텍처에서도 효율적으로 사용할 수 있습니다.
    • 통합 및 확장 가능성: Solar Pro Preview 모델은 HuggingFace를 통해 오픈 모델로 제공되며, 간단한 코드로 프로젝트에 바로 적용할 수 있습니다. 또한, Upstage Console에서 API를 통해 무료로 사용할 수 있으며, AWS 마켓플레이스에서도 쉽게 배포할 수 있습니다.
    • 오픈소스: 더불어, Solar Pro Preview는 오픈소스로 제공되어 개발자와 연구자, 기업들이 자유롭게 상업적 목적으로 활용할 수 있다는 점도 큰 특징입니다. 
    • 한국어 단어나 어휘 구사 미흡: Solar Pro Preview는 현재 한국어는 단어나 어휘 구사가 미흡하고, 4K 컨텍스트 윈도우로 제한되어 있지만, 오는 2024년 11월에 출시될 공식 버전에서는 더욱 확장된 언어 지원과 긴 컨텍스트 윈도우를 제공할 예정이라고 합니다. 

     

    Solar Pro Preview 벤치마크 결과

    Solar Pro Preview의 벤치마크 결과, 전반적으로 높은 성능을 보였으며, 우수한 성적을 기록했습니다. 아래 벤치마크 결과에서 볼 수 있듯이, Solar Pro Preview는 MMLU (79.14)와 IFEval (84.37)에서 매우 높은 점수를 얻었으며, 이는 다양한 언어 및 지식 영역에서 뛰어난 이해력과 추론 능력을 가지고 있음을 나타냅니다. 특히, MMLU는 다양한 분야의 지식을 측정하는 벤치마크로, 높은 점수는 폭넓은 지식 습득 능력을 의미합니다.

    지표 Solar-pro-preview Phi-3-medium-4K-instruct Phi-3.5-MoE-instruct Gemma 2 27B IT
    Release Date 2024.09.08 2024.05.02 2024.08.20 2024.06.25
    Model size 22B 14B 41.9B (6.6B) 27B
    MMLU 79.14 78.02 78.66 76.13
    MMLU Pro 52.11 47.51 46.99 45.68
    IFEval 84.37 64.37 69.15 75.36
    ARC-C 68.86 66.55 68.34 74.06
    GPQA 36.38 35.78 34.38 36.38
    HellaSwag 86.36 85.68 85.97 86.02
    EQBench 77.91 76.78 77.22 80.32
    BigBench Hard 67.31 63.09 62.58 64.88
    MUSR 45.85 42.28 46.79 45.67
    GSM8K 89.69 84.76 82.26 62.85
    MBPP 61.59 60.27 N/A (*) 63.08

    또한, Solar Pro Preview는 HellaSwag (86.36)와 GSM8K (89.69) 에서도 높은 점수를 얻었으며, 이는 상식 추론과 복잡한 문제 해결 능력이 뛰어남을 보여줍니다. 전반적으로 다른 모델들과 비교했을 때, 대부분의 영역에서 우수한 성능을 보여주며, 특히 27B 모델 크기를 가진 Gemma 2 27B IT 모델보다 대부분의 벤치마크에서 더 높은 점수를 기록했습니다.

     

    하지만, GPQA (36.38)와 BigBench Hard (67.31)에서는 상대적으로 낮은 점수를 기록하였으며, 이는 특정 전문 분야에 대한 지식이 부족할 수 있음을 의미합니다. Solar-pro-preview는 22B 모델 크기를 가진 모델로, 전반적으로 매우 우수한 성능을 보여주는 모델로, 특히 언어 이해, 추론, 상식 추론, 문제 해결 능력에서 뛰어난 성능을 보입니다. 하지만, 특정 전문 분야에 대한 지식이나 복잡한 추론 능력은 더 개선될 여지가 있습니다.

     

    Solar Pro Preview 테스트

    다음은 Solar Pro Preview를 테스트해 보겠습니다. 테스트는 코딩과 추론성능에 대해 업스테이지 플레이 그라운드 웹사이트에서 진행하였으며 한국어 답변은 공식적으로 지원하지 않아서, 추론테스트는 영어로 진행하였습니다. 

    업스테이지 플레이그라운드 웹사이트

    https://console.upstage.ai/playground/chat

     

    Upstage Console

    Empower your business with Upstage Console.

    console.upstage.ai

    1. 코딩 테스트: Python과 C++언어의 Easy/Medium/Hard/Very Hard/Expert 난이도 총 5문제에 대하여 테스트하였으며, 재시도 없이 첫 번째 시도의 채점결과를 그대로 반영하였습니다

    업스테이지 플레이그라운드 사이트 Solar-pro preview 모델 코딩 테스트

    Solar pro preview/Pass@1 Easy Medium Hard Very Hard Expert
    Python Pass Pass Pass Pass Fail
    C++ Pass Pass Pass Fail Fail

    코딩 테스트 결과는 위와 같으며, 복잡한 난이도의 코딩문제는 개선이 필요해 보입니다.

    2. 추론 테스트: 추론문제는 총 5문제이며, 테스트 결과를 Gemma 2 27B와 비교하였습니다.

    Solar-pro Preview 추론 4문제 답변

    NO 문제 정답 Solar-pro preview Gemma 2 27B
    1 There are three killers in a room. Someone enters the room and kills one of them. Nobody leaves the room. How many killers are left in the room? Explain your reasoning step by step. three killers Pass Fail
    2 A marble is put in a glass cup. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. on the table Fail Fail
    3 There are two types of merchants in a town, sincere or cheater. The sincere person only tells the truth forever, and the cheater only lies forever. We talked to 4 merchants in the town. We asked, "What kind of person are you? Are you a sincere person or a cheater?" These four people answered as follows. First person : "The four of us are all cheaters." Second person : "One of us is a cheater." Third person : "Two of the four of us are cheaters." Fourth person : "I am a sincere person." Is the fourth person a sincere person? Yes Pass Pass
    4 The postal office has size restrictions for mailable envelopes: Minimum dimensions: 14 cm x 9 cm Maximum dimensions: 32.4 cm x 22.9 cm You have an envelope measuring 200 mm x 275 mm Does the given envelope fall within the acceptable size range for mailing according to the postal office's restrictions? Yes Pass Pass
    5 A national elementary school math competition was held, and three people, Young-hee, Chul-soo, and Jin-ho, participated. They are students from Seoul, Busan, and Incheon, and they received first, second, and third prizes, respectively. When you know the following things, where is Jin-ho from and what place did he get? 1) Young-hee is not a player from Seoul. 2) Chul-soo is not a player from Busan. 3)The player from Seoul is not first place. 4) The player from Busan got second place. 5) Chul-soo is not third place. Jin-ho
    from Seoul,
    3rd place
    Fail Fail

    문제와 정답을 번역한 내용은 다음과 같습니다. 

    No 문제 Solar-pro preview 답변
    1 한 방에 세 명의 살인자가 있습니다. 누군가가 방에 들어가서 그들 중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남은 살인자는 몇 명입니까? 이유를 단계별로 설명하십시오. 이것을 단계별로 고려해 봅시다: 처음에는 방에 세 명의 살인자가 있습니다. 다른 사람이 방에 들어옵니다. 이 사람이 살인자인지 아닌지에 대한 정보가 없으므로, 우리는 그들을 계산에 추가할 수 없습니다. 이 사람은 원래 세 명의 살인자 중 한 명을 죽입니다. 이제 방에는 여전히 누군가를 죽인 세 명의 사람(살아남은 원래의 두 명의 살인자와 방금 들어와서 죽인 사람)이 있습니다. 따라서, 방에는 여전히 세 명의 살인자가 있습니다. - 정답
    2 유리컵에 구슬을 넣습니다. 그리고 유리를 뒤집어 테이블 위에 놓습니다. 그런 다음 유리를 집어서 전자레인지에 넣습니다. 구슬은 어디에 있을까요? 이유를 단계별로 설명해주세요. 이 시나리오를 단계별로 살펴보자: 1. 유리컵 안에 구슬을 넣는다. 2. 유리를 뒤집어도 구슬은 빛나는 물체가 아니기 때문에 안에 남아 있다. 3. 유리를 테이블 위에 놓는다. 구슬은 여전히 유리 안에 있다. 4. 유리를 들어 전자레인지로 옮긴다. 구슬은 이동 중에도 유리 안에 남아 있다. 따라서, 구슬은 현재 전자레인지 안에 있는 유리 안에 남아 있습니다. 그러나 구슬을 전자레인지에 넣는 것은 안전하지 않으며, 전자레인지의 손상을 초래하거나 열에 의해 폭발할 수 있으므로 주의해야 합니다. - 오답
    3 한 마을에 상인이 두 종류가 있는데, 성실한 사람 또는 사기꾼이다. 성실한 사람은 영원히 진실만을 말하고, 사기꾼은 영원히 거짓말만 한다. 우리는 마을의 4명의 상인과 이야기를 나누었다. 우리는 "당신은 어떤 사람입니까? 성실한 사람입니까, 아니면 사기꾼입니까?"라고 물었다. 이 네 사람은 다음과 같이 대답했다. 첫 번째 사람 : "우리 네 명은 모두 사기꾼입니다." 두 번째 사람 : "우리 중 한 명은 사기꾼입니다." 세 번째 사람 : "우리 네 명 중 두 명은 사기꾼입니다." 네 번째 사람 : "나는 성실한 사람입니다." 네 번째 사람은 성실한 사람인가? 각 상인의 진술을 분석해 보자: 1. 첫 번째 사람은 네 명 모두 사기꾼이라고 주장합니다. 이 주장이 사실이라면, 첫 번째 사람은 거짓말을 하고 있으므로, 첫 번째 사람은 진실한 사람이 됩니다. 이는 모순입니다. 따라서 첫 번째 사람의 주장은 거짓이며, 첫 번째 사람은 사기꾼입니다. 2. 두 번째 사람은 적어도 한 명은 사기꾼이라고 말합니다. 첫 번째 사람이 사기꾼임을 알고 있으므로, 두 번째 사람의 주장은 사실입니다. 이는 두 번째 사람이 진실을 말하고 있으므로, 두 번째 사람은 진실한 사람입니다. 3. 세 번째 사람은 두 명의 사기꾼이 있다고 말합니다. 첫 번째 사람이 사기꾼임을 알고 있으므로, 세 번째 사람의 주장은 나머지 세 명 중 다른 사기꾼이 있을 경우 사실일 수 있습니다. 4. 네 번째 사람은 진실한 사람이라고 주장합니다. 네 번째 사람이 진실한 사람이라면, 네 번째 사람의 주장은 사실입니다. 이러한 점을 고려하면, 네 번째 사람이 진실한 사람이라고 가정해도 모순이 발생하지 않습니다. 따라서 네 번째 사람은 진실한 사람일 가능성이 높습니다. - 정답
    4 우체국에서는 우편으로 보낼 수 있는 봉투의 크기 제한이 있습니다: 최소 크기: 14cm x 9cm 최대 크기: 32.4cm x 22.9cm 200mm x 275mm 크기의 봉투가 있습니다. 주어진 봉투는 우체국의 제한에 따라 우편으로 보낼 수 있는 허용 가능한 크기 범위에 속합니까? 제가 도와드릴게요! 먼저, 봉투의 크기를 밀리미터에서 센티미터로 변환해야 합니다. 1cm = 10mm이므로, 200mm는 20cm이고 275mm는 27.5cm입니다. 이제 이 크기를 우체국의 제한과 비교해 보겠습니다: 최소 크기: 14cm x 9cm 최대 크기: 32.4cm x 22.9cm 주어진 봉투 크기: 20cm x 27.5cm 네, 주어진 봉투는 우체국의 제한에 따라 우편으로 보낼 수 있는 크기 범위 내에 있습니다! - 정답
    5 전국 초등학생 수학경시대회가 열렸고, 영희, 철수, 진호 세 사람이 참가했다. 이들은 서울, 부산, 인천의 학생으로 각각 1, 2, 3등을 했다. 다음 사실을 알 때, 진호는 어느 지역 출신이고 몇 등을 했는가? 1) 영희는 서울 출신 선수가 아니다. 2) 철수는 부산 출신 선수가 아니다. 3)서울 출신 선수는 1등이 아니다. 4) 부산 출신 선수는 2등을 했다. 5) 철수는 3등이 아니다. 주어진 정보를 단계별로 분석해 보겠습니다: 1. 단서 1을 통해 영희는 서울이 아니므로 부산 또는 인천 출신임을 추론할 수 있습니다. 2. 단서 2를 통해 철수는 서울 또는 인천 출신임을 알 수 있습니다. 3. 단서 3은 서울 출신 참가자가 1등을 하지 못했음을 알려줍니다. 4. 단서 4는 부산 출신 참가자가 2등을 했음을 명시합니다. 5. 단서 5는 철수가 3등이 아님을 나타냅니다. 이 정보를 활용하여: - 철수가 부산 출신이 아니므로 (단서 2), 철수는 서울 출신입니다. - 부산 출신 참가자가 2등을 했으므로 (단서 4) 철수가 부산 출신이 아니므로, 진호는 부산 출신이고 철수는 서울 출신입니다. - 서울 출신 참가자 (철수)가 1등을 하지 못했으므로 (단서 3) 철수가 3등이 아니므로 (단서 5), 철수는 2등 참가자입니다. - 이는 부산 출신인 진호가 2등을 했음을 의미합니다. - 1등과 2등이 차지되었으므로, 영희는 3등 참가자입니다. - 이미 영희가 서울 출신이 아님을 확인했으므로 (단서 1), 영희는 인천 출신입니다. 따라서, 진호는 부산 출신이고 2등을 했습니다.- 오답

    추론 1번 문제 답변(좌), 추론 2번 문제 답변(우)
    추론 3번 문제 답변(좌), 추론 5번 문제 답변(우)

    추론 테스트 결과, Solar-pro preview는 총 5문제 중 3문제를 맞혀서 매개변수가 더 많은 Gemma 2 27B보다 우수한 성능을 보이며, 언어 이해력과 추론문제 해결 능력에서 우수한 성능을 입증하였습니다. 

    https://huggingface.co/upstage/solar-pro-preview-instruct

     

    upstage/solar-pro-preview-instruct · Hugging Face

    Solar Pro Preview: The most intelligent LLM on a single GPU Summary We introduce Solar Pro Preview, an advanced large language model (LLM) with 22 billion parameters designed to fit into a single GPU. Solar Pro Preview shows superior performance compared t

    huggingface.co

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    맺음말

    Upstage의 Solar Pro Preview는 단일 GPU에서 뛰어난 성능을 발휘하는 혁신적인 대형 언어 모델입니다. 22억 개의 매개변수를 가진 이 모델은 효율적인 설계와 최적화 기술을 통해 자원 사용을 최소화하면서도 높은 성능을 달성했으며, Depth Up-Scaling(DUS) 기법 적용, 양자화를 통한 다양한 GPU 아키텍처 지원과 오픈소스로 제공되어 자유로운 활용이 가능하며, 벤치마크 결과에서 MMLU, IFEval 등 다양한 지표에서 우수한 성적을 기록하여, 특히 언어 이해력과 추론 능력에서 강점을 보였습니다.

     

    실제 코딩 테스트에서는 Python과 C++로 다양한 난이도의 문제를 해결할 수 있었고, 추론 테스트에서는 매개변수가 더 많은 Gemma 2 27B보다 우수한 성능을 보였습니다. 하지만, 한국어 성능은 아직 미흡해서 정식버전이 출시되어야 확인할수 있을것 같습니다. 앞으로 Solar Pro의 정식 버전 출시와 함께 더욱 발전된 성능을 기대해 봅니다. 

     

    오늘 블로그는 여기까지입니다. 저는 다음 시간에 더욱 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2023.12.30 - [AI 언어 모델] - 허깅페이스 1위 Solar 10.7B와 Autogen으로 대화하기 : feat. Mistral 7B

     

    허깅페이스 1위 Solar 10.7B와 Autogen으로 대화하기 : feat. Mistral 7B

    안녕하세요! 오늘은 허깅페이스의 오픈소스 LLM 리더보드에서 당당하게 1위를 차지하고 있는 우리나라 스타트업 "업스테이지"의 대규모 언어 모델 "Solar"와 대화를 해보겠습니다. 이번 프로젝트

    fornewchallenge.tistory.com

     

     

    728x90