Groq LPU : 논문 한편 요약하는데 입력-추론-응답까지 2.4초!

안녕하세요! 오늘은 Groq이라는 회사의 대형 언어 모델 추론성능 가속장치, LPU(Language Processing Unit)에 대해서 알아보겠습니다. Groq은 2016년에 과거 구글 직원이었던 조나단 로스에 의해 설립된 AI 솔루션 회사인데요. 세계 최초로 대형 언어 모델의 처리속도 가속화 위해 특별히 설계된 LPU(Language Processing Unit)라는 사용자 정의 칩을 개발하였습니다. 이 블로그에서는 Groq LPU의 특징, 성능 등에 대해서 알아보고 Groq 클라우드 플레이 그라운드와 Groq API 사용방법에 대해서 알아보겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

Groq LPU란?

Groq LPU(Language Processing Unit)는 Groq가 대형 언어 모델의 처리 가속화를 통해 추론 성능과 정밀도를 높이기 위해 개발한 장치입니다. Groq LPU는 자연어 처리, 기계 학습, 컴퓨터 비전 등의 다양한 AI 응용 분야에서 뛰어난 성능을 제공할 수 있도록 설계되었습니다.

Groq LPU 특징 및 성능

Groq LPU는 다음과 같은 특징과 성능을 갖추고 있습니다:

고속 병렬 처리: Groq LPU는 8비트 정수 연산에서 초당 750조개 연산 성능과, 16비트 부동 소수점 연산에서는 초당 188조개의 연산을 수행할 수 있습니다.
저전력 소비: Nvidia GPU와 비교하여 더 적은 에너지를 소비하면서도 높은 성능을 유지하여 데이터 센터 및 에너지 효율이 중요한 기타 응용 분야에 적합합니다.
인퍼런스 작업 최적화: Groq LPU는 주로 인퍼런스 작업에 특화되어 있어, 대형 언어 모델뿐만 아니라 자연어 처리(NLP), 기계 학습(ML), 컴퓨터 비전(CV)을 포함한 다양한 언어 처리 작업에 사용할 수 있습니다.
대역폭 및 메모리 용량: Groq LPU는 80TB/s의 높은 대역폭과 230MB의 로컬 SRAM 용량을 갖추어 대규모 데이터를 효율적으로 처리할 수 있습니다.

이러한 특징들로 인해 Groq LPU는 대형 언어 모델 처리분야의 게임 체인저로 주목받고 있으며, NVIDIA, AMD, 인텔 등의 기존 산업 거물들과 경쟁하는 강력한 경쟁자로 자리매김하고 있습니다. Groq LPU의 소프트웨어 사양은 다음과 같습니다.

운영 체제: LPU는 Groq가 디자인한 사용자 정의 운영 체제에서 실행됩니다.
프로그래밍 언어: TensorFlow, PyTorch 및 Caffe와 같은 다양한 프로그래밍 언어를 지원합니다.
인퍼런스 엔진: AI 응용 프로그램을 최적화하기 위한 인퍼런스 엔진으로 AI 모델을 매우 빠르게 실행할 수 있습니다.
모델 지원: ChatGPT 및 기타 대형 언어 모델에서 사용되는 모델을 포함하여 다양한 범위의 AI 모델을 지원합니다.
학습: LPU는 지도 학습, 비지도 학습 및 강화 학습을 포함한 다양한 기술을 사용하여 학습할 수 있습니다.

Groq LPU 벤치마크

최근의 벤치마크에서는 Groq LPU가 대형 언어 모델을 특히 뛰어난 성능으로 제공한다는 것을 입증했습니다. Groq LPU는 Mixtral 8x7B 모델을 놀라운 속도로 처리하여 초당 480개의 토큰을 처리할 수 있습니다. 이는 산업 내 많은 경쟁 업체를 능가하는 성과입니다. 심지어 Llama 2 70B와 같이 더 복잡한 모델의 경우에도, 토큰 길이가 4096개인 컨텍스트를 처리하면서 Groq LPU는 놀라운 처리량을 유지하며 초당 300개의 토큰을 처리할 수 있습니다. Llama 2 7B와 같은 더 작은 규모의 설정에서도, Groq LPU는 2048개의 컨텍스트 토큰을 처리하면서 높은 출력을 유지하여 초당 750개의 토큰을 처리할 수 있습니다. 참고로 GPT-3.5와 같은 무료 버전에서 실행되는 ChatGPT는 약 40T/s를 출력할 수 있습니다.

모델	컨텍스트 길이 (tokens)	토큰 속도 (tokens/s)
Mixtral 8x7B	32,768	480
Llama 2 70B	4096	300
Llama 2 7B	2048	750

Groq LPU 클라우드 체험 후기

Groq LPU는 Grokq 클라우드의 플레이 그라운드에서 체험해 볼 수 있으며, 현재 Llama 2 70B와 Mixtral 8x7B 두 가지 모델을 지원하고 있습니다. Grokq 클라우드의 플레이 그라운드는 아래 링크에서 접속 가능합니다.

https://console.groq.com/playground

GroqCloud

Experience the fastest inference in the world

console.groq.com

Groq의 홈페이지 https://groq.com/ 에 접속해도 Groq LPU의 성능을 체험해 볼 수 있는데요. 저는 Mixtral 8x7B 모델로 설정하고, "EMO: Emote Portrait Alive" 논문 한 편의 전체 텍스트를 복사하여 프롬프트에 입력하고 논문의 구체적인 연구내용과 결과를 요청해 보았습니다. 응답결과는 아래 보시는 바와 같이 초당 토큰 출력속도는 525.99T/s가 나왔으며, 총 소요시간은 2.4초가 소요되었습니다. 저 많은 논문 분량을 정말 눈 깜짝할 사이에 추론하고 응답을 출력하네요.

다음 내용은 논문의 연구내용과 결과에 대한 Groq에 탑재된 Mixtral 8x7B 모델의 응답입니다.

논문 "EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion 
Model under Weak Conditions"은 단일 참조 이미지와 음성 오디오(대화 및 노래와 같은)로부터 현실적이고 
표현력 있는 초상 영상을 생성하기 위한 새로운 프레임워크인 EMO를 제안합니다. 제안된 방법은 입력 오디오의 
길이에 따라 어떤 기간이든지 동영상을 생성하고, 비디오 내에서 매끄러운 프레임 전환과 일관된 신원 보존을 
보장합니다. 저자들은 중간 3D 모델이나 얼굴 랜드마크가 필요하지 않은 직접적인 오디오에서 비디오 합성 접근
방식을 사용합니다. 실험 결과는 EMO가 대화 및 노래와 같은 비디오에 대해 기존의 최첨단 기술보다 표현력과
현실성 면에서 우수한 성능을 보여줍니다. 논문은 전통적인 기법의 한계를 해결하여 인간의 표현의 전체 스펙트럼과
독특한 얼굴 스타일을 종종 포착하지 못하는 표현 헤드 비디오 생성의 현실성과 표현력을 개선하는 데 중점을 둡니다. 
EMO 프레임워크는 이미지 합성, 이미지 편집, 비디오 생성 및 심지어 3D 콘텐츠 생성과 같은 다양한 도메인에서 
놀라운 능력을 보여준 확산 모델을 활용합니다. 논문은 또한 생성된 비디오의 얼굴 표현의 표현력을 평가하기 
위한 표현 FID(E-FID) 지표를 소개합니다.

현재 Groq LPU에서 지원하고 있는 대형 언어 모델은 다음과 같이 Llama 2 70B와 Mixtral 8x7B 두 가지 모델입니다.

Groq API 사용방법

다음은 Groq API 사용방법입니다. 먼저 https://console.groq.com/keys에 접속해서 아래 화면과 같이 "Create API Key" 버튼을 클릭해서 새로운 API Key를 발급받습니다.

다음은 "conda create -n groqapi python-3.11" 명령으로 파이썬 가상환경을 만들고 "conda activate groqapi" 명령으로 활성화합니다. 그리고 "pip install groq gradio" 명령으로 groq와 gradio 라이브러리를 설치합니다.

pip install groq gradio

다음 예제코드는 Groq API를 사용하여 간단한 챗봇을 구현한 것입니다. 코드는 Gradio를 사용하여 웹 인터페이스를 제공하며, 사용자가 질문을 입력하면 Groq API를 통해 응답을 받습니다. 여기서 주요 기능은 다음과 같습니다:

1. `fetch_response` 함수: 이 함수는 Groq API를 사용하여 사용자의 입력에 대한 응답을 가져옵니다. 함수 내에서는 Groq 클라이언트를 초기화하고 사용자의 입력을 포함한 메시지를 생성하여 Groq 모델에 전달합니다. 그런 다음 Groq 모델을 사용하여 응답을 생성하고 반환합니다.
2. `iface` 객체: 이 객체는 Gradio 인터페이스를 정의합니다. `fetch_response` 함수를 처리하는 챗봇 인터페이스를 설정하고, 사용자가 텍스트를 입력하면 그에 대한 텍스트 응답을 반환하고, 인터페이스의 제목과 설명을 지정합니다.
3. `iface.launch()`: 이 코드는 Gradio를 사용하여 정의된 인터페이스를 실행합니다. 사용자는 웹 브라우저를 통해 챗봇에 접속하고 질문을 할 수 있습니다.

import gradio as gr
import os
from groq import Groq 

def fetch_response(user_input):
    client = Groq(api_key="발급받은 groq API Key")
    chat_completion = client.chat.completions.create(
        messages=[
            {"role": "system", "content": "you are a helpful assistant."},
            {"role": "user", "content": user_input},
        ],
        model="mixtral-8x7b-32768",
        temperature=0.5,
        max_tokens=1024,
        top_p=1,
        stop=None,
        stream=False
    )
    return chat_completion.choices[0].message.content

iface = gr.Interface(fn=fetch_response, inputs="text", outputs="text", title="Groq Chatbot", description="Ask a question and get a response.")
iface.launch()

다음 화면은 Groq API 예제코드의 실행결과입니다. Groq 사이트에서와 동일하게 "EMO: Emote Portrait Alive" 논문 한편을 전체 텍스트를 복사하여 연구내용과 결과에 대해 질문한 결과, 응답하는데 약 3~4초가 소요되었습니다.

이 논문은 표현력 있는 초상화 비디오를 생성하기 위해 직접 오디오에서 비디오로의 합성 방식을 활용하는 
새로운 프레임워크인 EMO를 소개합니다. 저자들은 오디오 신호와 얼굴 움직임 간의 관계에 주목하여 말하는 
머리 비디오 생성에서 현실성과 표현력을 향상시키고자 합니다. 제안된 방법은 중간 3D 모델이나 얼굴 랜드마크가 
필요하지 않도록 구성되어 비디오 내에서의 원활한 프레임 전환과 일관된 신원 보존을 보장합니다. 
실험 결과는 EMO가 말하기와 노래하는 비디오 모두에서 표현력과 현실성 측면에서 기존 최신 기술보다 우수한
성능을 보여준다는 것을 보여줍니다.

이 논문은 이미지 생성에서 확산 모델의 성공과 비디오 생성에서의 잠재적 가능성에 기반하여 구축되었습니다.
저자들은 안정적인 제어 메커니즘인 속도 컨트롤러와 얼굴 영역 컨트롤러와 같은 안정적인 제어 메커니즘을 
통합함으로써 오디오를 확산 모델과 통합하는 도전에 대응합니다.

모델을 훈련하기 위해 저자들은 광범위한 콘텐츠와 언어를 다루는 250시간 이상의 영상과 1억 5천만 장 이상의
이미지로 구성된 대규모 오디오-비디오 데이터셋을 구축했습니다. 이 접근 방식은 FID, SyncNet, F-SIM 및 
FVD와 같은 여러 메트릭을 통해 현재의 최신 기술인 DreamTalk, Wav2Lip 및 SadTalker를 뛰어넘었습니다.

요약하면, 이 논문은 오디오와 함께 표현력 있는 초상화 비디오를 생성하기 위한 확산 모델 기반의 프레임워크인
EMO를 제시합니다. 이 방법은 말하는 머리 비디오 생성에 대한 기존 최신 기술을 뛰어넘으며, 말하기와 노래하기
비디오에 대해 매우 자연스럽고 표현력이 풍부한 결과를 생성합니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

마치며

오늘은 Groq의 대형 언어 모델 추론 성능 가속장치인 Groq LPU에 대해 알아보았습니다. Groq LPU는 대형 언어 모델의 처리 속도를 향상시켜 추론 성능과 정밀도를 높이기 위해 고안된 장치로, 다양한 AI 응용 분야에서 뛰어난 성능을 제공합니다. 이 장치는 고속 병렬 처리와 저전력 소비, 추론작업 최적화, 대역폭 및 메모리 용량 등의 특징을 가지고 있으며, 최근의 벤치마크에서도 대형 언어 모델을 처리하는데 뛰어난 성능을 보여주었습니다.

이 블로그에서는 Groq의 클라우드 플레이그라운드를 통해 LPU의 추론 가속성능을 체험해 보고, Groq API를 사용하여 간단한 챗봇도 구현해 보았는데요. 여러분도 Groq의 혁신적인 기술을 한번 체험해 보시면 좋은 기회가 될 것 같습니다. 저는 그럼 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.02.23 - [AI 논문 분석] - 🚀 SDXL-Lightning: 스테이블 디퓨전 기반 초고속 이미지 생성 기술 심층 분석

🚀 SDXL-Lightning: 스테이블 디퓨전 기반 초고속 이미지 생성 기술 심층 분석

안녕하세요! 오늘은 틱톡으로 유명한 중국의 IT기업, ByteDance에서 개발한 SDXL-Lightning이라는 이미지 생성모델에 대한 논문을 살펴보겠습니다. SDXL-Lightning은 " 점진적 적대적 확산 증류(Progressive Adve

fornewchallenge.tistory.com

저작자표시 (새창열림)

'AI 도구' 카테고리의 다른 글

[꿀팁] 비행기 모드 AI 채팅! MLCChat으로 스마트폰 데이터 연결 없이 AI 즐기기 (0)	2024.03.10
🚀Unsloth : 메모리 60% 절약, 훈련 속도 30배 향상! 나만의 LLM 만들기 (0)	2024.03.03
🤯 파이데이터(Phidata) : 5줄 코드로 토큰 과금없는 AI 어시스턴트 만들기 (2)	2024.02.27
🏆텍스트 임베딩의 혁신! 오픈AI 뛰어넘은 노믹 임베드의 모든것! (2)	2024.02.25
💥핵꿀팁! 스마트폰에서 Ollama WebUI를 만나는 방법 (ngrok 활용) (1)	2024.02.21