안녕하세요! 오늘은 최근 애플에서 공개한 MM1이라는 이미지-투-텍스트, 멀티모달 언어 모델(Multimodal Language Model, MMLM)에 대해서 알아보겠습니다. MM1은 이미지 캡셔닝, 이미지에 대한 질문에 답하기 등 이미지와 관련된 텍스트를 생성하거나 이해하는 작업에 사용될 수 있으며, 다중 이미지 추론, 텍스트 기반 시각 질문 응답 등에서 우수한 성능을 나타냅니다. 이 블로그에서는 논문을 통해 MM1 개요와 특징, 실험 및 구축방법, 성능평가 등에 대해서 알아보겠습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
논문 개요
이 논문은 멀티모달 언어 모델(MMLM) 분야에서 우수한 성능을 가진 MM1 모델을 제시합니다. MM1 모델은 다양한 데이터 소스를 활용하여 구축되었으며, 모델 크기 및 MoE(Mixture of Experts) 적용 등의 기술을 적절히 조합하여 최적화함으로써, 다중 언어 처리와 이해 분야에서의 성능을 크게 향상시켰으며, 이를 통해 MMLM 분야에 새로운 표준을 제시합니다.
- 논문제목: MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
- 논문저자: B. McKinzie 등 Apple
- 논문게재 사이트: https://arxiv.org/abs/2403.09611
- 논문게재일: 2024. 3
논문의 연구내용 및 결과
논문에서는 데이터 혼합, MoE 모델 적용, 위치 임베딩 보간 등 다양한 기술들을 적용하여 MM1 모델을 구축하였으며, 실험을 통한 최적의 구성요소를 찾기 위해 다음과 같은 세 가지 주요 설계 결정요소를 통해 모델을 개발하였습니다.
- 아키텍처: 다양한 사전 훈련된 이미지 인코더를 조사하고, LLM과 이러한 인코더를 연결하는 방법을 탐구합니다.
- 데이터: 다양한 유형의 데이터와 그들의 상대적인 혼합 가중치를 고려합니다.
- 훈련 절차: MLLM을 어떻게 훈련할지, 그리고 어떤 하이퍼파라미터와 모델 부분을 언제 어떻게 훈련할지 탐구합니다.
논문에서 다양한 실험을 통해 제시한 주요 연구결론입니다.
- 인코더에 대한 결론: 이미지 해상도가 가장 큰 영향을 미치며, 그다음으로는 모델 크기와 훈련 데이터 구성이 영향을 미칩니다.
- 시각-언어 커넥터에 대한 결론: 시각적 토큰의 수와 이미지 해상도가 가장 중요한 요소이며, 시각-언어 커넥터의 유형은 영향이 적습니다.
- 데이터 결론 1: 이미지와 텍스트가 교차된 데이터는 모델이 매우 적은 수의 예시 또는 학습 데이터를 통해 작업을 수행하는 퓨 샷(few-shot) 및 텍스트만으로 구성된 성능에 중요한 역할을 하며, 캡션 데이터는 모델이 이전에 해당 작업에 대해 어떠한 학습도 하지 않은 상태에서 새로운 작업을 수행하는 제로 샷(zero-shot) 성능을 향상시킵니다.
- 데이터 결론 2: 텍스트만으로 구성된 데이터는 퓨 샷과 텍스트 관련 작업에서 더 나은 성능을 발휘할 수 있습니다.
- 데이터 결론 3: 이미지와 텍스트 데이터의 신중한 혼합은 최적의 다중모달 성능을 얻을 수 있고 강력한 텍스트 성능을 유지할 수 있습니다. 캡션/이미지-텍스트 교차/텍스트 비율이 5:5:1인 경우, 강력한 다중모달 성능과 비교 가능한 텍스트 이해 성능을 유지하는 좋은 균형을 달성할 수 있습니다.
- 데이터 결론 4: 실제로 관찰된 것이 아니라 모델이 생성한 데이터인 합성 데이터는 퓨 샷 학습에 도움이 됩니다.
다음은 최적의 멀티모달 언어 모델의 구축을 위해 논문에서 제시한 주요 연구방법입니다.
다양한 데이터 혼합
다양한 데이터 혼합은 다양한 소스에서 수집된 데이터를 하나로 결합하여 모델을 훈련하는 기술을 말합니다. 이를 통해 모델은 여러 다른 종류의 데이터에 노출되어 더욱 일반화되고 주어진 작업에 관련된 다양한 측면을 포착하고 모델의 다양성과 유연성을 향상시킵니다. 이 논문에서는 다음과 같은 다양한 데이터 소스를 혼합하여 모델을 훈련시켰습니다:
- 이미지-텍스트 쌍: GPT-4와 GPT-4V가 생성한 지시-응답 쌍 데이터와 이미지 캡션, 이미지 설명, 이미지 주석 등 이미지와 관련된 텍스트 설명이 포함된 데이터를 사용하여 훈련하였습니다.
- 텍스트 데이터: 이미지 없이 텍스트만 포함된 데이터. 이는 자연어 처리 작업에 유용합니다.
- 시각-언어 데이터: 이미지와 관련된 자연어 텍스트 데이터. 이는 이미지 캡션 생성, 시각적 질문 답변 등 시각과 언어 간의 상호작용을 이해하고 다양한 인공지능 모델의 훈련 및 평가에 활용됩니다.
- 다양한 도메인의 데이터: 여러 도메인에서 수집된 데이터를 혼합하여 모델을 훈련시킵니다. 예를 들어, 자연 이미지, 텍스트 리뷰, 도표 및 문서 데이터 등이 있습니다.
논문에서는 캡션 있는 이미지(45%), 교차된 이미지-텍스트 문서(45%), 그리고 텍스트만(10%)으로 구성된 데이터를 혼합하여 훈련함으로써 모델이 다양한 작업과 환경에서 최적의 성능을 발휘할 수 있도록 하였으며, 데이터의 다양성을 통해 모델이 실제 세계의 다양한 상황에 적응하고 일반화할 수 있는 능력을 향상시킵니다.
모델 크기 및 구조의 최적화
모델의 구성 요소 및 크기를 최적화하여 성능을 극대화하고, 다양한 구성 요소 변경 실험을 통해 최적의 모델 구성을 도출하였으며, 이를 위해 다음과 같은 접근 방법을 사용할 수 있습니다.
- 모델 크기 조정: 모델의 크기와 매개변수 수를 조정하여 성능을 최적화할 수 있습니다. 더 큰 모델은 일반적으로 더 많은 매개변수를 가지며, 이는 더 복잡한 패턴을 학습할 수 있도록 도와줍니다. 그러나 더 큰 모델은 더 많은 계산 리소스를 필요로 하며, 학습 및 추론 속도가 느려질 수 있습니다. 논문에서 제시한 최적화된 모델의 크기는 30B(30억 개 매개변수)입니다.
- MoE 변형 모델 적용: MM1은 MoE(Mixture of Experts)의 변형 모델을 도입하여 성능을 향상시켰습니다. MoE는 여러 전문가(특정 작업에 대해 특화된 하위 네트워크) 들의 의견을 결합하여 더 나은 결과를 얻는 모델 구조로, MM1에서는 전통적인 인공 신경망 모델보다 거의 모든 벤치마크에서 더 우수한 성능을 보였습니다.
- 하이퍼파라미터 최적화: 모델의 성능을 최적화하기 위해 다양한 하이퍼파라미터를 조정하는 것이 중요합니다. 이러한 하이퍼파라미터에는 학습률, 배치 크기, 드롭아웃 비율 등이 포함될 수 있습니다. 이러한 하이퍼파라미터를 조정하여 모델의 학습을 안정화하고 최상의 성능을 달성할 수 있습니다.
- 규제 기법 적용: 모델의 과적합을 방지하기 위해 규제 기법을 적용할 수 있습니다. 이러한 기법에는 훈련 과정 중에 무작위로 선택된 일부 뉴런을 비활성화하여 모델의 일부를 '무작위로 삭제'하는 드롭아웃과 가중치 감쇠 등이 포함될 수 있으며, 이를 통해 모델의 일반화 성능을 향상시킬 수 있습니다.
이러한 방법들을 종합적으로 고려하여 모델의 크기와 구조를 최적화함으로써 다중모달 언어 모델의 성능을 향상시킬 수 있습니다.
고해상도 이미지 처리 방법
고해상도 이미지 처리는 이미지의 해상도가 높은 경우에 대한 처리 방법으로, 높은 해상도 이미지는 더 많은 디테일과 정보를 포함하고 있어서 보다 정확한 처리가 필요합니다. MM1에서는 고해상도 이미지를 처리하기 위해 다음과 같은 방법을 도입했습니다.
- 이미지 인코더: 높은 해상도 이미지를 처리하기 위해 ViT-H 이미지 인코더를 사용합니다. 이는 이미지와 텍스트 간의 관계를 학습하기 위해 비교적 큰 데이터셋에서 사전 훈련된 CLIP(Contrastive Language-Image Pre-training, 대조적 언어-이미지 사전훈련) 훈련방법이며, 다양한 비전과 언어 데이터를 사용하여 훈련된 큰 규모의 심층 합성곱 신경망(CNN) 모델, DFN-5B와 30억 개의 이미지와 이에 대응하는 캡션으로 구성된 대규모 비전-언어 데이터셋, VeCap-300M 데이터에서 훈련되었습니다. 아래 더 보기를 클릭하시면 ViT-H에 대해서 알아보실 수 있습니다.
ViT-H는 "Vision Transformer - Huge"의 약어로, Vision Transformer (ViT) 모델의 한 변형입니다. ViT는 이미지 처리에 사용되는 트랜스포머(Transformer) 아키텍처를 기반으로 합니다. 이 모델은 입력 이미지를 패치(patch)로 나누고, 이를 트랜스포머의 입력으로 사용하여 이미지를 처리합니다. ViT-H는 ViT의 가장 큰 변형 중 하나로, 매우 큰 모델 파라미터와 깊은 층을 가지고 있습니다. 이로써 ViT-H는 더 많은 이미지 특징을 학습할 수 있으며, 높은 수준의 성능을 제공할 수 있습니다. 종종 대규모 이미지 데이터셋에서 사전 훈련된 후 특정 작업에 맞게 파인 튜닝되어 사용됩니다. ViT-H 모델은 대규모 이미지 처리 작업에 적합하며, 다양한 비전 인식 및 처리 작업에 활용될 수 있습니다.
- 이미지 해상도: 이미지의 해상도는 378x378로 설정됩니다. 이러한 해상도는 이미지의 고해상도를 유지하면서도 모델의 계산적인 효율성을 유지하는 데 도움이 됩니다. 인코더 구축 시 이미지 해상도가 가장 큰 영향을 미치며, 그다음으로는 모델 크기와 훈련 데이터 구성이 영향을 미칩니다.
- 시각 토큰: 이미지 인코더의 출력은 144개의 시각 토큰의 집합으로 구성됩니다. 각 시각 토큰은 이미지의 다른 부분을 나타내며, 이러한 시각 토큰은 시퀀스 형태로 변환되어 모델에 입력됩니다.
- 시각 토큰의 임베딩: 시각 토큰의 시퀀스는 시각-언어 커넥터를 통해 언어 모델의 입력과 결합됩니다. 이 과정에서 이미지 토큰의 임베딩은 언어 모델의 임베딩 공간으로 매핑됩니다. 이러한 방법을 통해 고해상도 이미지를 효과적으로 처리하여 모델의 성능을 향상시킬 수 있습니다.
사전 훈련 및 파인튜닝
MM1 모델의 사전 훈련 및 파인 튜닝 전략은 다음과 같습니다.
1. 사전 훈련 (Pre-training):
- MM1은 대규모 텍스트 및 이미지 데이터를 사용하여 사전 훈련됩니다. 텍스트 데이터는 대량의 자연어 텍스트 코퍼스를 사용하고, 이미지 데이터는 다양한 이미지 데이터 세트를 활용합니다.
- 사전 훈련에는 대규모 언어 모델과 이미지 인코더 모델의 사전 훈련이 포함됩니다. 언어 모델은 텍스트 데이터로 사전 훈련되며, 이미지 인코더는 이미지 데이터로 사전 훈련됩니다.
- 대규모 데이터 세트와 최신의 자가 지도 학습 기술을 사용하여 각 모델의 사전 훈련을 수행합니다. 이 과정에서 모델은 텍스트와 이미지 간의 상호 작용을 학습하여 멀티모달 이해를 향상시킵니다.
2. 지도학습 파인 튜닝 (Supervised Fine-Tuning, SFT)
- SFT 실험에서는 GPT-4 및 GPT-4V에 의해 생성된 지시-응답 쌍, 학술적인 목적의 시각-언어(VL) 데이터셋, 텍스트만 있는 SFT 데이터가 모두 학습 중에 혼합되고 무작위로 샘플링된 다양한 데이터셋으로부터 수집된 1.45백만개의 예제를 활용하여 모델을 파인튜닝합니다. 이를 통해 모델을 지도 학습을 통해 조정하여 다양한 작업에 대한 성능을 향상시켰습니다.
- 고해상도 이미지를 처리하기 위해 위치 임베딩 보간과 부분 이미지 분해 기법을 사용하여 모델을 조정하였습니다. 위치 임베딩 보간은 비전 트랜스포머 백본을 새로운 해상도에 맞게 조정하는데 사용되며, 부분 이미지 분해는 이미지를 672×672 크기로 분해하여 더 높은 해상도를 지원합니다. 더보기를 클릭하시면 위치 임베딩 보간에 대해 알아보실수 있습니다.
위치 임베딩 보간은 이미지의 해상도를 높이는 과정에서 사용되는 기술입니다. 이 기술은 이미지를 더 높은 해상도로 확장할 때 위치 정보를 보존하기 위해 사용됩니다. 주어진 저해상도 이미지의 위치 임베딩을 기반으로 새로운 고해상도 이미지의 위치 임베딩을 보간하여 생성합니다. 이렇게 하면 고해상도 이미지로의 변환 과정에서 위치 정보가 유지되며, 모델이 더 정확한 위치 정보를 활용할 수 있습니다.
이러한 연구 결과와 기술들은 MM1 모델의 우수한 성능과 다양한 작업에 대한 효과적인 적용을 가능케 하였습니다.
성능평가 결과
MM1 모델은 다양한 벤치마크에서 우수한 성능을 보였습니다. 특히 VQAv2, TextVQA, ScienceQA, MMBench 등의 벤치마크에서 높은 점수를 기록했습니다. MM1이 우수한 성능을 보인 측정 항목은 다음과 같습니다.
- 텍스트 기반 시각 질문 응답 (TextVQA): MM1-3B-Chat와 MM1-7B-Chat는 동일한 크기의 다른 모델들보다 우수한 성능을 보였습니다.
- 과학적 지식 질의응답 (ScienceQA): MM1-3B-Chat와 MM1-7B-Chat는 과학적 질문에 대한 정확도에서 우수한 성능을 보였습니다.
- 다중 이미지 추론 (MMBench): MM1-3B-Chat와 MM1-7B-Chat는 다중 이미지 추론 작업에서 강력한 성능을 보였습니다.
- 다중 모달 플러스 뉴스 (MMMU): MM1-3B-Chat와 MM1-7B-Chat는 MMMU 벤치마크에서 우수한 성능을 보였습니다.
- 수학 지식 표현 (MathVista): MM1-3B-Chat와 MM1-7B-Chat는 MathVista에서 강력한 성능을 보였으며, 특히 multi-image reasoning 및 few-shot prompting 작업에서 뛰어난 성과를 거두었습니다.
이러한 결과는 MM1 모델이 다양한 작업과 벤치마크에서 높은 성능을 보여주며, 특히 다중 이미지 추론과 few-shot 학습에 강점을 가지고 있음을 보여줍니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
논문의 결론 및 전망
이 연구에서는 MM1이라는 새로운 다중 모드 언어 모델을 제안하고 탐구했습니다. MM1은 사전 훈련을 위한 혁신적인 전략을 개발하고, 다양한 구성 요소의 조합을 테스트하여 최적의 모델을 도출했습니다. 실험 결과 MM1이 다중 언어 및 비전 작업에서 우수한 성능을 보임을 보여주며, 특히 소수의 훈련 데이터 조건에서 강력한 일반화 능력을 갖추고 있음을 확인했습니다. 이러한 성과는 다양한 현실적인 응용 프로그램에서 MM1의 유용성을 입증할 수 있음을 시사합니다.
향후 연구에서는 MM1의 모델 크기와 구조를 더 확장하여 더 복잡하고 다양한 작업에 대응할 수 있는 방법을 탐구하고, MM1의 지속적인 발전을 위해 보다 효율적인 학습 전략 및 더 풍부한 데이터 소스의 활용을 고려함으로써, MM1의 발전과 다양한 응용 분야에서의 적용 가능성을 확대할 것으로 기대됩니다.
오늘내용은 여기까지입니다. 많은 언어 모델의 등장하면서, 대형 언어 모델 춘추전국시대가 펼쳐지고 있는데요. 패권을 누가 가져갈 수 있을지 관심이 모아지고 있습니다. 저는 그럼 다음시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2024.02.08 - [대규모 언어모델] - LLaVA NeXT: 제미나이 프로를 뛰어넘는 오픈소스 멀티모달 AI!
'AI 논문 분석' 카테고리의 다른 글
구글 VLOGGER: 이미지 1장과 음성으로 움직이는 아바타를 만드는 방법 (0) | 2024.03.27 |
---|---|
LATTE3D: 엔비디아의 새로운 텍스트 기반 3D 생성 기술 (0) | 2024.03.25 |
[AI 논문] EMO: 사진 1장과 음성으로 되살린 오드리 헵번의 생생한 표정! (2) | 2024.02.28 |
🚀 SDXL-Lightning: 스테이블 디퓨전 기반 초고속 이미지 생성 기술 심층 분석 (2) | 2024.02.23 |
뤼미에르: 구글의 텍스트 기반 비디오 생성의 새로운 기준 (4) | 2024.02.08 |