본문 바로가기
AI 언어 모델

🎨🤖Janus: DeepSeek AI의 최신 멀티모달 생성 모델 분석

by James AI Explorer 2025. 1. 30.
    728x90

    안녕하세요! 오늘은 DeepSeek AI에서 최근 공개한 새로운 멀티모달 모델 Janus 시리즈에 대해 알아보려고 합니다. Janus는 텍스트와 이미지를 동시에 이해하고 생성하는 능력을 하나의 모델에 통합하고, 특히, 시각적 인코딩 분리라는 독창적인 접근 방식을 도입하여 이해와 생성 작업 간의 충돌을 줄이고, 더 유연하고 강력한 성능을 제공하는 데 성공했습니다. Janus 시리즈는 기본 모델인 Janus, 최적화된 버전인 Janus-Pro, 그리고 정류 흐름을 통합한 JanusFlow로 구성되어 있으며, 각각의 모델은 독창적인 기능을 통해 멀티모달 작업에서 우수한 성능을 보여줍니다. 이 블로그에서는 Janus 시리즈의 주요 특징, 아키텍처 설계, 벤치마크 결과와 더불어 실제 테스트 예제까지 자세히 살펴보겠습니다. 

    https://janusai.pro/

     

    Janus Pro AI

    Janus Pro is Unified Multimodal Understanding and Generation Models beat Open ai. Janus Pro AI is an advanced version of the previous work Janus.

    janusai.pro

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    1. Janus 개요

    Janus는 멀티모달 이해와 생성을 통합하는 새로운 자기 회귀 (Autoregressive) 프레임워크입니다. 자기 회귀 프레임워크는 이전 단계의 출력을 현재 단계의 입력으로 사용하는 모델링 방식으로, 기존의 접근 방식의 한계를 극복하고, 시각적 인코딩을 분리하여 이해와 생성 역할을 구분하면서도 단일 트랜스포머 아키텍처를 사용합니다.

     

    이러한 분리는 시각적 인코더의 이해와 생성 역할 사이의 충돌을 완화하고 프레임워크의 유연성을 향상시킵니다. Janus는 이전의 통합 모델을 능가하고, 특정 작업 모델과 동등하거나 더 나은 성능을 보여줍니다. 또한, 단순성, 높은 유연성, 효율성을 갖춰 차세대 통합 멀티모달 모델의 강력한 후보입니다.

     

    Janus 모델은 다음과 같이 세 가지 주요 종류로 나눌 수 있으며, 각 모델은 고유한 특징과 기능을 가지고 있습니다.

    모델 이름
    주요 특징
    파라미터
    크기
    멀티모달
    이해
    텍스트-
    이미지 생성
    Janus
    -시각적 인코딩을 분리하여 멀티모달 이해와 생성을 통합하는 최초 모델
    -단일 트랜스포머 구조 사용
    1.3B
    지원
    지원
    Janus-Pro
    -Janus의 개선 버전으로, 학습 전략 최적화, 데이터 확장, 모델 크기 확장
    -멀티모달 이해와 텍스트-이미지 지침 준수 능력 향상
    -텍스트-이미지 생성의 안정성 개선
    1B, 7B
    지원
    지원
    JanusFlow
    -자동 회귀 언어 모델과 정류흐름(rectified flow) 통합
    -이미지 생성에 정류흐름(rectified flow)를 활용
    -복잡한 아키텍처 변경 없이 언어 모델 프레임워크 내에서 학습
    1.3B
    지원
    지원

    Janus-Pro는 이전 연구인 Janus의 고급 버전입니다. Janus-Pro는 (1) 최적화된 훈련 전략, (2) 확장된 훈련 데이터, (3) 더 큰 모델 크기로의 확장을 통합하여 멀티모달 이해 및 텍스트-이미지 명령어 추종 기능에서 상당한 발전을 이루었으며, 텍스트-이미지 생성의 안정성을 개선하였습니다. 

     

    JanusFlow 자기 회귀 언어 모델 정류 흐름을 통합하는 최소 아키텍처를 도입합니다. 정류 흐름(rectified flow)은 생성 모델링에서 데이터 분포를 학습하는 데 사용되는 방법이며, 이를 통해 이미지를 점진적으로 생성하고, 복잡한 아키텍처 변경 없이도 이미지 생성 능력을 향상시킬 수 있습니다. 이 모델은 복잡한 아키텍처 수정 없이 대규모 언어 모델 프레임워크 내에서 정류 흐름을 직접 학습할 수 있음을 보여줍니다. 

    https://github.com/deepseek-ai/Janus

     

    GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models

    Janus-Series: Unified Multimodal Understanding and Generation Models - deepseek-ai/Janus

    github.com

    728x90

    2. Janus 혁신적인 특징 및 주요 기능

    Janus 시리즈는 멀티모달 이해 및 생성 분야에서 다음과 같은 혁신적인 발전을 이루었습니다. Stability AI와 같은 이전 연구들과 비교했을 때, DeepSeek AI의 주요 차별점과 혁신적인 개발은 다음과 같이 요약할 수 있습니다.
    1) 시각적 인코딩 분리 (Decoupled Visual Encoding):

    • 기존 방식의 한계: 이전의 멀티모달 모델들은 시각적 정보를 처리할 때 이해와 생성 작업 모두에 동일한 인코더를 사용했습니다. 이는 두 작업에 필요한 표현 방식이 다르기 때문에 성능 저하를 야기했습니다.
    • DeepSeek AI의 혁신: Janus와 Janus-Pro 모델은 멀티모달 이해와 시각적 생성을 위해 시각적 인코딩을 분리했습니다. 즉, 이해를 위한 인코더와 생성을 위한 인코더를 따로 두어 각 작업에 최적화된 특징 추출을 가능하게 했습니다. 이러한 분리는 이해와 생성 역할 사이의 충돌을 완화하고, 모델의 유연성과 성능을 향상시켰습니다.

    2) 통합된 자기 회귀 프레임워크 (Unified Autoregressive Framework):

    • 기존 방식의 한계: 이전의 멀티모달 모델들은 멀티모달 이해와 생성을 위한 별도의 모델을 사용하거나, 복잡한 구조를 가지고 있었습니다.
    • DeepSeek AI의 혁신: Janus 시리즈는 단일 트랜스포머 아키텍처를 기반으로 한 자기 회귀 프레임워크를 사용하여 멀티모달 이해와 생성을 하나의 모델로 통합했습니다. 이는 모델의 복잡성을 줄이고, 다양한 작업에 대한 유연성과 효율성을 높이는 데 기여했습니다. 특히, 이전 단계의 출력을 현재 단계의 입력으로 사용하는 자기 회귀 방식은 텍스트 및 이미지 생성 시 일관성 있는 출력을 생성하는 데 도움을 줍니다.

    3) 정류 흐름(Rectified Flow) 통합:

    • 기존 방식의 한계: 기존의 이미지 생성 모델은 복잡한 아키텍처 변경 없이는 이미지 생성 능력을 향상시키는 데 어려움이 있었습니다.
    • DeepSeek AI의 혁신: JanusFlow 모델은 자기 회귀 언어 모델과 정류 흐름을 통합하여 이미지 생성 기능을 강화했습니다. 정류 흐름은 데이터 분포를 학습하고 이미지를 점진적으로 생성하는 데 효과적인 방법이며, 이를 통해 복잡한 아키텍처 수정 없이도 기존의 통합 접근 방식보다 우수한 이미지 생성 능력을 제공합니다.

    4) 오픈 소스 접근:

    • 기존 방식의 한계: 일부 최첨단 모델들은 상업적 라이선스 또는 폐쇄적인 개발 환경으로 인해 접근성이 제한적이었습니다.
    • DeepSeek AI의 혁신: DeepSeek AI는 Janus 시리즈를 오픈 소스 라이선스로 공개하여 학계 및 상업 커뮤니티에서 모델을 자유롭게 사용하고 연구할 수 있도록 하였습니다. 
    Model Sequence Length Download
    Janus-1.3B 4096 🤗 Hugging Face
    JanusFlow-1.3B 4096 🤗 Hugging Face
    Janus Pro-1B 4096 🤗 Hugging Face
    Janus Pro-7B 4096 🤗 Hugging Face

    주요 기능

    • 멀티모달 이해: 이미지와 텍스트를 함께 이해하고, 질문에 답변하거나 이미지를 설명하는 등의 작업을 수행합니다.
    • 텍스트-이미지 생성: 텍스트 프롬프트를 기반으로 이미지를 생성합니다.
    • 이미지 변환: 이미지를 텍스트로 변환하거나, 텍스트 프롬프트에 따라 이미지를 변형합니다.
    • 다양한 형식 지원: 텍스트, 이미지, 표, 차트, 문서 등 다양한 형식의 입력을 처리할 수 있습니다.
    • 대화형 인터페이스: 온라인 및 로컬 데모를 통해 사용자와 대화하며 다양한 작업을 수행합니다.

    Janus와 Janus-Pro-7B 모델 이미지 생성 비교

    3. Janus 아키텍처

    Janus 아키텍처의  핵심은 멀티모달 이해시각적 생성을 위한 시각적 인코딩을 분리하는 것입니다.

    • 이해 인코더 (Understanding Encoder): 이미지를 고차원 의미 특징으로 추출하기 위해 SigLIP 인코더를 사용하며, 2차원 그리드에서 1차원 시퀀스로 평탄화한 후, 이해 어댑터를 통해 LLM(대규모 언어 모델)의 입력 공간에 매핑합니다.
    • 생성 인코더 (Generation Encoder): 이미지를 이산 ID로 변환하기 위해 VQ 토크나이저를 사용합니다. ID 시퀀스를 1차원으로 평탄화한 후, 생성 어댑터를 통해 각 ID에 해당하는 코드북 임베딩을 LLM의 입력 공간에 매핑합니다.
    • 통합된 자동 회귀 트랜스포머: 이해 인코더와 생성 인코더에서 추출된 특징 시퀀스를 연결하여 멀티모달 특징 시퀀스를 형성하고, 이를 LLM에 입력하여 처리합니다. LLM 내장 예측 헤드 외에도 시각 생성 작업에서 이미지 예측을 위한 무작위로 초기화된 예측 헤드를 사용합니다.

    Janus 아키텍처

    Janus 아키텍처의 동작 원리를 다음과 같습니다. 

    1) 입력 처리 (아래쪽):

    • 이미지 입력: 이미지(Image: X)는 'Und. Encoder'로 전달되어 이미지의 고차원 의미 특징이 추출됩니다.
    • 텍스트 입력: 텍스트 지시(LanguageInstruct: X)는 'TextTokenizer'를 통해 토큰화됩니다.
    • 분리된 인코딩: 핵심은 멀티모달 이해와 생성을 위해 시각적 인코딩을 분리한다는 점입니다. 이해를 위한 인코더('Und. Encoder')와 생성을 위한 인코더('Gen. Encoder')가 별도로 존재합니다.

    2) 자동 회귀 트랜스포머 (중앙):

    • 특징 통합: 'Und. Encoder'와 'Gen. Encoder'에서 추출된 특징은 통합된 자동 회귀 트랜스포머에 입력됩니다. 이 트랜스포머는 텍스트와 이미지 정보를 모두 처리하여 멀티모달 특징을 생성합니다.
    • 자동 회귀 방식: 분리된 인코딩 및 예측 방식 트랜스포머는 이전 단계의 출력을 현재 단계의 입력으로 사용하며, 이를 통해 일관성 있는 텍스트 또는 이미지 생성을 가능하게 합니다.

    3) 출력 처리 (위쪽):

    • 텍스트 출력: 트랜스포머의 결과는 'TextDe-Tokenizer'를 통해 텍스트로 변환됩니다.
    • 이미지 출력: 트랜스포머의 결과는 'ImageDecoder'를 통해 이미지로 변환됩니다.
    • 별도의 헤드: LLM의 내장 예측 헤드 외에도 분리 특화된 시각 생성 작업을 위한 무작위로 초기화된 예측 헤드를 사용하여 이미지 예측을 수행합니다.

     

     

     

     

    4. Janus 벤치마크 결과

    Janus-Pro는 다양한 벤치마크에서 뛰어난 성능을 보였습니다. 아래 좌측 그래프에서는 Janus-Pro 모델이 멀티모달 이해와 텍스트-이미지 생성 모두에서 기존 모델들을 능가하는 우수한 성능을 제공함을 보여줍니다. 특히, Janus-Pro-7B 모델은 GenEval에서 0.80, DPG-Bench에서 84.2로 뛰어난 성능을 보이며, DALL-E 3, Stable Diffusion 3 Medium과 같은 다른 모델들을 능가합니다. 

    Janus 벤치마크 결과: 멀티모달 이해성능(좌), 텍스트-이미지 생성 성능(우)

    1) 멀티모달 이해:

    • MMBench에서 79.2점을 획득하여 Janus (69.4), TokenFlow (68.9), MetaMorph (75.2)와 같은 최첨단 통합 멀티모달 모델을 능가합니다.
    • POPE, MME-Perception, GQA, MMMU 등 4가지 멀티모달 이해 벤치마크에서 평균적으로 뛰어난 성능을 보입니다.
    • 특히, Janus-Pro-7BJanus-Pro-1B 및 다른 모델에 비해 MMB, SEED, MM-Vet 등 여러 벤치마크에서 높은 점수를 받았습니다.

    멀티모달 이해 벤치마크에서 타 모델과 Janus 비교

    2) 텍스트-이미지 명령어 추종:

    • GenEval에서 0.80점을 획득하여 Janus (0.61), DALL-E 3 (0.67), Stable Diffusion 3 Medium (0.74)을 능가합니다.
    • DPG-Bench에서 84.19점을 획득하여 다른 모든 방법을 능가하며, 복잡한 명령어 추종에 탁월한 능력을 보입니다.
    • Janus-Pro는 이미지 생성 품질, 세부 사항, 간단한 텍스트 생성 능력에서 Janus보다 우수한 결과를 보입니다.

    텍스트-이미지 생성능력 벤치마크 결과

    5. Janus 테스트

    Janus 시리즈는 https://janusai.pro/ 사이트에서 직접 테스트해 볼 수 있습니다. 트래픽이 많아 이미지 생성이 느린 경우, Poe에서 JanusPro를 검색하시면 테스트해 보실 수 있습니다. 

    1) 멀티모달 이해 테스트

    https://janusai.pro/  사이트 멀티모달 이해 테스트

    Janus-Pro-7B: The image depicts a young woman standing on a beach. She is wearing a light pink tank top with a floral design on the left side. Her long, dark hair is blowing in the wind, suggesting a breezy environment. She is also wearing large, white sunglasses that cover most of her eyes, giving her a stylish and relaxed appearance. The background features a sandy beach with gentle waves rolling in from the ocean. The water is a clear blue, and the sky above is mostly clear with a few scattered clouds, indicating a sunny day. In the distance, there is a small island or landmass visible on the horizon, adding to the scenic beauty of the location. The woman's pose is relaxed, and she appears to be enjoying the beach environment. The overall mood of the image is serene and carefree, capturing a moment of leisure and enjoyment in a natural setting.
    ### Analysis and Description:
    1. Subject: The primary subject of the image is a young woman. She is the focal point and is positioned centrally in the frame.
    2. Attire: She is wearing a light pink tank top with a floral design on the left side. The tank top is sleeveless, which is typical for warm weather and beach settings.
    3. Accessories: She is wearing large, white sunglasses that cover most of her eyes. These sunglasses add a touch of style and protection from the sun.
    4. Hair: Her long, dark hair is blowing in the wind, suggesting a breezy environment. The hair is loose and appears to be naturally wavy.
    5. Background: The background consists of a sandy beach with gentle waves rolling in from the ocean. The water is a clear blue, and the sky is mostly clear with a few scattered clouds.
    6. Setting: The setting is a beach, likely during a sunny day. The presence of the ocean, sand, and clear sky suggests a coastal location.
    7. Atmosphere: The overall atmosphere of the image is relaxed and carefree. The woman's pose and the natural surroundings contribute to a sense of leisure and enjoyment.
    ### Integrated Knowledge: Beaches are popular destinations for relaxation and recreation due to their scenic beauty and the calming effects of the ocean. The attire of the woman, a light tank top and sunglasses, is typical for beachwear, indicating that the weather is warm and sunny. The large sunglasses she is wearing are practical for protecting her eyes from the sun
    Janus-Pro-7B 답변 번역: 이미지는 해변에 서 있는 젊은 여성을 묘사하고 있습니다. 그녀는 왼쪽에 꽃무늬가 있는 연한 핑크색 탱크 탑을 입고 있습니다. 그녀의 길고 어두운 머리카락은 바람에 휘날리고 있으며, 이는 바람이 부는 환경을 암시합니다. 그녀는 또한 눈을 대부분 가리는 크고 흰색 선글라스를 착용하고 있어 세련되고 편안한 모습을 보여줍니다. 배경에는 바다에서 부드럽게 밀려오는 파도가 있는 모래 해변이 있습니다. 물은 맑은 파란색이며, 하늘은 대부분 맑고 몇 개의 흩어진 구름이 있어 화창한 날씨를 나타냅니다. 멀리서 수평선에는 작은 섬이나 육지가 보이며, 이는 장소의 경치를 더욱 아름답게 만듭니다. 여성의 자세는 편안하고, 그녀는 해변 환경을 즐기는 것처럼 보입니다. 이미지의 전반적인 분위기는 평온하고 걱정 없는 자연 속에서 휴식과 즐거움을 느끼는 순간을 담고 있습니다.
    ### 분석 및 설명:
    1. 주제: 이미지의 주요 주제는 젊은 여성입니다. 그녀는 중심에 위치하며, 이미지의 초점입니다.
    2. 의상: 그녀는 왼쪽에 꽃무늬가 있는 연한 핑크색 탱크 탑을 입고 있습니다. 탱크 탑은 소매가 없어 따뜻한 날씨와 해변에 적합한 의상입니다.
    3. 액세서리: 그녀는 눈을 대부분 가리는 크고 흰색 선글라스를 착용하고 있습니다. 이 선글라스는 스타일과 태양으로부터의 보호를 제공합니다.
    4. 머리: 그녀의 긴 검은 머리는 바람에 휘날리고 있으며, 이는 바람이 부는 환경을 나타냅니다. 머리는 자유롭게 풀어져 있으며, 자연스럽게 파도치는 것처럼 보입니다.
    5. 배경: 배경은 모래사장과 바다에서 밀려오는 부드러운 파도로 이루어져 있습니다. 물은 맑은 파란색이며, 하늘은 대부분 맑고 몇 개의 구름이 흩어져 있습니다.
    6. 장소: 장소는 해변으로, 햇볕이 가득한 날에 촬영된 것으로 보입니다. 바다, 모래, 맑은 하늘의 존재로 보아 해안 지역으로 추정됩니다.
    7. 분위기: 이미지의 전반적인 분위기는 편안하고 자유로운 느낌입니다. 여성의 자세와 자연스러운 환경이 함께 어우러져 여유로운 분위기를 전달합니다.
    ### 통합 지식: 해변은 아름다운 경치와 바다의 평온한 영향으로 인해 휴식과 레크리에이션을 위한 인기 있는 장소입니다. 여성의 옷차림인 가벼운 탱크탑과 선글라스는 해변에서 흔히 볼 수 있는 복장으로, 날씨가 따뜻하고 햇빛이 강한 것을 나타냅니다. 그녀가 착용한 큰 선글라스는 햇빛으로부터 눈을 보호하기 위한 실용적인 선택입니다.

    멀티모달 이해 테스트 결과, Janus-Pro-7B 모델은 전반적으로 매우 뛰어난 멀티모달 이해 성능을 보여주었으나, 탱크톱의 꽃무늬 크기나 스타일, 소재(면인지 합성섬유인지), 핏(느슨하거나 몸에 딱 맞는지) 같은 일부 디테일은 조금 더 구체화할 여지가 있습니다.

    2) 텍스트-이미지 생성 테스트

    https://janusai.pro/ 사이트 이미지 생성 화면

    텍스트 프롬프트 1: Create a serene woman practicing yoga on a beach at sunrise, with long, wavy hair and a peaceful expression, as ocean waves gently lap at her feet.

    Janus-Pro-7B(좌), Stable Diffusion 3.5 Large(중앙), Flux 1.1 Pro(우)

    텍스트 프롬프트 2: Create a high-resolution image of a young woman with long hair, wearing an ornate golden crown. The woman is looking directly at the camera with a serious expression. She is holding up both hands in front of her, with each hand displaying a peace sign. The background is artistically textured with shades of teal and gold, adding a regal and dramatic effect to the scene. The lighting should be soft but dramatic, emphasizing the details of the crown and the woman's facial features.

    Janus-Pro-7B(좌), Stable Diffusion 3.5 Large(중앙), Flux 1.1 Pro(우)

    텍스트 프롬프트 3: A girl is standing on the beach wearing sun glasses.

    Janus-Pro-7B(좌), Stable Diffusion 3.5 Large(중앙), Flux 1.1 Pro(우)

    텍스트 프롬프트 4: A beautiful woman holding a sign that says "This is an example of long text to test Janus-Pro-7B" with bold text

    Janus-Pro-7B(좌), Stable Diffusion 3.5 Large(중앙), Flux 1.1 Pro(우)

    텍스트 프롬프트 5: A beautiful woman with green hair takes a selfie in front of a mirror

    Janus-Pro-7B(좌), Stable Diffusion 3.5 Large(중앙), Flux 1.1 Pro(우)

    텍스트-이미지 생성 테스트 결과, Janus-Pro-7B 모델은 SD 3.5 Large와 Flux 1.1 Pro 모델에 비해 이미지 품질, 텍스트 구현, 손가락 표현 등의 시각적 요소에서 뛰어난 성능을 보이지 못했습니다. 그러나 아래 이미지에서 확인할 수 있듯이, 복잡한 텍스트-이미지 명령어를 정확히 따르고, 다양한 스타일과 분위기를 표현하며, 창의적이고 상상력 넘치는 이미지를 생성하는 면에서는 경쟁력을 갖추고 있습니다.

     

    텍스트 프롬프트 6: Please generate a 3D rendering of a golden retriever lying peacefully on a wooden deck with autumn leaves scattered around it. The background should be a warm and soft autumn sunset. Please include the texture of the leaves and the details of the retriever's fur.

    Janus-Pro-7B(좌), DALL-E 3(우)

    텍스트 프롬프트 7: Paint a picture of a glowing crystal ball placed on a stone table in the middle of a sandy desert, floating under the setting sun. The background should capture the serenity and mystery of the desert. Use colors to create a calm and dreamy atmosphere.

    Janus-Pro-7B(좌), DALL-E 3(우)

    텍스트 프롬프트 8: Paint a small galaxy trapped inside a glass bottle, shining brightly on a dark velvet cloth. The galaxy should be colorful and the bottle should have a realistic glass texture.

    Janus-Pro-7B(좌), DALL-E 3(우)

    6. Janus 로컬 실행방법

    Janus 시리즈 모델을 로컬에서 실행하기 위한 방법은 아래와 같습니다.

    1) 환경 설정:

    • Python 3.8 이상이 설치되어 있어야 합니다.
    • 이 모델은 최소 16GB 이상의 GPU 메모리를 권장합니다.
    • 종속성 설치: JanusFlow를 사용하는 경우 추가 종속성을 설치합니다.
    pip install -e .
    pip install diffusers[torch] #JanusFlow를 사용하는 경우 추가 종속성을 설치

    2) Gradio 데모 실행: https://github.com/deepseek-ai/Janus사이트를 참고해서 아래 명령어를 실행합니다. 

    로컬 데모를 실행하려면 다음 명령을 사용합니다.

    git clone https://github.com/deepseek-ai/Janus
    cd Janus
    pip install -e .[gradio]
    python demo/app_januspro.py # Janus-Pro
    python demo/app.py  # Janus
    python demo/app_janusflow.py # JanusFlow

    Janus-Pro-7B Gradio 데모 초기화면

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    7. 맺음말

    Janus 시리즈는 통합 멀티모달 모델의 발전을 위한 중요한 진전입니다. 시각적 인코딩 분리, 최적화된 훈련 전략, 데이터 확장, 모델 확장 등 다양한 혁신적인 접근 방식을 통해 멀티모달 이해 및 생성 작업에서 뛰어난 성능을 달성했습니다. 특히, Janus-Pro는 텍스트-이미지 명령어 추종 능력과 이미지 생성 안정성을 크게 향상시켰으며, JanusFlow는 정류 흐름 통합을 통해 이미지 생성 기능을 강화했습니다.

     

    Janus 시리즈는 아직 해결해야 할 과제도 있습니다. 입력 해상도 제한으로 인해 OCR과 같은 세밀한 작업에 대한 성능이 제한되고, 낮은 해상도와 비전 토크나이저로 인한 재구성 손실로 인해 이미지 디테일이 부족할 수 있습니다. 앞으로 이러한 한계를 극복하기 위한 지속적인 연구가 계속될 것으로 보입니다.

     

    오늘 블로그는 여기까지입니다. 여러분도 DeepSeek의 최신 멀티모달 모델 Janus 시리즈를 한번 경험해 보시기를 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2025.01.23 - [AI 언어 모델] - 🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료!

     

    🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료!

    안녕하세요! 오늘은 DeepSeek AI에서 개발한 최신 추론 모델 DeepSeek-R1에 대해 알아보겠습니다. DeepSeek-R1은 순수 강화 학습(Pure Reinforcement Learning)을 통해 언어 모델의 추론 능력을 혁신적으로 향상시

    fornewchallenge.tistory.com

    728x90