본문 바로가기
AI 논문 분석

AI 논문분석 : 실시간 Stable Diffusion 이미지 생성! 체험해보세요

by James AI Explorer 2023. 11. 18.

목차

    728x90

    안녕하세요. 오늘은 AI관련 최신 논문을 분석해 보는 세 번째 시간입니다. 다양한 텍스트 to 이미지 AI 도구 중에서 많은 사용자를 확보하고 있는 Stable Diffusion은 이미지의 품질이 우수하지만 생성속도가 느린 것이 단점이었는데요. 최근 생성속도를 획기적으로 개선한 모델이 나왔다는 소식입니다 그 모델은 바로 Latent Consistency Model(이하 LCM)이라는 모델입니다. 이 블로그에서는 LCM이 어떤 기술인지 살펴보고, 어느 정도 빠른 속도인지 직접 체험해 보실 수 있습니다. 

     

    논문내 스테이블 디퓨전 예시

     

    논문의 개요

    이 논문의 개요는 다음과 같습니다.

    • 논문 제목 : LCM-LORA: A UNIVERSAL STABLE-DIFFUSION ACCELERATION MODULE
    • 논문 저자 : Simian Luo, Yiqin Tan, Suraj Patil 외
    • 논문 게재 사이트 : arXiv
    • 논문 게재일 : 2023. 11

    논문의 목적은 Stable Diffusion 모델의 이미지 생성 속도를 크게 향상하는 것이 목적이며, LoRA를 사용하여 메모리 소모를 줄이고 더 큰 모델에도 적용할 수 있게 하는 것이 하위 목표입니다.

     

    참고사항 : Stable Diffusion 이란?

    Stable Diffusion text to image 기술은 텍스트 설명을 바탕으로 이미지를 생성하는 기술입니다. 이 기술은 잠재 확산 모델이라는 인공지능 모델을 사용하여 구현됩니다. 잠재 공간은 이미지의 모든 가능한 상태를 나타내는 고차원 공간이며, 잠재 확산 모델은 확산과 역확산이라는 두 가지 프로세스를 사용하여 작동합니다. 확산 프로세스는 이미지에 점진적으로 노이즈를 추가하여 이미지를 손상시키는 과정입니다. 역확산 프로세스는 손상된 이미지에서 노이즈를 제거하여 원래 이미지를 복원하는 과정입니다. 역확산 과정은 느리고 복잡하여 실시간 응용에 어려움이 있었습니다.

    LCM-LORA: A UNIVERSAL STABLE-DIFFUSION ACCELERATION MODULE 논문

     

     

    논문의 주요내용 및 결과

    이 논문은 Latent Consistency Model(LCM)을 Stable Diffusion 모델에 적용한 연구입니다. LCM은 이미지 생성 과정을 가속화하는 방법으로, Diffusion 모델을 distillation 하여 생성 속도를 실시간 수준으로 높입니다. 논문에서는 LoRA(Low-Rank Adaptation) 기법을 사용하여 보다 큰 규모의 Stable Diffusion 모델에 LCM을 적용했습니다.  

     

    논문의 연구결과와 결론은 다음과 같습니다. 

    • SD-V1.5, SSD-1B, SDXL 등 다양한 Stable Diffusion 모델에 LCM을 적용했습니다.
    • LoRA를 사용하여 4-step만으로 고품질 이미지를 생성할 수 있었습니다.
    • LCM-LoRA는 Stable Diffusion 모델의 보편적인 가속 모듈로 사용될 수 있습니다.
    • 추가 학습 없이 여러 모델에 플러그인할 수 있어 효율적입니다.

    "Latent Consistency Model (LCM): LCM은 역확산 과정을 증강된 확률 흐름을 한 변수에 대한 미분방정식 문제로 해석하고 잠재 공간에서 미분 방정식의 해를 예측하는 새로운 생성 모델입니다. LCM은 미리 학습된 SD 모델로부터 지식을 전달받아 학습되며, 1~4 단계의 샘플링으로 고해상도의 이미지를 거의 실시간으로 생성할 수 있습니다."


    "LCM-LoRA: LCM-LoRA는 LCM의 학습지식 전달 과정에서 LoRA (Low-Rank Adaptation) 기법을 적용하여 메모리 소모를 줄이고 더 큰 모델을 학습할 수 있게 한 것입니다. 또한 LCM-LoRA의 파라미터는 다른 SD 모델이나 LoRA 파라미터와 선형 결합하여 특정 스타일의 이미지를 빠르게 생성하는 모델을 얻을 수 있으며 이때 추가적인 학습은 필요하지 않습니다."


    위 개념을 완벽히 이해하는 것은 쉽지 않습니다. 대략의 내용만 확인하는 수준에서 넘어가는 것이 좋을 것 같습니다. ^^

     

    한마디로 쉽게 말해서 Stable Diffusion이 이미지를 생성하는 속도가 획기적으로 빨라졌다는 내용인데요. 속도가 거의 실시간 수준으로 개선된 것으로 보입니다. 저도 어느 정도 빠른지 궁금해서 한번 찾아보았는데요,

     

    아래 박스를 클릭하시면 실시간으로 LCM이 적용된 스테이블 디퓨전에 텍스트 to 이미지 프롬프트를 입력해서 체험해 보실 수 있습니다. Start버튼을 누르고 프롬프트를 입력하면 바로 이미지가 생성되는 마법같은 체험을 하실 수 있습니다. 

    실시간 스테이블 디퓨전!!
    https://www.seaart.ai/ - AI 실사 이미지를 쉽게 만들어 보세요

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    https://fornewchallenge.tistory.com/

    마치며

    이 논문에서는 Stable Diffusion의 이미지 생성속도를 실시간 수준으로 끌어올린 Latent Consistency Model을 제시하였으며, LoRA 등 파라미터 효율적 학습 방법의 유용성을 입증하였습니다. 이 연구는 딥러닝 모델 최적화에 도움이 되는 실용적인 연구라고 볼 수 있습니다.

     

    오늘은 텍스트 to 이미지 AI의 최신기술을 다룬 논문에 대해 알아보았는데요. 그동안 Stable Diffusion의 느린 속도에 답답해하셨던 분들은 속이 뻥 뚫리셨을 것 같습니다 그럼 저는 다음 시간에 더욱 유익한 정보로 다시 찾아뵙겠습니다. 감사합니다. 

     

    2023.11.14 - [AI 논문 분석] - AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리

     

    AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리

    안녕하세요. 오늘은 AI 분야의 최신 논문을 살펴보는 두 번째 시간으로 최근 등장하고 있는 생성형 AI모델의 종류와 특징을 분석한 논문이 있어서 소개해드리려고 합니다. 생성형 AI의 주요 모델

    fornewchallenge.tistory.com

     

    반응형