본문 바로가기
AI 뉴스 리뷰

AI 단신 : '챗봇이 파일 하나', 'MS의 말하는 아바타 생성기술'

by James AI Explorer 2023. 12. 6.
    728x90

    안녕하세요. AI분야의 최신 소식을 핵심만 요약해서 전해드리는 AI 단신 카테고리를 새로 만들었습니다. 오늘은 그 첫 시간으로 두 가지 소식을 준비했는데요. 파이어폭스로 잘 알려진 모질라(Mozilla)의 대규모 언어모델(Large Language Model) llamafile과 마이크로소프트의 최신 Image to Video 기술에 대한 소식입니다. 

    챗봇이 일상이 된 사회 - 빙 이미지 크리에이터

     

    728x90

     

    파일 하나가 챗봇?

    첫 번째 소식은 오픈 소스 소프트웨어 개발과 웹 기술 분야에서 활동하는 비영리 기업인 모질라(Mozilla)에서 2023년 12월 3일(현지시간), 대규모 언어 모델(LLM)을 단일 실행 파일 형태로 배포하여 PC에서 간편하게 활용할 수 있는 '라마파일(llamafile)'을 공개하였다는 소식입니다.

     

    라마파일은 LLM의 학습상태를 나타내는 가중치 세트를 단일 바이너리로 압축하여 배포함으로써, 복잡한 설치 없이도 맥OS, 윈도우, 리눅스 등 다양한 운영 체제에서 LLM을 실행할 수 있게 하였습니다. LLM의 크기는 약 4GB이며 USB에 담아 휴대할 수 있는 LLM이 등장한 것입니다. 라마파일은 C/C++ 기반의 LLM 챗봇 프레임워크인 라마.cpp(llama.cpp)와 다양한 플랫폼과 아키텍처에서 C 프로그램을 컴파일하고 실행할 수 있게 해주는 오픈 소스 프로젝트인 코스모폴리탄 Libc를 결합하여 개발되었습니다.

     

    라마파일은 '미스트랄-7B', '위저드코더-파이썬-13B' 및 '라바 1.5'와 같은 LLM 샘플 바이너리를 제공합니다. 윈도우의 실행 파일 크기 제한으로 인해 라바 1.5 바이너리만 사용 가능합니다. 라마파일은 채팅, 코딩, 멀티모달 등 다양한 애플리케이션에 적용 가능하며, LLM의 배포 및 활용 방식을 변화시킬 수 있는 획기적인 방식으로 평가받고 있습니다.

     

    https://www.aitimes.com/news/articleView.html?idxno=155652

     

    “LLM을 단일 파일 형태로 PC에 탑재”…엣지 AI에서 실행되는 휴대용 LLM 등장 - AI타임스

    대형언어모델(LLM)을 단일 실행 파일 형태(.exe)로 변환, PC에서 간단하게 활용 가능하게 만든 \'온디바이스 AI\' 솔루션이 나왔다. 이를 활용하면 LLM을 USB에 저장, 어디에서든 LLM을 사용할 수 있게

    www.aitimes.com

     

    라마파일은 모질라의 깃허브 페이지에서 무료로 다운로드하실 수 있습니다. 아래 텍스트 박스를 클릭하시면 라마파일을 다운로드할 수 있는 페이지로 이동합니다. Server llamafile 중 원하는 모델을 다운로드하신 후, 윈도우 운영체제의 경우에는 파일명 끝에 .exe를 추가한 후 더블클릭하면 실행됩니다. 라마파일의 용량은 7B의 경우 약 4GB, 13B의 경우 약 7GB 정도입니다. 파일 실행 후 메모리 할당과 모델 로딩이 끝나면 http://127.0.0.1:8080/의 주소로 브라우저가 열리게 됩니다. 

    llamafile 다운로드

     

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    llamafile 다운로드 깃허브 페이지

     

    아래화면의 왼쪽은 llamafile의 실행 초기화면입니다. 챗봇 이름과 사용자 이름 등을 변경할 수 있고, 이미지를 업로드할 수 있는 버튼이 맨 아래에 배치되어 있습니다. 이전에 Fooocus UI로 생성해 놓았던 이미지를 업로드하고 설명해 달라고 요청하였는데 사진 속 인물의 모습과, 자세, 의상, 배경, 전체적인 분위기등을 잘 표현해 주었습니다. 

     

    이번 기술의 개발을 통해 윈도우 운영체제의 NTFS 파일시스템인 경우 단일 파일 4GB의 용량 제한이 있지만, 이제는 70억 개의 매개변수를 학습한 모델을 이동식 저장장치에 휴대할 수 있다는 새로운 개념이 등장하게 되었네요.

     

     

     

     

     

     

     

    이미지 한 장으로 말하는 아바타 생성!

    두 번째 소식은 마이크로소프트에서 개발한 "제로샷 말하는 아바타 생성 기술"에 대한 소식입니다. 제로샷은 "훈련 데이터에 없는 새로운 클래스를 인식하거나 분류하는 것"을 의미합니다. 일반적으로 딥러닝 모델은 훈련 데이터에 있는 클래스에 대해서만 정확하게 인식하거나 분류할 수 있지만 제로샷 학습은 훈련 데이터에 없는 새로운 클래스에 대해서도 학습된 모델을 사용하여 인식하거나 분류할 수 있도록 합니다. 

     

    제로샷 토킹 아바타 생성은 스피치와 단일 초상화 이미지에서 자연스러운 토킹 비디오를 합성하는 것을 목표로 합니다. 이전 방법은 스피치의 특징을 사용하여 아바타의 얼굴, 입, 눈 등의 모양을 조정하는 와핑 (Warping) 기반 모션 표현 및 스피치에 따라 아바타의 모양을 변화시키는 3D 모핑 모델과 같은 특정 모델에 의존했으며, 이는 생성된 아바타의 자연스러움과 다양성에 제한이 있었습니다.

     
    마이크로소프트 GAIA로 구현된 영상

     

    GAIA(Generative AI for Avatar)는 이러한 특정 모델링 기술을 사용하지 않고, 데이터로부터 학습하여 아바타의 모션을 생성합니다. 따라서, GAIA는 다양한 도메인에 적용할 수 있으며, 자연스럽고 다양한 아바타를 생성할 수 있습니다.

     

    사전 학습지식 없이 말하는 아바타를 생성하는 GAIA(Generative AI for Avatar) 기술에서 스피치는 아바타의 모션만을 유도하고 아바타의 외모와 배경은 비디오 전체에서 동일하게 유지되며, 접근 방식을 아래 그림과 같이 두 단계로 나눕니다.

    • 1단계 : 각 프레임을 모션 및 외모 표현으로 분리합니다.
    • 2단계 : 스피치 및 참조 초상화 이미지를 기반으로 모션 시퀀스를 생성합니다.

    GAIA 프로세스 구성

     

    GAIA는 VAE(Variational AutoEncoder)와 Diffusion 모델로 구성되어 있습니다. VAE는 각 비디오 프레임을 분리된 표현(즉, 모션 및 외모 표현)으로 인코딩하고 분리된 표현에서 원래 프레임을 재구축하도록 먼저 학습됩니다. 그런 다음 Diffusion 모델은 스피치 시퀀스와 비디오 클립 내의 임의 프레임에 따라 모션 시퀀스를 생성하도록 최적화됩니다. 추론 중 Diffusion 모델은 입력 스피치 시퀀스와 참조 초상화 이미지를 조건으로 받아 모션 시퀀스를 생성하며, 이는 VAE의 디코더를 활용하여 비디오로 디코딩됩니다.

    말하는 아바타 자세히 보기

     

    https://fornewchallenge.tistory.com/

    마치며

    라마파일은 윈도우뿐만 아니라, 리눅스, 맥 OS 등 다양한 OS에서 사용이 가능하며, GPU를 이용한 가속이 가능하다고 합니다. 여러분도 라마파일을 다운로드하셔서 한 번쯤 활용해 보시면 좋은 경험이 될 것 같습니다. GAIA 기술은 아직 초기 단계에 있지만 언어나 역사교육, 게임, 엔터테인먼트 등 다양한 분야에서 활용될 수 있는 잠재력을 가지고 있어서 앞으로 어떻게 발전할지 기대가 됩니다.

     

    AI분야의 최신소식을 정리하여 전해드리는 AI 단신 첫 번째 시간은 여기서 마치겠습니다. 저는 다음에 더욱 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    2023.12.05 - [AI 논문 요약] - AI 논문 분석 : 캐릭터 이미지 한 장으로 애니메이션 만들기, Animate Anyone

     

    AI 논문 분석 : 캐릭터 이미지 한 장으로 애니메이션 만들기, Animate Anyone

    안녕하세요. 오늘은 캐릭터의 이미지 한 장만 있으면 원하는 자세로 움직이는 애니메이션 만들 수 있는 Animate Anyone이라는 기술을 발표한 논문에 대해 살펴보겠습니다. 이번 블로그에서는 이미

    fornewchallenge.tistory.com

     

    728x90