[AI 논문] InstantID: 얼굴 사진 한장으로 딥페이크 생성

안녕하세요! 오늘은 베이징의 스타트업 인스턴트 X가 개발한 얼굴 사진 한 장으로 원본에 충실한 딥페이크를 생성하는 InstantID라는 기술에 대해서 알아보겠습니다. InstantID의 핵심은 IdentityNet이라 불리는 새로운 모듈로 얼굴과 랜드마크 이미지를 포함한 다양한 조건을 사용하여 텍스트 프롬프트와 상호 작용하여 이미지를 생성하는 플러그 앤 플레이 모듈로, 기존에 사전 훈련된 텍스트 대 이미지 확산 모델인 SD1.5 및 SDXL과 원활하게 통합됩니다. 그럼 시작해 볼까요?

https://www.aitimes.com/news/articleView.html?idxno=156805

사진 한장으로 원본에 충실한 딥페이크 생성..."로라보다 뛰어난 성능" - AI타임스

이미지 생성 인공지능(AI)에서 특정 스타일의 일관된 출력을 위해 사용하는 로라(LoRA)보다 간단한 새 기술이 등장했다. 사진 한장만 사용한 \'제로샷(Zero-shot)\' 학습법을 이용, 원본 이미지의 아이

www.aitimes.com

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문 개요 및 목적

논문 제목: "InstantID: Zero-shot Identity-Preserving Generation in Seconds"
논문 저자: InstantX Team
논문 게재 사이트: https://arxiv.org/abs/2401.07519
논문 게재일: 2024.1

InstantID: Zero-shot Identity-Preserving Generation in Seconds

이 논문의 핵심 목표는 이미지 생성 프로세스에서 신속하면서도 높은 품질의 개인 식별 정보를 유지하는 "InstantID" 기술을 소개하는 것입니다. 기존의 다양한 이미지 생성 기술 중에서도 특히, 하나의 얼굴 이미지만으로 고품질이고 개인 맞춤형 이미지를 생성하는 능력을 갖추고 있습니다.

논문의 연구내용 및 결과

InstantID는 개인 식별 정보를 유지하는 신속한 이미지 합성을 중점적으로 다루며, 이를 위해 간단한 플러그 앤 플레이 모듈을 도입합니다. 이 모듈은 얼굴 이미지 하나만 사용하여 고품질의 이미지를 생성할 수 있는 능력을 제공합니다.

InstantID의 파이프라인

InstantID의 전체적인 파이프라인은 아래 그림과 같이 구성되어 있습니다.

다음은 InstantID의 동작원리와 파이프라인에 대한 설명입니다.

Face Encoder 및 ID 임베딩: 모델은 얼굴 특징을 추출하기 위한 Face Encoder를 사용합니다. 이 Face Encoder는 사전 훈련된 얼굴 모델을 사용하여 얼굴 이미지에서 의미 있는 정보를 추출하고, 그 정보를 ID 임베딩으로 변환합니다. ID 임베딩은 해당 얼굴의 고유한 특징과 식별 정보를 포함하며, IdentityNet으로 전달됩니다.
이미지 어댑터 (Image Adapter): Image Adapter는 이미지 프롬프팅을 강화하기 위해 IP-Adapter와 유사한 전략을 채택한 가벼운 어댑터 모듈입니다. 이 모듈은 ID 임베딩을 사용하여 세밀하고 의미 있는 이미지 프롬프트를 생성하며, CLIP 임베딩 대신 ID 임베딩을 이미지 프롬프트로 사용함으로써 IP-Adapter와 차별화합니다. 이미지 어댑터는 분리된 Cross-Attention 메커니즘을 사용하여 이미지 프롬프트를 텍스트 프롬프트와 별도로 처리함으로써 서로 독립적인 제어와 조절이 가능하고, 출력은 Unet으로 전달됩니다.
IdentityNet: IdentityNet은 복잡한 얼굴 특징을 인코딩하고 약한 공간 제어를 제공하기 위한 모듈입니다. IdentityNet은 얼굴 이미지의 시맨틱 정보에는 강한 제어를 가하면서, 공간적인 특징에는 상대적으로 약한 조건을 부여합니다. 이는 얼굴의 주요 특징을 유지하면서 다양한 스타일이나 자세에 대한 적응성을 높이는 데 도움이 됩니다. IdentityNet은 얼굴의 식별 가능한 특성, 나이, 성별과 같은 복잡한 시맨틱 정보를 효과적으로 인코딩하며, 학습가능한 모듈입니다.
Unet: Unet은 IdentityNet과 달리 이미지의 공간 구조, 색상과 같은 더 낮은 수준의 시맨틱 정보를 인코딩합니다. 이 두 모델은 서로 보완적으로 작동하여 입력 이미지의 다양한 특징을 유지하면서도 고유한 ID를 보존하고 원하는 스타일로 생성하는 데 기여합니다. 학습 도중에 동결된(frozen) 상태를 유지하며, 사전 훈련된 텍스트-이미지 모델의 매개변수가 고정되어 있어서 새로운 데이터에 대한 학습이나 업데이트가 이루어지지 않습니다.
결과 생성: 생성 과정에서는 Face Encoder, Image Adapter, IdentityNet에서 나온 정보들이 결합되어 고유한 스타일과 높은 얼굴 충실도를 유지하면서 이미지가 생성됩니다. 텍스트 정보 없이도 ID를 보존하는 이미지 생성이 가능합니다.

이러한 파이프라인을 통해 InstantID는 얼굴의 식별 정보를 보존하면서 다양한 스타일의 이미지를 생성하는 데 중점을 둡니다.

InstantID의 주요 특징

플러그 가능성 및 호환성: InstantID는 텍스트-이미지 확산 모델의 전체 매개 변수를 다시 훈련하는 대신, 모델에 가벼운 어댑터를 추가로 훈련시켜서 이 모듈을 플러그 하도록 만들며, 사전 훈련된 다른 모델과 호환됩니다.
훈련 불필요: InstantID는 추론 과정에서 한 번의 입력과 예측만으로 이미지를 생성하며 추가적인 미세 조정이 필요하지 않습니다. 이러한 특징은 InstantID를 매우 경제적이고 현실적인 응용 프로그램으로 만듭니다.
우수한 성능: 단일 참조 이미지만으로도 InstantID는 우수한 결과를 달성하며 높은 충실도와 유연성을 보여줍니다. 놀랍게도 InstantID는 여러 참조 이미지에 의존하는 LoRAs와 같은 훈련 기반 방법의 성능을 뛰어넘을 수 있습니다.

이러한 특징들로 인해 InstantID는 단일 참조 ID 이미지로 다양한 스타일의 이미지를 생성하면서 높은 충실도를 유지하고, 더 나은 얼굴 보존 및 텍스트 컨트롤이 가능한 이미지 생성이 이루어집니다.

다음은 InstantID와 IP-Adapter, LoRA의 특징에 대한 비교표입니다.

특징/방법	InstantID	IP-Adapter	LoRA
ID 임베딩	강력하며 세밀한 ID 특징	대략적인 CLIP 임베딩 사용	데이터에 기반한 다중 이미지 학습
얼굴 충실도	높은 충실도, 텍스트 제어 유지	얼굴 충실도 향상, 텍스트 제어 영향	다중 이미지로 인한 경쟁력 있는 결과 가능
스타일 유연성	다양한 스타일과 잘 어울림	스타일 저하 가능성 있음	다중 이미지로 인한 일정 제한
정밀조정 테스트시간	불필요 (Zero-shot)	일부 방법에서 필요함	필요함
훈련 노력 및 데이터	덜 필요 (단일 이미지로 경쟁력 있는 결과)	높은 훈련 및 데이터 필요	높은 훈련 및 데이터 필요

InstantID 실험 및 결과

논문의 실험에서는 Stable Diffusion 모델을 사용하고, 대규모 오픈 소스 데이터셋인 LAION-Face로 훈련하였으며, InstantID 기술을 해당 모델에 적용했습니다. InstantID는 기존의 텍스트-이미지 모델(Stable Diffusion)에 얼굴 ID를 보존하는 능력을 부여하도록 설계되었습니다. 이를 위해 InstantID는 세 가지 핵심 구성 요소를 포함하고 있습니다: ID Embedding(얼굴 식별 정보를 캡처하는 역할), Image Adapter(이미지를 시각적 프롬프트로 사용할 수 있게 하는 가벼운 모듈), IdentityNet(참조 얼굴 이미지의 세부 특징을 부가적인 공간 제어와 함께 인코딩하는 부분).

아래 그림 'empty prompt'에서 볼 수 있듯이 InstantID는 빈 프롬프트(Empty Prompt) 설정에서는 참조 이미지만을 사용하여 생성한 경우에도 표정, 나이, 신원과 같은 풍부한 시맨틱 얼굴 내용을 일관되게 유지할 수 있는 능력을 보여줍니다. 그러나 성별과 같은 특정 시맨틱 요소는 완벽하지 않을 수 있습니다(두 번째 행 참조). 여러 프롬프트 설정에서는 텍스트 제어 능력에 저하가 없으며 동시에 동일성 일관성을 보장하여 성별, 의상, 머리 색상 등을 효과적으로 변경할 수 있습니다.

그림의 열 5-9에서 확인할 수 있듯이 사전 훈련된 윤곽정보나 깊이정보를 감지하는 ControlNet(canny, depth) 모델을 사용하여 유연한 공간 제어를 적용할 수 있습니다. 이러한 실험 결과는 InstantID의 뛰어난 성능, 프롬프트 편집 가능성, 및 다양한 설정과의 호환성을 시각적으로 보여주고 있습니다.

이미지 Only 결과 (열 1), 이미지 + 프롬프트 결과 (열 2-4), 이미지 + 프롬프트 + 공간제어 결과 (열 5-9)

DEMO 사이트

InstantID의 DEMO 사이트는 아래 링크를 참고하시기 바랍니다. 별도의 로컬 프로그램 설치과정없이 웹 브라우저 상에서 InstantID의 기능을 경험해 보실수 있습니다.

InstantID - a Hugging Face Space by InstantX

huggingface.co

논문의 결론 및 전망

이 논문에서는 InstantID를 제안하여 한 장의 얼굴 이미지만 사용하여 다양한 스타일에서 제로샷(Zero-shot) 식별 정보를 보존하면서 이미지를 생성하는 솔루션을 소개합니다. InstantID의 핵심 디자인은 얼굴 세부 사항을 강화하는 Image Adapter와 복잡한 얼굴 특징을 보존하기 위한 IdentityNet 두 가지입니다. InstantID의 플러그 가능한 특성은 다른 모델과 원활하게 통합되어 LoRAs 및 ControlNet과 같은 모델과의 호환성을 제공하며, 추가 비용 없이 적용 가능합니다.

InstantID는 제안된 기술의 강력한 효능과 효율성을 강조하며, 단일 이미지만으로도 뛰어난 성과를 보임으로써 이미지 생성 분야에서의 활용 가능성을 제시합니다. 그러나 ID 임베딩의 결합 특성으로 인한 얼굴편집의 어려움과 같은 몇 가지 도전적인 과제가 남아 있습니다. 미래의 발전에서는 ID 임베딩의 세부 특성을 더욱 유연하게 다루기 위한 노력이 예상되며, 사용된 얼굴 모델의 편향성과 윤리적인 고려 사항 또한 신중하게 고려되어야 합니다.

오늘은 InstantID라는 얼굴 이미지 한 장으로 고품질 딥페이크를 만드는 AI기술에 대해 알아보았는데요. 최근 딥페이크로 인한 범죄에 대해 사회적 우려가 커지고 있는 가운데, InstantID와 같은 AI기술의 윤리적 사용에 대해 좀 더 경각심을 가지고 관련제도와 안전장치를 강화해서 안전하고 신뢰할 수 기술로 발전해 나가기를 기대하면서 저는 다음에 더욱 유익한 자료를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.02.01 - [AI 논문 분석] - 코드생성 AI AlphaCodium: 프롬프트 엔지니어링에서 플로우 엔지니어링으로

코드생성 AI AlphaCodium: 프롬프트 엔지니어링에서 플로우 엔지니어링으로

안녕하세요! 오늘은 최근 화제가 되고 있는 코드 생성 AI AlphaCodium에 대해서 알아보겠습니다. AlphaCodium은 코드 생성 작업을 위한 흐름 기반 방법론으로, 문제에 대한 자연어 이해와 코드 생성을

fornewchallenge.tistory.com

저작자표시

'AI 논문 분석' 카테고리의 다른 글

뤼미에르: 구글의 텍스트 기반 비디오 생성의 새로운 기준 (4)	2024.02.08
OLMo(Open Language Model) : 완전한 오픈소스 대형 언어 모델 (0)	2024.02.04
코드생성 AI AlphaCodium: 프롬프트 엔지니어링에서 플로우 엔지니어링으로 (0)	2024.02.01
[AI 논문] 코알라: '달리'보다 5배 빠른 ETRI의 이미지 생성 모델 (2)	2024.01.30
AlphaGeometry: 국제 수학 올림피아드 수준 기하학 정리 증명 AI (4)	2024.01.25