🚀 ReALM, 화면 속 정보를 이해하는 애플의 새로운 AI 기술!

안녕하세요! 오늘은 최근 애플에서 공개한 최신 언어모델링 기술인 ReALM에 대해서 알아보겠습니다. ReALM은 "Reference Resolution As Language Modeling, 언어모델링을 통한 참조 해결"의 약자로, 대화 시스템이 사용자의 요청과 버튼, 텍스트, 이미지 등 화면에 표시된 객체나 정보를 식별하고 그 사이의 관계를 연결하여 사용자의 요청을 처리할 수 있도록 하는 기술인데요. ReALM은 화면의 객체를 텍스트로 인코딩하고 대화 시스템이 이를 이해해서 처리할 수 있도록 합니다. 이 블로그에서는 ReALM의 개요, 동작원리, 성능평가 결과 등에 대해서 살펴보겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문 개요

이 논문의 목적은 대화 시스템에서 사용자가 화면에 표시된 엔티티(Entity, 객체나 정보)를 언급하여 요청할 때, 화면상의 해당 객체나 정보를 식별하고 이를 이해하여 사용자의 요청을 처리하는 것입니다. 특히, 이 연구는 대화 시스템이 사용자의 요청을 이해하고 처리하는 데 필요한 정보를 제공하기 위해 화면의 객체를 효과적으로 인식하고 해석하는 방법을 개발함으로써 사용자가 대화 시스템을 통해 화면에 표시된 객체를 참조하여 작업을 요청하거나 수행하는 데 있어서 자연스럽고 효율적인 경험을 제공하고자 합니다.

논문제목 : ReALM: Reference Resolution As Language Modeling
논문저자 : Apple
논문게재 사이트: https://arxiv.org/abs/2403.20329
논문게재일 : 2024. 3

ReALM: Reference Resolution As Language Modeling

논문의 연구내용

ReALM은 언어 모델링을 사용하여 참조 해결(reference resolution)을 수행하는 기술을 의미합니다. 참조 해결이란 주어진 대화 문맥에서 사용되는 단어나 구문이 어떤 객체나 정보를 가리키는지를 판단하여 해당 객체나 정보를 식별하고 처리하는 것을 말하는데요, ReALM은 언어 모델을 활용하여 이러한 참조 해결 작업을 수행하며, 이를 통해 대화 시스템의 성능을 향상시키고 자연스러운 상호작용을 가능하게 합니다.

ReALM 모델 개요

ReALM 모델은 언어 모델링(Language Modeling)을 기반으로 하여 사용자의 쿼리에 포함된 정보와 화면에 표시된 엔티티를 이해하고 연결합니다. ReALM 모델은 다음과 같은 개요 및 특징을 갖습니다:

언어 모델 활용: ReALM은 대화 내용과 화면에 표시된 엔티티를 언어 모델을 사용하여 이해합니다. 이를 통해 사용자의 요청을 처리하고 필요한 정보를 추출할 수 있습니다. ReALM은 T5(Text-To-Text Transfer Transformer) 아키텍처를 기반으로 하여 참조 해결 작업에 적합하도록 조정된 FLAN-T5 모델을 사용합니다.
참조 해결: ReALM은 주어진 사용자 쿼리와 화면에 표시된 엔티티 간의 관계를 해결합니다. 즉, 사용자가 어떤 엔티티를 참조하는지를 파악하여 해당 엔티티를 식별하고 처리합니다.
화면 정보 활용: 화면에 표시된 엔티티는 ReALM 모델이 작업을 수행하는 데 중요한 정보로 활용됩니다. 이러한 정보를 텍스트로 변환하여 모델에 입력으로 제공하고, 모델이 해당 엔티티를 이해하고 처리할 수 있도록 합니다.
가벼운 모델: ReALM은 대규모 언어 모델과 유사한 작업을 수행하지만, 더 가벼우며 빠르게 실행됩니다. 이는 모델이 대화 시스템 내에서 실시간으로 참조 해결 작업을 수행할 수 있도록 해줍니다.

ReALM 모델은 대화 시스템에서 화면에 표시된 엔티티를 참조 해결하는 데 사용되며, 이를 통해 사용자의 요청을 더 잘 이해하고 처리할 수 있습니다. ReALM 모델이 참조 해결하고자 하는 대상 엔티티는 다음과 같이 세 가지 유형으로 나눌 수 있습니다.

화면에 표시된 엔티티: 사용자의 화면에 현재 표시되는 엔티티입니다. 이는 대화 시스템이 사용자의 요청을 이해하고 처리하기 위해 필요한 정보로, 예를 들어 모바일 애플리케이션의 화면에서 표시되는 버튼, 텍스트, 이미지, 링크 등이 해당됩니다. 텍스트로 표시되는 라벨이나 설명을 분석해서 버튼이나 이미지를 인식합니다.
대화적 엔티티: 대화에 관련된 엔티티로, 이전 사용자 대화 차례에서 나온 것일 수 있습니다(예: 사용자가 "엄마에게 전화"라고 할 때, 엄마에 대한 연락처가 해당 엔티티가 됩니다) 또는 가상 어시스턴트에서 나온 것일 수 있습니다(예: 에이전트가 사용자에게 선택할 장소나 알람 목록을 제공할 때).
배경 엔티티: 사용자의 화면이나 가상 에이전트와의 상호작용에 직접적인 부분이 아닐 수 있는 백그라운드 프로세스에서 나온 관련 엔티티입니다. 예를 들어, 울리는 알람이나 백그라운드에서 재생되는 음악 등이 있습니다.

엔티티 인코딩 전략

ReALM에서 채택한 인코딩 전략은 화면에 표시된 엔티티를 효과적으로 인식하고 처리하기 위해 다양한 전략을 탐색하고 실험한 결과를 바탕으로 결정되었습니다. 이러한 인코딩 전략은 다음과 같습니다.

화면 파싱 및 객체 추출: 먼저, 화면을 파싱하여 화면에 표시된 엔티티를 추출합니다. 이때, 화면에 표시된 버튼, 이미지, 링크 등의 객체들을 식별하고 이를 텍스트 형태로 추출합니다.
OCR을 통한 화면 요소 획득: OCR(광학 문자 인식) 기술을 사용하여 화면에 표시된 텍스트를 읽고 추출합니다. 이를 통해 화면에 표시된 텍스트 정보를 인식하여 활용합니다.
UI 요소 및 클러스터링을 통한 화면 요소 획득: UI 요소를 분석하고 클러스터링을 수행하여 화면에 표시된 엔티티를 추출합니다. 이를 통해 화면에 표시된 다양한 객체들을 의미적으로 그룹화하고 처리합니다.
대화 단위 주석 처리: 화면을 파싱하여 대화 단위를 추출하고 이를 주석 처리합니다. 이때, 각 객체는 대화 흐름을 이해하는 데 중요한 정보를 제공합니다.

이러한 다양한 인코딩 전략을 통해 ReALM은 화면에 표시된 엔티티를 효과적으로 인식하고 이를 기반으로 참조 해결 작업을 수행합니다.

참조 해결 작업을 수행하기 위해 논문에서 사용된 학습 및 평가 데이터셋은 대화형 데이터셋, 합성 데이터셋, 그리고 화면 데이터셋의 세 가지 유형으로 나눠집니다.

대화형 데이터셋 (Conversational Dataset): 사용자와 대화형으로 상호작용하면서 발생한 엔티티에 관련된 정보를 포함하며, 화면에 표시된 엔티티와 대화적인 상황에서 발생한 엔티티를 다룹니다.
합성 데이터셋 (Synthetic Dataset): 특정 유형의 엔티티에 대한 사용자 쿼리와 함께 생성된 데이터로써, 사용자 쿼리와 엔티티 유형에 따라 합성 데이터가 생성되며, 쿼리와 엔티티 유형만으로도 참조 해결이 가능한 경우에 사용됩니다.
화면 데이터셋 (On-screen Dataset): 화면에 표시된 정보에서 파싱된 엔티티 및 해당 정보에 대한 데이터입니다.

데이터셋 유형	학습 데이터 크기	테스트 데이터 크기
대화형 데이터셋	2,300개	1,200개
합성 데이터셋	3,900개	1,100개
화면 데이터셋	10,100개	1,900개

ReALM 동작 순서

ReALM은 참조 해결(reference resolution)을 수행하기 위해 다음과 같이 동작합니다.

1. 입력 데이터 전처리: 모델에 입력되는 데이터는 사용자의 요청과 관련된 텍스트 정보입니다. 이 텍스트 정보는 화면에 표시된 엔티티에 대한 정보와 함께 전처리됩니다.
2. 화면에 표시된 엔티티 식별: 입력된 텍스트 정보에서 화면에 표시된 엔티티를 식별합니다. 화면에 표시된 엔티티는 사용자의 요청과 관련된 객체나 정보를 나타냅니다.
3. 텍스트 인코딩: 화면에 표시된 엔티티를 자연어 텍스트로 인코딩하여 모델에 입력으로 제공합니다. 이 과정에서 엔티티의 정보와 관련된 텍스트가 생성됩니다.
4. 모델 추론: 인코딩된 텍스트 정보를 기반으로 모델이 추론을 수행합니다. 모델은 입력된 텍스트 정보와 관련하여 사용자의 요청을 이해하고, 해당 요청에 대한 처리를 결정합니다.
5. 참조 해결: 모델은 입력된 텍스트 정보와 관련된 엔티티를 식별하고, 이를 사용하여 참조를 해결합니다. 참조 해결은 화면에 표시된 엔티티와 사용자의 요청 간의 관계를 파악하고, 이를 바탕으로 적절한 응답을 생성하는 과정입니다.

이와 같은 동작 순서를 통해 ReALM은 대화 시스템에서 화면에 표시된 엔티티를 효과적으로 참조 해결하여 사용자의 요청을 처리합니다.

ReALM 성능평가 결과

ReALM 모델의 구체적인 성능평가 결과와 분석내용은 다음과 같습니다:

Conv (대화형 데이터셋): ReALM 모델은 대화형 데이터셋에서 높은 정확도를 보였습니다. ReALM-3B 모델은 97.9%의 정확도를 보여 MARRS 모델보다 우수한 결과를 나타냈습니다. 이는 대화형 상황에서 사용자의 요청을 정확하게 이해하고 처리하는 데 우리의 접근 방식이 효과적임을 시사합니다.
Synth (합성 데이터셋): 합성 데이터셋에서도 ReALM 모델은 매우 높은 정확도를 보였습니다. ReALM-3B 모델은 99.8%의 정확도를 기록하여 MARRS 및 GPT-3.5 모델보다 우수한 결과를 보였습니다. 이는 모델이 합성된 데이터에서도 잘 작동하여 다양한 상황에서 유용함을 시사합니다.
Screen (화면 데이터셋): 화면 데이터셋에서 ReALM 모델은 높은 정확도를 보였습니다. 특히 ReALM-3B 모델은 93.0%의 정확도를 기록하여 다양한 종류의 객체가 표시된 화면에서도 효과적으로 작동함을 보여줍니다.
Unseen (새로운 도메인 대화형 데이터셋): 모델이 이전에 본 적이 없는 새로운 도메인 대화형 데이터셋에서도 ReALM 모델은 뛰어난 성과를 보였습니다. ReALM-3B 모델은 97.8%의 정확도를 기록하여 이전 모델보다 높은 결과를 보였습니다. 이는 모델이 새로운 도메인에서도 효과적으로 작동함을 시사합니다.

이러한 평가 결과는 ReALM 모델이 다양한 유형의 데이터셋에서 탁월한 성능을 보이며, 특히 대화형 및 화면 데이터셋에서 뛰어난 결과를 달성함을 보여줍니다. 이러한 분석을 통해 ReALM 모델이 다양한 사용 사례에서 GPT-4와 비교하여 우수한 성능을 보이며, 특히 도메인 지식이 필요한 질의에 뛰어난 대응력을 보인다는 것을 확인할 수 있습니다.

참조 해결 정확도: 모델은 사용자의 요청과 화면에 표시된 엔티티 간의 관계를 정확하게 해석하여 참조를 해결하는 데 높은 정확도를 보였습니다. 실험 결과에서 모델이 올바른 엔티티를 식별하는 비율이 높았으며, 이를 바탕으로 적절한 응답을 생성하는 데 성공적으로 활용되었습니다.
속도와 효율성: ReALM 모델은 대화 시스템 내에서 실시간으로 참조 해결 작업을 수행할 수 있는 높은 속도와 효율성을 보였습니다. 모델의 작동 시간이 짧고, 자원 사용량이 적어서 실제 시스템 환경에서도 효과적으로 활용될 수 있습니다.
다양한 테스트 케이스에서의 성능: 모델은 다양한 상황과 조건에서 테스트되었으며, 이러한 다양성에 대한 대응력을 보였습니다. 다양한 환경에서도 일관된 성능을 유지하며, 다양한 사용 사례에 대응할 수 있는 능력을 보여주었습니다.
비교 분석: 다른 참조 해결 기술이나 모델과의 비교를 통해 ReALM 모델의 우수성을 확인할 수 있었습니다. 비교 실험에서 ReALM 모델이 기존 기술에 비해 더 뛰어난 성능을 보여주었으며, 특히 정확성과 효율성 측면에서 우수함을 입증하였습니다.

이러한 평가 결과를 통해 ReALM 모델은 참조 해결을 위한 효과적인 솔루션으로서의 우수성을 입증하였으며, 실제 대화 시스템에서의 적용 가능성을 보여주었습니다.

맺음말

이 블로그에서는 ReALM 기술에 대해 알아보았습니다. ReALM은 언어 모델링을 기반으로 하여 대화 시스템이 사용자의 요청과 화면에 표시된 객체나 정보를 식별하고 이를 이해하여 처리하는 기술입니다. 이를 통해 사용자는 자연스럽고 효율적인 상호작용을 경험할 수 있습니다.

ReALM은 화면에 표시된 엔티티를 텍스트로 인코딩하고 이를 모델에 입력하여 처리합니다. ReALM 기술은 대화형 인공지능 시스템에서 다양한 분야에 적용될 수 있습니다. 음성 비서나 대화형 시스템에서 사용자의 의도를 이해하고 상황에 맞는 응답을 생성하는 데 활용될 수 있습니다. 또한 화면을 파악하고 사용자가 가리키는 대상을 이해하여 정보를 제공하는 스마트 기기나 앱에서도 유용하게 사용될 수 있습니다. 앞으로 ReALM 기술은 대화 시스템의 발전과 함께 더 많은 응용 분야에서 활용될 수 있을 것으로 기대됩니다.

오늘의 내용은 여기까지입니다. 저는 다음에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.03.21 - [AI 논문 분석] - MM1: 애플의 새로운 멀티모달 언어 모델

MM1: 애플의 새로운 멀티모달 언어 모델

안녕하세요! 오늘은 최근 애플에서 공개한 MM1이라는 이미지-투-텍스트, 멀티모달 언어 모델(Multimodal Language Model, MMLM)에 대해서 알아보겠습니다. MM1은 이미지 캡셔닝, 이미지에 대한 질문에 답하

fornewchallenge.tistory.com

저작자표시

'AI 언어 모델' 카테고리의 다른 글

클로드(Claude) 3 Opus로 arxiv 논문을 초등학생 수준으로 요약하기 (0)	2024.04.08
🎨클로드(Claude) 3 Opus로 만드는 놀라운 일러스트! (0)	2024.04.07
5줄 파이썬 코드로 AI 주식 분석 완료! Hermes 2 Pro의 놀라운 함수 호출 기능 (0)	2024.03.19
클로드(Claude) Sonnet을 이용한 고객리뷰 분류 및 요약 자동화 (1)	2024.03.07
클로드(Claude) 3: GPT-4와 제미나이를 뛰어넘은 언어 모델의 등장! (0)	2024.03.06