본문 바로가기
AI 인사이트

멀티모달(Multimodal)이 무엇인가요?

by James AI Explorer 2023. 10. 9.
    728x90

    얼마전 기사에 챗GPT의 유료버전에 멀티모달을 장착하게 되었다는 기사가 나왔는데요. 오늘은 최근 활용도가 높아지고 있는 멀티모달에 대해서 알아보고 간단한 예제를 실습해보겠습니다. 

    인공지능의 멀티모달이란?

    관련기사 : https://www.aitimes.com/news/articleView.html?idxno=153968 

     

    챗GPT, 이제는 보고 듣고 말한다...유료 모드에 멀티모달 장착 - AI타임스

    챗GPT가 한 단계 더 진화했다. 이제는 사람과 음성으로 대화하고, 이미지를 보고 질문에 답할 수 있게 됐다.오픈AI는 25일(현지시간) 챗GPT에 사용자와 음성으로 질문과 답변을 주고받는 ‘듣고 말

    www.aitimes.com

     

    멀티모달의 개념 및 원리

    멀티모달(multimodal)은 여러 가지 모달(modality)을 활용하는 것을 말합니다. 모달은 인간이 정보를 받아들이는 방식을 의미하는데, 시각, 청각, 촉각, 후각, 미각 등 다양한 감각을 포함합니다. 멀티모달은 이러한 다양한 감각을 활용하여 정보를 처리하고 이해하는 것을 의미합니다. 멀티모달 기술은 인간의 자연스러운 의사소통 방식을 모방하기 때문에, 기존의 단일 모달 기술보다 더 자연스럽고 직관적인 사용자 경험을 제공할 수 있습니다. 또한, 다양한 감각을 활용하여 정보를 처리하기 때문에, 보다 정확하고 유용한 결과를 도출할 수 있습니다.

     

    멀티모달 기술의 원리는 크게 두 가지로 나눌 수 있습니다.

    • 첫 번째는 정보의 통합입니다. 다양한 감각으로부터 입력받은 정보를 통합하여 하나의 의미 있는 정보로 만들어내는 것입니다. 멀티모달 기술은 다양한 모달(modality)을 활용하여 정보를 처리합니다. 이러한 모달은 시각, 청각, 촉각, 후각, 미각 등 다양한 감각을 포함합니다. 멀티모달 기술은 이러한 다양한 모달로부터 입력받은 정보를 통합하여 하나의 의미 있는 정보로 만들어냅니다.
    • 두 번째는 모달 간 상호작용입니다. 서로 다른 모달 간의 정보를 상호 연관시켜 새로운 정보를 생성하는 것입니다. 멀티모달 기술의 대표적인 활용 사례인 음성 인식 기술은 음성으로 입력된 정보를 인식하여 텍스트로 변환하는 기술입니다. 음성 인식 기술은 음성 신호를 분석하여 음성의 특징을 추출합니다. 추출된 음성 특징은 텍스트로 변환되어 사용자에게 제공됩니다.

     

    멀티모달의 활용사례

    멀티모달 기술은 다양한 분야에서 활용되고 있습니다. 다음은 멀티모달 기술의 대표적인 활용 사례입니다. 

    1. 음성 인식 : 음성으로 입력된 정보를 인식하여 텍스트로 변환하는 기술

    • 구글 어시스턴트 : 음성으로 명령을 내리면, 기기의 기능을 제어하거나 정보를 제공하는 서비스입니다.
    • Siri : 음성으로 명령을 내리면, iPhone의 기능을 제어하거나 정보를 제공하는 서비스입니다.
    • Alexa : 음성으로 명령을 내리면, Amazon Echo의 기능을 제어하거나 정보를 제공하는 서비스입니다.

    아래는 음성인식을 구현한  실습 예제 코드입니다. 이 코드를 실행하면, 마이크를 통해 입력된 음성을 인식하여 출력합니다. 이러한 실습 예제 코드는 멀티모달 기술의 기본적인 원리를 이해하는 데 도움이 될 것입니다.

    import speech_recognition as sr
    
    def main():
        # 마이크를 열고, 음성 인식을 시작합니다.
        recognizer = sr.Recognizer()
        with sr.Microphone() as source:
            recognizer.adjust_for_ambient_noise(source)
            audio = recognizer.listen(source)
    
        # 인식된 음성을 출력합니다.
        try:
            transcript = recognizer.recognize_google(audio)
            print("인식된 음성:", transcript)
        except sr.UnknownValueError:
            print("인식할 수 없습니다.")
        except sr.RequestError as e:
            print("오류가 발생했습니다.", e)
    
    if __name__ == "__main__":
        main()

     

    728x90

    2. 영상 인식 : 영상에서 물체나 사람을 인식하고, 그에 대한 정보를 제공하는 기술

    • Google Lens : 카메라로 물체나 장면을 촬영하면, 해당 물체나 장면에 대한 정보를 제공하는 서비스입니다.
    • Face ID : 얼굴 인식 기술을 사용하여 iPhone의 잠금을 해제하는 기술입니다.
    • Selfie Stick : 스마트폰을 부착하여 손을 자유롭게 사용할 수 있도록 하는 장치입니다.

    3. 자연어 처리 : 텍스트를 분석하여 의미를 파악하고, 그에 대한 응답을 생성하는 기술

    • 구글 번역 : 텍스트나 음성을 번역하는 서비스입니다.
    • 챗봇 : 사람과 대화하는 것처럼 사용자의 질문이나 요청에 응답하는 서비스입니다.
    • AI 작가 : 텍스트를 생성하는 AI입니다.

    4. 감정 인식 : 사람의 얼굴 표정이나 목소리에서 감정을 인식하는 기술

    • 페이스북 감정 인식 : 사용자의 얼굴 표정에서 감정을 인식하여, 그에 맞는 광고를 노출하는 기술입니다.
    • 감정 인식 AI : 사용자의 감정을 인식하여, 그에 맞는 대응을 하는 AI입니다.
    • 감정 인식 로봇 : 사용자의 감정을 인식하여, 그에 맞는 반응을 하는 로봇입니다.

    5. AR/VR : 현실 세계에 가상의 정보를 결합하여 새로운 경험을 제공하는 기술

    • Pokemon Go : AR 기술을 활용하여 현실 세계에서 포켓몬을 잡는 게임입니다.
    • 마인크래프트 : VR 기술을 활용하여 가상 세계에서 다양한 활동을 할 수 있는 게임입니다.
    • 메타버스 : 현실 세계와 가상 세계를 결합한 새로운 가상 세계입니다.

     

    멀티모달의 발전전망

    • 모달의 다양화 : 기존의 시각, 청각, 촉각, 후각, 미각 외에도 새로운 모달이 개발될 것으로 예상됩니다. 예를 들어, 뇌파나 생체 신호를 활용한 모달이 개발될 수 있습니다.
    • 모달 간 통합의 강화 : 서로 다른 모달 간의 통합이 더욱 강화될 것으로 예상됩니다. 예를 들어, 영상과 음성을 결합하여 보다 풍부한 정보를 제공하는 기술이 개발될 수 있습니다.
    • 모달의 자동화 : 모달을 자동으로 처리하고 이해하는 기술이 개발될 것으로 예상됩니다. 예를 들어, 음성 인식이나 영상 인식 기술이 더욱 발전하여, 사용자의 개입 없이 정보를 처리할 수 있게 될 것입니다.

     

    오늘은 최근 활용도가 높아지고 있는 멀티모달 기술에 대해 알아보았는데요. 멀티모달 기술은 앞으로도 우리 삶의 다양한 영역에서 새로운 경험과 가치를 제공할 것으로 기대됩니다. 그럼 다음시간에 또 유익한 정보로 찾아뵙겠습니다.

    728x90