본문 바로가기
AI 언어 모델

제미나이(Gemini) 멀티모달리티 테스트 결과

by James AI Explorer 2023. 12. 8.
    728x90

    안녕하세요. 구글에서 공개한 새로운 차세대 대규모 언어모델 제미나이에 대한 관심이 모아지고 있습니다. 오늘은 제미나이 프로가 적용된 구글 바드를 이용해서 제미나이의 기능을 알아보겠습니다. 이 블로그에서는 제미나이의 이미지와 동영상 인식기능, 코드인식 및 분석기능 등 멀티모달리티 기능 일부에 대한 테스트 결과를 확인하실 수 있습니다. 

     

    구글 인공지능 - 빙 이미지 크리에이터

     

    이미지 분석

    먼저 이미지를 분석해 보겠습니다. 아래 화면의 왼쪽과 같이 어느 이동통신 회사의 데이터를 회귀분석하는 문제를 사진으로 찍어서 바드에게 요청하였습니다. 바드는 회귀분석을 통해 표와 그래프를 표시하고, 독립변수가 종속변수에 미치는 영향을 분석해서 나름의 분석결과를 표시하였습니다.

     이동통신 회사의 데이터 분석문제(좌), 구글 바드에게 사진 입력(우)
    회귀분석에 대한 구글 바드 답변
    회귀분석에 대한 구글 바드의 답변

     

    하지만 바드는 데이터를 정확하게 읽지 못하고 환각현상(Hallucination)을 일으킨것으로 보입니다.

    왜냐하면 답변에 있는 문자변수 중에 Monthly charge, Account Length와 같은 문자변수는 질문에 없기 때문입니다.  구글 바드는 아직 개발 중이므로 데이터 처리를 위해 특정한 형식이 필요하다고 답변하였습니다.

     

    728x90

     

    동영상 인식 및 분석

    다음은 동영상 인식기능인데요. 유튜브 동영상 분석은 이전에 제가 포스팅한 아래 링크에서 확인한 바와 같이 특별한 문제점 없이 잘 요약하였습니다. 하지만 바드는 사진입력만 받아들일 수 있으며 동영상을 직접 입력받아 분석할수 있는 기능은 아직 구글 바드에 적용된 Gemini Pro에는 없습니다.  유튜브 동영상은 등록하는 과정에서 콘텐츠의 제목과 내용, 자막등을 통해 정보가 입력되지만 동영상 파일만을 입력받았을 때는 아무런 관련정보 없이 순수하게 영상과 소리만으로  분석해야 하는 문제가 생깁니다. 적어도 Gemini Pro에는 이 기능이 구현되지 않은 상태입니다. 

    2023.12.06 - [대화형 AI] - 새로워진 구글 바드의 Extension과 추가기능을 사용해 보세요.

     

    새로워진 구글 바드의 Extension과 추가기능을 사용해보세요.

    안녕하세요. 오늘은 구글의 대형언어모델인 바드(Bard)의 업데이트 소식입니다. 이번 업데이트로 바드는 유튜브 요약, 인터넷 실시간 검색, 이메일 검색, 뉴스 요약, 사진 속 데이터 추출, 답변 방

    fornewchallenge.tistory.com

    구글 바드의 유튜브 동영상 요약

     

    제미나이 Demo 동영상에 대한 이슈

     

     

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

     

    코드 분석 및 생성

    다음은 코드 분석입니다. 저는 바드에게 완전하게 구현되지 않은 코드를 입력하고 (HTML과 자바스크립트로 직접 플레이할 수 있는 간단한 블록 깨기 게임) 수정을 요구하였습니다.  바드는 입력받은 코드를 인식하였고 모든 에러가 수정된 코드를 제시하였지만 수정된 HTML을 적용한 웹페이지에서 게임은 정상적으로 동작하지 않았습니다. 이 부분은 "코드를 주의해서 사용하세요"라는 안내문구가 있기 때문에 정상동작 여부에 대한 해석의 여지가 있습니다. 

    HTML과 자바스크립트로 구현한 미완성 블록깨기 게임

     

     

     

     

    https://fornewchallenge.tistory.com/

     

    마치며

    오늘은 제미나이 프로가 적용된 구글 바드를 이용해서 제미나이의 멀티모달 기능을 테스트해 보았습니다. 이미지 분석은 사진의 해상도나 초점값 등에 따라 문자 인식성공률이 영향을 받기 때문에 사진 속 데이터 인식은 정확하게 하는데 한계가 있을 것 같습니다. 또한 동영상 인식은 메타 데이터 값이 없이 영상과 소리만을 받아들이는 기능은 아직 제미나이 프로에는 없습니다. 코딩 인식은 초보자를 위한 교육엔 가능하지만 결국은 프로그래머의 노력이 필요해 보입니다. 

     

    제미나이는 분명 이 시대를 대표하는 대규모언어모델 중 하나임에는 틀림없어 보입니다. 하지만, 멀티모달 기능 보완, 환각현상 개선,  등 아직도 많은 부분은 개발 중이며, 좀 더 개선할 여지가 있는 것 같습니다. 

     

    그럼 저는 다음에 더욱 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    Update) 마이크로소프트의 코파일럿으로 동일한 이미지 속 데이터 회귀분석을 해본 결과, 데이터 인식, 사용자 의도파악, 문제해결 접근방법, 답변의 신빙성 측면에서 제미나이보다 더 합리적이고 효율적인 부분이 있었습니다.

    데이터 회귀분석에 대한 코파일럿의 답변
    데이터 회귀분석에 대한 코파일럿의 답변

     

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    이미지속 데이터 추출에 대한 코파일럿의 답변

    728x90