본문 바로가기
AI 뉴스 리뷰

AI 뉴스 리뷰 : 구글, 최신 AI모델 Gemini 공개

by James AI Explorer 2023. 12. 7.
    728x90

    안녕하세요. 구글이 어제(12월 6일) 최첨단 대규모 언어 모델(LLM) 제미나이(Gemini)를 출시했는데요. 내년에 발표될 것이라는 예상과 달리 갑자기 발표해서 모두를 놀라게 했습니다. 이 블로그에서는 Gemini의 멀티모달리티를 포함한 주요 기능과 특징, 그리고 Gemini Pro가 적용된 구글 바드(Bard)에 대해 살펴보실 수 있습니다. 

    구글, 최신 AI모델 Gemini 공개

     

    Gemini 주요 기능 및 특징

    Gemini는 멀티모달리티(Multimodality)를 기반으로 한  구글의 차세대 인공지능 언어모델입니다. 멀티모달리티는 텍스트뿐만 아니라, 이미지, 오디오, 비디오와 같은 다양한 형태의 입력정보를 인식하고 처리하여, 소통할 수 있는 능력입니다. 

     

    구글 Gemini의 주요 기능과 특징은 다음과 같습니다.  

    • 멀티모달리티: 텍스트, 이미지, 오디오, 비디오, 코드 및 3D 모델을 이해하고 처리합니다. 이미지 캡션, 객체 인식, 음성 인식, 비디오 요약, 음악 생성 및 대화형 스토리텔링과 같은 작업을 가능하게 하며, 보다 자연스럽고 인간다운 상호 작용을 제공하고 복잡한 개념에 대한 이해를 향상시킵니다.
    • 프랙탈 유사 아키텍처: 다양한 장치 및 성능 요구사항에 걸쳐 유연하게 배치할 수 있습니다. 특정 요구사항에 따라 확장성 및 사용자 지정이 가능합니다. '프랙탈-유사 아키텍처'는 반복되는 모듈과 중첩된 구조를 사용하여 AI 모델이 효율적으로 확장하고 다른 작업에 적응할 수 있도록 하는 자기 유사 설계입니다.;
    • 벤치마크에서 높은 성능: 이전 모델과 비교하여 인간 언어와 문제에 대한 더 깊은 이해를 보여줍니다. 보다 정확하고 효율적인 자연어 처리 작업을 가능하게 합니다. 
    • 모델 패밀리: 다양한 요구 사항과 응용 프로그램에 대한 옵션을 제공합니다.  Gemini Ultra - 까다로운 작업을 위한 최고의 성능을 제공합니다. Gemini Pro - 균형 잡힌 성능과 확장성, 다양한 구글 제품에 적합합니다. Gemini Nano - 가장 효율적이고 소형 장치로의 통합에 이상적입니다. 
    • 향상된 기능: 이전 AI 모델들에 비해 추론, 계획, 이해능력이 향상되어 보다 복잡한 응용프로그램과 의사결정을 가능하게 합니다.
    • 추가 기능: 시, 코드, 스크립트, 편지 등과 같은 다양하고 창의적인 텍스트 형식을 생성할 수 있습니다.

    전반적으로 Gemini는 다양한 기능을 갖춘 강력하고 다재다능한 AI 모델입니다. Gemini는 창의적인 콘텐츠 생성부터 과학 연구 개발에 이르기까지 다양한 영역에 적용 가능한 다양한 기능을 제공합니다. 여러 데이터 유형을 이해하고 처리할 수 있는 제미니의 능력은 AI 기술을 발전시키고 일상생활에 통합시킬 수 있는 강력한 도구입니다.

     

    Gemini 소개 페이지 - 구글 딥마인드

     

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    Gemini의 멀티모달리티

    다양한 데이터 유형을 통해 세상을 이해할 수 있는 인공지능 모델 Gemini의 주요 특징 중 하나는 텍스트를 넘어 다양한 데이터 유형의 정보를 이해하고 처리할 수 있는 멀티모달리티입니다. 여기에는 다음의 콘텐츠들이 포함됩니다:

    • 텍스트: 여러가지 형태의 텍스트를 이해하고 생성하는 데 탁월하여 복잡한 문장을 처리할 수 있습니다. 감정을 분석하고, 코드, 스크립트, 이메일, 편지, 시, 음악곡과 같은 다양한 콘텐츠 형식을 인식하고 창작할 수 있습니다. 

    Gemini 멀티모달 기능 - 악보 해석

    • 이미지: 이미지를 분석하고 해석할 수 있으며, 정보를 추출하고 그 맥락을 이해할 수 있습니다. 이것은 이미지 캡션, 물체 인식 및 장면 이해와 같은 작업을 허용합니다.

    Gemini 멀티모달 기능 이미지+텍스트

    • 오디오: 음성, 음악 및 기타 소리를 인식하여 오디오 신호를 처리할 수 있습니다. 이를 통해 음성 인식, 번역 및 오디오 요약과 같은 기능을 사용할 수 있습니다.
    • 비디오: 비디오 콘텐츠를 분석할 수 있으며, 다양한 요소 간의 맥락과 관계를 이해할 수 있습니다. 이를 통해 비디오 요약, 동작 인식 및 비디오 검색과 같은 작업을 수행할 수 있습니다.

    Gemini 멀티모달 기능 - 동영상 분석

    • 코드: 코드를 이해하고 생성할 수 있어 다양한 소프트웨어 프로그램 및 시스템과 상호 작용하고 제어할 수 있습니다.
    • 3D 모델: 3D 모델을 해석하고 상호 작용하여 디자인, 엔지니어링 및 가상현실과 같은 분야에 적용할 수 있는 가능성을 열어줍니다.

    Gemini는 이러한 멀티모달리티를 기반으로 이전 모델보다 훨씬 빠르게 작동하여 더욱 반응이 빠르고 효율적인 사용자 경험을 제공합니다. 또한 Google 서비스와의 통합으로 Gmail, Drive, Docs, Search와 같은 다양한 Google 제품과 완벽하게 연결되어 광범위한 정보 리소스에 액세스 하고 기능을 향상시킵니다.

    구글 Gemini 소개영상

     

     

     

    Gemini Ultra, Pro, Nano

    Gemini는 다음과 같이 대상고객, 기능, 컴퓨팅 리소스, 가용성에 따라 Ultra, Pro, Nano의 세 가지로 개발되었습니다.

    기능 Gemini 울트라 Gemini 프로 Gemini 나노
    대상 고객 연구원, 과학자, 개발자 전문가, 디자이너, 작가 모바일 사용자
    기능 최고 성능, 멀티모달, 복잡한 작업 균형 잡힌 성능, 콘텐츠 생성, 문제 해결
    기본적인 언어 작업, 모바일 친화적
    컴퓨팅
    리소스
    높음 보통 낮음
    가용성 제한적 보다 광범위 가장 광범위

     

    Gemini 종류

     

    Gemini Pro는 현재 ChatGPT와 경쟁하고 있는 구글의 바드(Bard) 영어버전에 적용되어 있으며, Gemini Ultra는 내년 중에 출시될 예정입니다. Gemini Nano는 앞으로 몇 달 안에 픽셀 8 프로와 같은 구글 제품에 통합될 예정이라고 합니다. 현재 Gemini는 영어로만 사용 가능하며 제한된 국가에서만 사용할 수 있으며, 지속적인 개발과 개선이 예상됩니다.

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    https://fornewchallenge.tistory.com/

    마치며

    전반적으로 Gemini는 대규모 언어모델의 큰 도약을 나타냅니다. 특히 멀티모달 기능을 통한 이미지, 비디오, 코드, 3d 모델에 이르는 다양한 정보의 입력을 처리하고 분석, 소통할 수 있는 능력은 다른 AI모델과 차별화된 모습을 보입니다.

     

    이러한 차별화된 기능은 과학 연구분야의 데이터 분석 및 계산 모델링을 지원하고, 예술분야에서 다양한 형식의 창의적인 콘텐츠 생성에 활용될수 있으며. 교육 및 훈련분야, 소프트웨어 개발분야에서의 코드 생성, 디버깅, 최적화 등 다양한 분야에서 활용될수 있을것으로 전망됩니다. 

     

    오늘은 구글의 최신 인공지능 언어모델 Gemini에 대해서 알아보았는데요. Gemini의 세가지 모델 중 Gemini Pro는 구글 바드(Bard)에 현재 적용되어 있어, 영어버전의 구글 바드에 접속하시면 사용해 보실 수 있습니다. 구글 바드의 영어버전은 아래 제 블로그 포스트를 통해서 확인하실 수 있습니다. 

    2023.12.06 - [대화형 AI] - 새로워진 구글 바드의 Extension과 추가기능을 사용해보세요.

     

    새로워진 구글 바드의 Extension과 추가기능을 사용해보세요.

    안녕하세요. 오늘은 구글의 대형언어모델인 바드(Bard)의 업데이트 소식입니다. 이번 업데이트로 바드는 유튜브 요약, 인터넷 실시간 검색, 이메일 검색, 뉴스 요약, 사진 속 데이터 추출, 답변 방

    fornewchallenge.tistory.com

     

     

    PS) 다음 스크린샷은 구글 한국 블로그 Gemini 공개내용과, Gemini Pro가 적용된 구글 바드와의 대화내용입니다. 

    Gemini 공개 - 구글 한국 블로그

    아래 화면은 구글 바드에 Gemini가 적용된 내용을 확인한 대화내용입니다. 

    Gemini가 적용된 구글 바드

     

    다음 화면에서는 제가 차안에서 커피를 들고있는 사진을 구글 바드에게 입력하고 무엇인지 물어보았는데요. 바드는 커피의 라벨 밑에 써있는 2030 월드엑스포 유치 홍보 문구에 대해서도 설명을 해주는 놀라운 관찰력을 보여주었습니다.

    Gemini Pro가 적용된 바드의 이미지 설명

    728x90