본문 바로가기
728x90

AI 도구116

LLAMA3 RAG 시스템: AI 어시스턴트로 10초만에 자동 보고서 만들기 안녕하세요! 오늘은 요즘 가장 인기 있는 언어 모델, LLAMA3로 AI 어시스턴트를 만들어 보겠습니다. 이 앱은 Groq과 Phidata를 이용해서 주어진 웹 사이트나 pdf를 기반으로 "원클릭" 보고서를 작성하고, 대화하는 어시스턴트를 만드는 RAG (Retrieval-Augmented Generation, 검색 증강 생성) 예제로, 20개 이상의 사이트에서 결과를 집계하여 검색결과를 제공하는 Tavily 웹 검색 API를 활용하여 완성도 높은 보고서를 10초 만에 만들 수 있습니다. 자, 그럼 시작해 볼까요?"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."프로그램 개요이 프로그램은 Phidata와 언어 모델 추론속도 가속 솔루션인 Groq을 이용하여 구축된 .. 2024. 4. 30.
🚀Phidata와 Groq을 활용한 LLAMA3 RAG 시스템 구현하기 안녕하세요! 오늘은 LLAMA3 RAG 시스템 구현 두 번째 시간으로, Phidata와 언어 모델 추론성능 가속 솔루션 Groq를 활용해서 RAG 시스템을 만들어 보겠습니다. Phidata는 언어 모델이 대화 내용을 저장하여 장기적인 대화를 가능하게 하고, 벡터 데이터베이스와 다양한 도구를 지원하는 AI 어시스턴트 구축 프레임워크입니다. 이 블로그에서는 Phidata와 Groq를 활용하여 URL과 PDF 문서내용을 검색해서 답변하는 LLAMA3 RAG 시스템을 구현해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 프로그램 개요 이 프로그램은 Streamlit을 활용해서 웹 애플리케이션을 구현한 것으로, 사용자는 브라우저의 사이드바에서 웹사이트 UR.. 2024. 4. 24.
🦙Ollama를 활용한 LLAMA3 RAG 시스템 구현하기 안녕하세요! 오늘은 새로운 오픈소스 언어 모델의 최강자 LLAMA 3를 활용한 RAG 시스템을 구현해 보겠습니다. RAG(Retrieval-Augmented Generation, 검색 강화 생성)는 외부 지식소스 검색을 통해 정보를 얻고, 이를 바탕으로 답변을 생성함으로써, 언어모델이 환각현상이나 부정확한 답변을 하지 않도록 보장하는 기술인데요, 이 블로그에서는 사용자가 제공한 URL에서 문서를 검색하고, 임베딩과 Chroma 벡터스토어를 거쳐서 LLAMA 3 모델을 통해 사용자의 질문에 대답하는 Gradio 앱을 만들어보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 프로그램 개요 이 프로그램은 주어진 URL에서 웹 페이지를 로드하고, 분할한 각 문.. 2024. 4. 22.
[AI 논문] VASA-1: 마이크로소프트의 초실감 얼굴 생성 기술 안녕하세요! 오늘은 마이크로소프트의 최근 논문 중 얼굴 이미지 1장과 오디오 클립을 이용해서 말하는 얼굴 비디오를 생성하는 VASA-1 기술에 대해서 알아보겠습니다. VASA-1은 오디오와 정확하게 동기화된 입술 움직임을 생성할 뿐만 아니라 생동감을 높이는 다양한 얼굴 표정과 자연스러운 머리 움직임을 만들 수 있으며, 실시간으로 생성된 얼굴 비디오의 시선, 머리 움직임, 카메라와의 거리, 표정에 대한 제어가 가능합니다. 이 블로그에서는 VASA-1의 주요특징, 동작원리와 동작순서, 성능평가 결과 및 DEMO VIDEO를 살펴보겠습니다. VASA-1으로 생성한 영상 "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 논문 개요 이 논문은 정지 이미지와 음성 오디오 입.. 2024. 4. 20.
[초보 필수] 제미나이 1.5 프로 API 활용 가이드: 40분 오디오 분석 1분 완료! 안녕하세요! 오늘은 구글의 제미나이 1.5 프로 모델을 API를 이용해서 만나보겠습니다. 제미나이 1.5 프로는 최대 100만 토큰의 매우 긴 문맥을 이해하고 처리할 수 있으며, 텍스트, 코드, 이미지, 음성 및 영상 등 다양한 모달리티를 지원하는 모델로, 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있는 성능을 갖추고 있습니다. 이 블로그에서는 제미나이 1.5 프로의 성능에 대해서 알아보고, API 예제를 통해 텍스트 생성과 이미지 설명, 40분 분량의 오디오 분석기능을 살펴보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Gemini 1.5 Pro.. 2024. 4. 16.
ComfyUI와 IP-Adapter plus를 활용한 오프라인 가상 피팅 가이드 안녕하세요! 오늘은 최근 공개된 ComfyUI의 IP-Adapter plus를 이용해서 오프라인 로컬 가상 피팅을 구현해 보겠습니다. 가상 피팅은 디지털 이미지나 가상의 모델을 사용하여 자신이 옷을 입은 모습을 시뮬레이션하여 미리 확인하는 것을 말하는데요, 온라인 쇼핑이나 의류 브랜드의 웹사이트에서 제공하고 있는 기능이지만 내 사진으로, 내가 원하는 포즈로, 내가 원하는 장소에서의 모습으로 자유롭게 미리 확인해 보는 것은 쉽지 않은데요. 이 블로그에서는 ComfyUI의 IPAdapter plus를 이용해서 내 컴퓨터에서 오프라인으로 가상 피팅을 체험해 보겠습니다. 아래 이미지들은 ComfyUI의 IPAdapter plus를 이용해서 생성한 가상 피팅 이미지들입니다. "이 포스팅은 쿠팡 파트너스 활동의 일.. 2024. 4. 14.
728x90