안녕하세요! 오늘은 LLAMA3를 활용해서 ComfyUI 프롬프트 작성과 유튜브 동영상 요약을 더 쉽고 빠르게 할 수 있는 방법을 알아보겠습니다. ComfyUI에서 이미지 생성을 위한 텍스트 프롬프트 작성은 ChatGPT나 Claude 등 언어 모델을 통해 생성된 텍스트를 복사해서 ComfyUI에 붙여넣기하는 경우가 많은데요, 오늘은 이렇게 번거로운 작업 없이 ComfyUI 워크플로우 내에서 LLAMA3가 텍스트 프롬프트를 자동으로 생성하고 이미지를 만들도록 해보겠습니다. 또한 긴 유튜브 동영상도 10초 만에 정확하고 간결하게 요약해 주는 LLAMA3 웹 애플리케이션도 알아보겠습니다. 자, 출발~
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
ComfyUI 프롬프트 자동작성
먼저, ComfyUI 프롬프트 자동작성 워크플로우를 만들려면 ComfyUI를 설치해야 하는데요, 피노키오 AI 브라우저를 통해 원클릭으로 간단하게 설치할 수 있습니다. 피노키오 AI 브라우저는 다양한 AI 도구들을 원클릭으로 설치하도록 지원하는 브라우저입니다.
ComfyUI 설치
다음은 피노키오 AI 브라우저를 이용해서 ComfyUI를 설치해 줍니다. 피노키오 AI를 다운로드 후 설치하면 Discover 메뉴에서 ComfyUI를 원클릭으로 쉽게 설치할 수 있습니다.
다음은 ComfyUI에서 사용할 기본 모델 "Juggernaut XL"을 아래 링크에서 다운로드하여
C:\Users\사용자이름\pinokio\api\comfyui.git\app\models\checkpoints 폴더에 복사합니다.
https://civitai.com/models/133005/juggernaut-xl
다음은 C:\Users\사용자명\pinokio\api\comfyui.git\app\custom_nodes 디렉토리에서 오른쪽 마우스 클릭 후 명령어 프롬프트를 실행한 후, 아래 명령어로 ComfyUI Manager 깃허브 레포지토리를 복제합니다.
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
Ollama 및 모델 다운로드
다음은 대형 언어 모델 관리도구 Ollama 설치 및 프롬프트 생성 모델 다운로드 단계입니다. Ollama 설치는 https://ollama.com/download 링크에서 원하는 버전을 다운로드하여 설치하시면 됩니다. 경우에 따라서 설치 후 "ollama serve" 명령으로 서비스를 수동으로 실행해 주어야 할 수 있습니다.
프롬프트 생성 모델은 50,000개 이상의 고품질 스테이블 디퓨전 프롬프트로 구성된 합성 데이터셋을 학습한 LLAMA3의 미세조정 모델, " llama3_ifai_sd_prompt_mkr_q4km"이며, ComfyUI의 IF_AI_tools 사용자 정의 노드와 A1111 Forge 및 Next 플랫폼의 IF_PromptMKr 확장과 함께 사용될 수 있습니다.
https://ollama.com/impactframes/llama3_ifai_sd_prompt_mkr_q4km
아래 명령어를 입력하여 llama3_ifai_sd_prompt_mkr_q4km 모델을 다운로드합니다.
ollama pull impactframes/llama3_ifai_sd_prompt_mkr_q4km
AI tools 커스텀 노드 설치
ComfyUI-IF_AI_tools는 ComfyUI용 사용자 정의 노드 세트로, Ollama를 통해 로컬 대형 언어 모델(LLM)을 사용하여 프롬프트를 생성할 수 있습니다. 이 도구를 사용하면 언어 모델의 능력을 활용하여 이미지 생성 프롬프트와 워크플로우를 개선할 수 있습니다.
https://github.com/if-ai/ComfyUI-IF_AI_tools
ComfyUI를 실행한 후, 우측 메뉴에서 Manager를 클릭하고, Install Custom Nodes를 클릭합니다. 우측 상단 키워드 검색창에 "ComfyUI-IF_AI_tools"입력해서 검색하여 설치합니다. 설치 후에는 ComfyUI를 종료 후 다시 실행하여야 합니다.
ComfyUI 설치가 완료된 후, http://127.0.0.1:8188/ 주소에서 ComfyUI 기본화면이 열리면, 위 파일을 다운로드하고, 우측 메뉴에서 Load 버튼을 클릭하여 다운로드한 워크플로우 파일을 열면 아래와 같이 기본화면이 표시됩니다.
워크플로우의 노드들 중에서 IF Prompt to Prompt 노드의 모델, 프로파일, 엔진, 스타일 프롬프트, 네거티브 프롬프트 등의 설정은 아래 화면을 참고하시면 됩니다.
사용방법은 IF Prompt to Prompt 노드에 한글 또는 영어로 간단한 프롬프트를 입력한 후, 우측 메뉴의 Queue Prompt를 클릭하면 생성이 시작되고, Show text 노드에 LLAMA3가 생성한 프롬프트가 출력되며, 잠시 후 이미지가 생성됩니다.
사용자 입력 프롬프트 | 아름다운 여성 또는 beautiful girl |
LLAMA3 미세조정 모델 자동생성 프롬프트 |
Best quality, professional, Portrait, photo shoot, Enchanting young woman, ethereal beauty, slender figure, long golden hair flowing like autumn leaves, radiant smile, sparkling emerald eyes, soft skin, delicate features, wispy clouds drifting across cerulean sky above her, serene expression, elegant gown fluttering in gentle breeze. Best quality, professional, Portrait, photo shoot, |
유튜브 동영상 자동요약
다음은 LLAMA3 모델을 이용해서 유튜브 동영상 자동요약을 해볼 건데요. 이 프로그램은 Streamlit을 이용하여 유튜브 URL을 입력하면 아래 화면과 같이 자동으로 요약을 생성해 주는 웹 애플리케이션입니다. 아래 예시 유튜브 동영상은 1시간 분량의 영상인데 요약하는 데는 약 30초 정도 걸렸습니다.
다음은 프로그램을 구현하기 위한 진행순서입니다.
- 1. 깃 허브 레포지토리 복제: Phidata 레포지토리를 로컬로 복제합니다.
- 2. 환경설정 및 API Key 발급: 가상환경을 설정 및 활성화하고 Groq API Key를 발급합니다.
- 3. 코드 실행 및 결과확인: 유튜브 URL을 입력하고 요약 내용을 확인합니다.
깃 허브 레포지토리 복제
먼저, 아래 명령어를 실행하여 깃 허브 레포지토리를 로컬로 복제하고 video_summary 작업 디렉토리로 이동합니다.
git clone https://github.com/phidatahq/phidata
cd phidata\cookbook\llms\groq\video_summary
복제된 파일은 아래 화면과 같습니다.
이 프로그램은 사용자가 입력한 YouTube 비디오 URL을 통해 비디오 캡션을 추출하고, 이를 특정 크기로 분할하여 각 부분에 대한 요약을 생성합니다. 요약은 선택한 LLAMA3 모델을 사용하여 생성되며, 사용자는 요약된 정보를 편리하게 확인할 수 있습니다. 또한 트렌딩 비디오를 선택하여 요약을 생성할 수도 있습니다.
환경설정 및 API Key 발급
프로그램의 실행환경은 Windows 11 Pro(23H2), 파이썬 버전 3.11, 코드 에디터는 비주얼 스튜디오 코드(이하 VSC)입니다. 윈도우 명령프롬프트에서 "conda create -n llama3phidata python=3.11 -y" 명령으로 가상환경을 생성하고 "conda activate llama3phidata" 명령으로 활성화합니다. llama3phidata 가상환경 이름은 원하는 이름으로 수정할 수 있습니다. 다음은 가상환경이 활성화된 상태에서 "pip install -r requirements.txt" 명령어를 통해 의존성을 설치해 줍니다.
conda create -n llama3phidata python=3.11 -y
conda activate llama3phidata
pip install -r requirements.txt
프로그램에 필요한 Groq API Key는 https://console.groq.com/keys에 접속해서 "Create API Key" 버튼을 클릭해서 발급받습니다. Groq 관련 내용은 이전 포스트를 참고하시기 바랍니다.
2024.02.29 - [AI 도구] - Groq LPU : 논문 한편 요약하는데 입력-추론-응답까지 2.4초!
코드 실행 및 결과확인
다음은 명령어 프롬프트에 "set GROQ_API_KEY=발급받은 API KEY" 명령을 입력하여 Groq API Key를 설정한 후, "streamlit run app.py" 명령을 실행하면 http://localhost:8501/ 주소에서 아래 화면과 같이 Groq로 구동되는 YouTube 비디오 요약 초기화면이 표시됩니다. 좌측 메뉴에서 언어 모델을 선택하고 유튜브 URL을 입력할 수 있으며, 우측화면에는 요약내용이 표시됩니다. 브라우저의 번역기능을 이용해서 한글로 이용하실 수 있으나, 한글상태에서 요약생성을 클릭하시면 에러가 발생할 수 있으니, 요약생성이 완료된 후에 한글로 번역하시면 됩니다.
set GROQ_API_KEY=본인이 발급받은 Key
streamlit run app.py
맺음말
오늘은 LLAMA3를 활용하여 ComfyUI 프롬프트 작성과 유튜브 동영상 요약을 자동화하는 방법을 알아보았습니다. 이를 통해 텍스트 프롬프트 작성과 동영상 요약 작업을 효율적으로 처리할 수 있었습니다. ComfyUI에서는 LLAMA3를 활용하여 텍스트 프롬프트를 자동으로 생성하고, 해당 프롬프트를 통해 이미지를 생성할 수 있었으며, 또한, Streamlit을 사용하여 LLAMA3를 이용한 유튜브 동영상 요약 웹 애플리케이션을 만들어 보았습니다.
프롬프트 고민을 줄여주고, 동영상 감상 시간을 절약해 주는 LLAMA3 활용 팁으로 여러분이 생성 AI 작업을 하는데 도움이 되었기를 바라면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2024.04.30 - [AI 도구] - LLAMA3 RAG 시스템: AI 어시스턴트로 10초만에 자동 보고서 만들기
'AI 도구' 카테고리의 다른 글
Msty와 Open WebUI: 직관적인 UI와 로컬 RAG까지 지원하는 언어 모델 활용 도구 (0) | 2024.05.07 |
---|---|
누구나 할 수 있는 AI 코딩! Llama3와 Claude3로 벽돌깨기 게임 1분 컷! (0) | 2024.05.04 |
LLAMA3 RAG 시스템: AI 어시스턴트로 10초만에 자동 보고서 만들기 (30) | 2024.04.30 |
🚀Phidata와 Groq을 활용한 LLAMA3 RAG 시스템 구현하기 (0) | 2024.04.24 |
🦙Ollama를 활용한 LLAMA3 RAG 시스템 구현하기 (2) | 2024.04.22 |