본문 바로가기
AI 도구

[LLAMA3 활용] ComfyUI 프롬프트 자동 작성 및 유튜브 동영상 요약 10초 완료!

by James AI Explorer 2024. 5. 1.
    728x90

    안녕하세요! 오늘은 LLAMA3를 활용해서 ComfyUI 프롬프트 작성과 유튜브 동영상 요약을 더 쉽고 빠르게 할 수 있는 방법을 알아보겠습니다. ComfyUI에서 이미지 생성을 위한 텍스트 프롬프트 작성은 ChatGPT나 Claude 등 언어 모델을 통해 생성된 텍스트를 복사해서 ComfyUI에 붙여넣기하는 경우가 많은데요, 오늘은 이렇게 번거로운 작업 없이 ComfyUI 워크플로우 내에서 LLAMA3가 텍스트 프롬프트를 자동으로 생성하고 이미지를 만들도록 해보겠습니다. 또한 긴 유튜브 동영상도 10초 만에 정확하고 간결하게 요약해 주는 LLAMA3 웹 애플리케이션도 알아보겠습니다. 자, 출발~

    LLAMA3 자동 프롬프트로 생성한 사진(사용자 프롬프트 : beautiful girl)

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    ComfyUI 프롬프트 자동작성

    먼저, ComfyUI 프롬프트 자동작성 워크플로우를 만들려면 ComfyUI를 설치해야 하는데요, 피노키오 AI 브라우저를 통해 원클릭으로 간단하게 설치할 수 있습니다. 피노키오 AI 브라우저는 다양한 AI 도구들을 원클릭으로 설치하도록 지원하는 브라우저입니다. 

    ComfyUI 설치

    다음은 피노키오 AI 브라우저를 이용해서 ComfyUI를 설치해 줍니다. 피노키오 AI를 다운로드 후 설치하면 Discover 메뉴에서 ComfyUI를 원클릭으로 쉽게 설치할 수 있습니다. 

    피노키오 AI 브라우저 디스커버 메뉴

    다음은 ComfyUI에서 사용할 기본 모델 "Juggernaut XL"을 아래 링크에서 다운로드하여 

    C:\Users\사용자이름\pinokio\api\comfyui.git\app\models\checkpoints 폴더에 복사합니다.

    https://civitai.com/models/133005/juggernaut-xl

     

    Juggernaut XL - Jugg_X_RunDiffusion_Hyper | Stable Diffusion Checkpoint | Civitai

    For business inquires, commercial licensing, custom models, and consultation contact me under juggernaut@rundiffusion.com Join Juggernaut now on X/...

    civitai.com

     

    다음은 C:\Users\사용자명\pinokio\api\comfyui.git\app\custom_nodes 디렉토리에서 오른쪽 마우스 클릭 후 명령어 프롬프트를 실행한 후, 아래 명령어로 ComfyUI Manager 깃허브 레포지토리를 복제합니다.

    git clone https://github.com/ltdrdata/ComfyUI-Manager.git

    Ollama 및 모델 다운로드

    다음은 대형 언어 모델 관리도구 Ollama 설치 및 프롬프트 생성 모델 다운로드 단계입니다. Ollama 설치는 https://ollama.com/download 링크에서 원하는 버전을 다운로드하여 설치하시면 됩니다. 경우에 따라서 설치 후 "ollama serve" 명령으로 서비스를 수동으로 실행해 주어야 할 수 있습니다. 

     

    프롬프트 생성 모델은 50,000개 이상의 고품질 스테이블 디퓨전 프롬프트로 구성된 합성 데이터셋을 학습한 LLAMA3의 미세조정 모델, " llama3_ifai_sd_prompt_mkr_q4km"이며, ComfyUI의 IF_AI_tools 사용자 정의 노드와 A1111 Forge 및 Next 플랫폼의 IF_PromptMKr 확장과 함께 사용될 수 있습니다. 

    https://ollama.com/impactframes/llama3_ifai_sd_prompt_mkr_q4km

     

    impactframes/llama3_ifai_sd_prompt_mkr_q4km

    Train this model over 50K synthetic dataset high quality stable diffusion

    ollama.com

    아래 명령어를 입력하여 llama3_ifai_sd_prompt_mkr_q4km 모델을 다운로드합니다. 

    ollama pull impactframes/llama3_ifai_sd_prompt_mkr_q4km

    llama3_ifai_sd_prompt_mkr_q4km 모델 다운로드 화면

    AI tools 커스텀 노드 설치

    ComfyUI-IF_AI_tools는 ComfyUI용 사용자 정의 노드 세트로, Ollama를 통해 로컬 대형 언어 모델(LLM)을 사용하여 프롬프트를 생성할 수 있습니다. 이 도구를 사용하면 언어 모델의 능력을 활용하여 이미지 생성 프롬프트와 워크플로우를 개선할 수 있습니다.

    https://github.com/if-ai/ComfyUI-IF_AI_tools

     

    GitHub - if-ai/ComfyUI-IF_AI_tools: ComfyUI-IF_AI_tools is a set of custom nodes for ComfyUI that allows you to generate prompts

    ComfyUI-IF_AI_tools is a set of custom nodes for ComfyUI that allows you to generate prompts using a local Large Language Model (LLM) via Ollama. This tool enables you to enhance your image generat...

    github.com

    ComfyUI를 실행한 후, 우측 메뉴에서 Manager를 클릭하고, Install Custom Nodes를 클릭합니다. 우측 상단 키워드 검색창에 "ComfyUI-IF_AI_tools"입력해서 검색하여 설치합니다. 설치 후에는 ComfyUI를 종료 후 다시 실행하여야 합니다. 

    ComfyUI-IF_AI_tools 사용자 노드 설치
    재기동 후 ComfyUI-IF_AI_tools 설치 화면
    workflow.json
    0.01MB

     

    ComfyUI 설치가 완료된 후, http://127.0.0.1:8188/ 주소에서 ComfyUI 기본화면이 열리면, 위 파일을 다운로드하고, 우측 메뉴에서 Load 버튼을 클릭하여 다운로드한  워크플로우 파일을 열면 아래와 같이 기본화면이 표시됩니다. 

    워크플로우 기본화면
    워크플로우 기본화면

    워크플로우의 노드들 중에서 IF Prompt to Prompt 노드모델, 프로파일, 엔진, 스타일 프롬프트, 네거티브 프롬프트 등의 설정은 아래 화면을 참고하시면 됩니다.

    IF Prompt to Prompt 노드 설정

    사용방법은 IF Prompt to Prompt 노드에 한글 또는 영어로 간단한 프롬프트를 입력한 후, 우측 메뉴의 Queue Prompt를 클릭하면 생성이 시작되고, Show text 노드에 LLAMA3가 생성한 프롬프트가 출력되며, 잠시 후 이미지가 생성됩니다. 

    LLAMA3 미세조정 모델 자동 프롬프트 작성 및 이미지 생성 화면

    사용자 입력 프롬프트 아름다운 여성 또는 beautiful girl
    LLAMA3 미세조정 모델
    자동생성 프롬프트
    Best quality, professional, Portrait, photo shoot, Enchanting young woman, ethereal beauty, slender figure, long golden hair flowing like autumn leaves, radiant smile, sparkling emerald eyes, soft skin, delicate features, wispy clouds drifting across cerulean sky above her, serene expression, elegant gown fluttering in gentle breeze. Best quality, professional, Portrait, photo shoot,

    LLAMA3 미세조정 모델 자동 프롬프트 생성 이미지 (사용자 프롬프트 : beautiful girl, city)
    LLAMA3 미세조정 모델 자동 프롬프트 생성 이미지 (사용자 프롬프트 : beautiful girl)
    LLAMA3 미세조정 모델 자동 프롬프트 생성 이미지 (사용자 프롬프트 : beautiful girl, closeup)
    LLAMA3 미세조정 모델 자동 프롬프트 생성 이미지 (사용자 프롬프트 : 아름다운 여성)

    728x90

    유튜브 동영상 자동요약

    다음은 LLAMA3 모델을 이용해서 유튜브 동영상 자동요약을 해볼 건데요. 이 프로그램은 Streamlit을 이용하여 유튜브 URL을 입력하면 아래 화면과 같이 자동으로 요약을 생성해 주는 웹 애플리케이션입니다. 아래 예시 유튜브 동영상은 1시간 분량의 영상인데 요약하는 데는 약 30초 정도 걸렸습니다.

    유튜브 동영상 자동요약 웹 애플리케이션

    다음은 프로그램을 구현하기 위한 진행순서입니다.

    • 1. 깃 허브 레포지토리 복제: Phidata 레포지토리를 로컬로 복제합니다. 
    • 2. 환경설정 및 API Key 발급: 가상환경을 설정 및 활성화하고 Groq API Key를 발급합니다. 
    • 3. 코드 실행 및 결과확인: 유튜브 URL을 입력하고 요약 내용을 확인합니다. 

    깃 허브 레포지토리 복제

    먼저, 아래 명령어를 실행하여 깃 허브 레포지토리를 로컬로 복제하고 video_summary 작업 디렉토리로 이동합니다.

    git clone https://github.com/phidatahq/phidata
    cd phidata\cookbook\llms\groq\video_summary

     

    복제된 파일은 아래 화면과 같습니다. 

    깃 허브 레포지토리 복제 결과

    이 프로그램은 사용자가 입력한 YouTube 비디오 URL을 통해 비디오 캡션을 추출하고, 이를 특정 크기로 분할하여 각 부분에 대한 요약을 생성합니다. 요약은 선택한 LLAMA3 모델을 사용하여 생성되며, 사용자는 요약된 정보를 편리하게 확인할 수 있습니다. 또한 트렌딩 비디오를 선택하여 요약을 생성할 수도 있습니다.

    환경설정 및 API Key 발급

    프로그램의 실행환경은 Windows 11 Pro(23H2),  파이썬 버전 3.11, 코드 에디터는 비주얼 스튜디오 코드(이하 VSC)입니다. 윈도우 명령프롬프트에서 "conda create -n llama3phidata python=3.11 -y" 명령으로 가상환경을 생성하고 "conda activate llama3phidata" 명령으로 활성화합니다. llama3phidata 가상환경 이름은 원하는 이름으로 수정할 수 있습니다. 다음은 가상환경이 활성화된 상태에서 "pip install -r requirements.txt" 명령어를 통해 의존성을 설치해 줍니다.

    conda create -n llama3phidata python=3.11 -y
    conda activate llama3phidata
    pip install -r requirements.txt

     

    프로그램에 필요한 Groq API Key는 https://console.groq.com/keys에 접속해서 "Create API Key" 버튼을 클릭해서 발급받습니다. Groq 관련 내용은 이전 포스트를 참고하시기 바랍니다.

    2024.02.29 - [AI 도구] - Groq LPU : 논문 한편 요약하는데 입력-추론-응답까지 2.4초!

     

    Groq LPU : 논문 한편 요약하는데 입력-추론-응답까지 2.4초!

    안녕하세요! 오늘은 Groq이라는 회사의 대형 언어 모델 추론성능 가속장치, LPU(Language Processing Unit)에 대해서 알아보겠습니다. Groq은 2016년에 과거 구글 직원이었던 조나단 로스에 의해 설립된 AI

    fornewchallenge.tistory.com

    코드 실행 및 결과확인

    다음은 명령어 프롬프트에 "set GROQ_API_KEY=발급받은 API KEY" 명령을 입력하여 Groq API Key를 설정한 후, "streamlit run app.py" 명령을 실행하면 http://localhost:8501/ 주소에서 아래 화면과 같이 Groq로 구동되는 YouTube 비디오 요약 초기화면이 표시됩니다.  좌측 메뉴에서 언어 모델을 선택하고 유튜브 URL을 입력할 수 있으며, 우측화면에는 요약내용이 표시됩니다. 브라우저의 번역기능을 이용해서 한글로 이용하실 수 있으나, 한글상태에서 요약생성을 클릭하시면 에러가 발생할 수 있으니, 요약생성이 완료된 후에 한글로 번역하시면 됩니다. 

    set GROQ_API_KEY=본인이 발급받은 Key
    streamlit run app.py

    LLAMA3 모델을 이용한 유튜브 동영상 자동요약

     

    맺음말

    오늘은 LLAMA3를 활용하여 ComfyUI 프롬프트 작성과 유튜브 동영상 요약을 자동화하는 방법을 알아보았습니다. 이를 통해 텍스트 프롬프트 작성과 동영상 요약 작업을 효율적으로 처리할 수 있었습니다. ComfyUI에서는 LLAMA3를 활용하여 텍스트 프롬프트를 자동으로 생성하고, 해당 프롬프트를 통해 이미지를 생성할 수 있었으며, 또한, Streamlit을 사용하여 LLAMA3를 이용한 유튜브 동영상 요약 웹 애플리케이션을 만들어 보았습니다.

     

    프롬프트 고민을 줄여주고, 동영상 감상 시간을 절약해 주는 LLAMA3 활용 팁으로 여러분이 생성 AI 작업을 하는데 도움이 되었기를 바라면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2024.04.30 - [AI 도구] - LLAMA3 RAG 시스템: AI 어시스턴트로 10초만에 자동 보고서 만들기

     

    LLAMA3 RAG 시스템: AI 어시스턴트로 10초만에 자동 보고서 만들기

    안녕하세요! 오늘은 요즘 가장 인기 있는 언어 모델, LLAMA3로 AI 어시스턴트를 만들어 보겠습니다. 이 앱은 Groq과 Phidata를 이용해서 주어진 웹 사이트나 pdf를 기반으로 "원클릭" 보고서를 작성하고

    fornewchallenge.tistory.com

     

     

    728x90