본문 바로가기
반응형

전체 글234

Ultralytics YOLO v8: 누구나 손쉽게 할 수 있는 컴퓨터 비전 작업 솔루션 안녕하세요! 오늘은 다양한 컴퓨터 비전 작업을 지원하는 AI 프레임워크인 Ultralytics YOLO에 대해서 알아보겠습니다. YOLO는 이미지나 비디오에서 객체의 인식과 분류, 세분화, 객체 추적, 포즈 추정 등과 같은 다양한 비전 작업 수행이 가능한 솔루션입니다. 이 블로그에서는 Ultralytics YOLO 개요와 기능에 대해 알아보고, 이미지와 비디오에서의 객체인식 및 보행자 동선추적, 실시간 차량속도 추정, 교통 흐름 분석 예제를 살펴보겠습니다. https://github.com/ultralytics/ultralytics GitHub - ultralytics/ultralytics: NEW - YOLOv8 🚀 in PyTorch > ONNX > OpenVINO > CoreML > TFLite N.. 2024. 3. 22.
MM1: 애플의 새로운 멀티모달 언어 모델 안녕하세요! 오늘은 최근 애플에서 공개한 MM1이라는 이미지-투-텍스트, 멀티모달 언어 모델(Multimodal Language Model, MMLM)에 대해서 알아보겠습니다. MM1은 이미지 캡셔닝, 이미지에 대한 질문에 답하기 등 이미지와 관련된 텍스트를 생성하거나 이해하는 작업에 사용될 수 있으며, 다중 이미지 추론, 텍스트 기반 시각 질문 응답 등에서 우수한 성능을 나타냅니다. 이 블로그에서는 논문을 통해 MM1 개요와 특징, 실험 및 구축방법, 성능평가 등에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 논문 개요 이 논문은 멀티모달 언어 모델(MMLM) 분야에서 우수한 성능을 가진 MM1 모델을 제시합니다. MM1 모델은 다양.. 2024. 3. 21.
5줄 파이썬 코드로 AI 주식 분석 완료! Hermes 2 Pro의 놀라운 함수 호출 기능 안녕하세요! 오늘은 최신 대규모 언어 모델 Hermes-2-Pro-Mistral-7B에 대해서 알아보겠습니다. Hermes-2-Pro-Mistral-7B는 NousResearch가 개발한 미스트랄(Mistral) 아키텍처 기반 대규모 언어 모델로, 함수호출과 JSON 출력에서 높은 성능과 다양한 자연어 이해 기능을 제공합니다. 이 블로그에서는 Hermes 2 Pro 개요와 특징, 파이썬 코드 5줄로 완성하는 주식분석 예제코드에 대해서 알아보겠습니다. https://huggingface.co/NousResearch/Hermes-2-Pro-Mistral-7B NousResearch/Hermes-2-Pro-3 Face Hermes 2 Pro - Mistral 7B Model Description Hermes .. 2024. 3. 19.
🚀Groq API와 Streamlit으로 만드는 슈퍼 패스트 웹사이트 URL 채팅봇! 안녕하세요! 오늘은 초당 500 토큰 이상의 추론 가속성능을 가진 Groq API와 파이썬 라이브러리 Streamlit을 활용해서 웹사이트 URL입력으로 내용을 빠르게 파악하고 대화하는 웹 페이지를 만들어보겠습니다. Streamlit은 데이터 처리, 시각화, 인터랙션 등을 수행하고, 이를 웹 브라우저에서 실시간으로 확인할 수 있 웹 애플리케이션 프레임워크입니다. Streamlit을 활용하면 같은 화면에서 URL만 바꿔서 입력하여 바로 응답을 얻을 수 있습니다. 이 블로그에서는 Groq API와 Streamlit을 활용해서 웹사이트 URL 채팅봇을 만들어 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Groq API, Streamlit 개요 Groq.. 2024. 3. 16.
피규어(Figure) 01: 인간 같은 휴머노이드 로봇의 미래 안녕하세요! 오늘은 오픈AI의 동영상 생성 AI Sora에 이은 또 하나의 혁신적인 AI, 피규어 01 로봇에 대해서 알아보겠습니다. 피규어 01은 OpenAI와 캘리포니아의 스타트업 회사 피규어 AI와의 파트너십을 통해 만들어진 인공지능 휴머노이드 로봇입니다. 이 블로그에서는 피규어 01 로봇의 개요, 기술적인 특성과 작동원리, DEMO 영상에 대해서 알아보겠습니다. https://www.aitimes.com/news/articleView.html?idxno=157964 피규어 AI, 인간과 대화하며 작업하는 휴머노이드 공개..."SF가 현실로" - AI타임스 인공지능(AI) 로봇 스타트업 피규어 AI가 오픈AI와 협력해 만든 휴머노이드 로봇 영상을 공개했다. 사람의 질문과 요청을 정확히 이해하고 답변.. 2024. 3. 15.
🚀 Groq LPU에 날개를 달아주는 FunckyCall 프록시 서버 완벽 가이드 안녕하세요! 오늘은 최근 혁신적인 추론속도로 주목받고 있는 Groq의 LPU 언어 모델이 인터넷 검색과 같은 다양한 함수처리 기능을 통합할 수 있도록 지원하는 FunckyCall이라는 프록시 서버에 대해 알아보겠습니다. FunckyCall 프록시 서버는 사용자의 요청을 받아서 대형 언어 모델이 직접 처리할 수 없는 함수를 대신 호출, 처리하여 프로그램에 통합하고, 이를 통해 코드 관리, 간소화, 서비스 통합, 확장성, 성능 및 안정성 측면에서 다양한 장점을 제공합니다. 이 블로그에서는 FunckyCall 프록시 서버의 기능, 사용방법, 동작원리, 예제코드에 대해서 알아보겠습니다. https://funckycall.ai/ FunckyCall FunckyCall.ai FunckyCall is a proxy .. 2024. 3. 14.
MusicLang: 대형 언어 모델로 누구나 쉽게 MIDI 음악 작곡하기 안녕하세요! 오늘은 MusicLang이라는 음악 작곡 및 분석을 위한 대형 언어 모델과 파이썬 프레임워크를 이용해서 나만의 MIDI 음악을 작곡해 보겠습니다. MusicLang은 작곡가가 음악을 로드하고 작성하며, 변환하고 예측하는 데 사용할 수 있는 새로운 언어를 구현함으로써 손쉽게 높은 퀄리티의 MIDI 음악을 다룰 수 있도록 지원합니다. 이 블로그에서는 MusicLang 언어모델과 라이브러리 활용방법, 무작위 음악, 코드진행 음악 등 MIDI 음악 생성예제에 대해서 알아보겠습니다. https://www.musiclang.io/ MusicLang . MusicLang is Revolutionising Music Creation with AI. Made for artists & by artists. w.. 2024. 3. 13.
[꿀팁] 비행기 모드 AI 채팅! MLCChat으로 스마트폰 데이터 연결 없이 AI 즐기기 안녕하세요! 오늘은 "MLCChat"이라는 앱을 이용해서 데이터 연결 없이 스마트폰에서 대형 언어 모델과 대화하는 방법에 대해 알아보겠습니다. MLCChat(Machine Learning Chat)은 웹, iOS 및 Android 등 다양한 플랫폼에서 대규모 언어 모델을 실행할 수 있도록 지원하는 MLC LLM(Machine Learning Compilation for Large Language Models) 프로젝트의 일부로써, MLC LLM에서 컴파일하고 변환한 대형 언어 모델을 이용해서 대화형 인터페이스를 구현한 프로그램입니다. 이 블로그에서는 MLC LLM의 개요와 MLCChat DEMO 앱 설치 및 사용방법에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액.. 2024. 3. 10.
클로드(Claude) Sonnet을 이용한 고객리뷰 분류 및 요약 자동화 안녕하세요! 오늘은 최근 공개된 클로드 Sonnet 모델을 이용해서 고객의 리뷰를 자동으로 분류하고 요약해 보겠습니다. 수많은 고객의 리뷰를 모두 읽어보고 요약해서 인사이트를 얻으려면 많은 시간과 노력이 필요하지만 구글 스프레드 시트의 확장프로그램인 "Claude for Sheets"를 활용하면 대형 언어 모델의 추론 기능을 통해 수많은 고객 리뷰를 단시간에 요약하고 대책을 수립할 수 있습니다. 이 블로그에서는 "Claude for Sheets"의 설치 및 사용방법을 알아보고 이를 활용한 영한번역과 고객리뷰 자동분류 및 요약 예제에 대해서 살펴보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Claude for Sheets 설치 Claude for S.. 2024. 3. 7.
클로드(Claude) 3: GPT-4와 제미나이를 뛰어넘은 언어 모델의 등장! 안녕하세요! 오늘은 3월 4일 발표된 앤트로픽의 최신 대형 언어 모델 클로드(Claude) 3에 대해서 알아보겠습니다. 이번에 발표된 클로드 3 모델 패밀리는 Haiku, Sonnet 및 Opus라는 세 가지 최신 모델로 구성되어 있으며, 그중 Opus는 인공지능 시스템의 일반적인 평가 기준에서 GPT-4, Gemini 등 기존 모델들을 능가하는 벤치마크 결과를 공개하였습니다. 이 블로그에서는 클로드 3의 개요와 특징에 대해 알아보고, 클로드 3 API를 활용한 함수 호출 예제에 대해 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 클로드 3 개요 및 특징 클로드 3 모델은 분석 및 예측, 코드 생성 및 스페인어, 일본어 및 프랑스어와 같은 비영.. 2024. 3. 6.
[Ollama 활용] 허깅페이스 Solar를 나만의 커스텀 언어 모델로 바꾸기 안녕하세요! 오늘은 대형 언어 모델 도구 Ollama를 이용해서 커스텀 언어 모델을 만들어 보겠습니다. 커스텀 언어 모델은 시스템 프롬프트 등을 변경하여 사용자가 원하는 방식으로 동작하도록 조정한 언어 모델을 말합니다. 이 블로그에서는 허깅페이스 대형 언어 모델을 OpenAI 호환기능, Langchain, 파이썬, 자바스크립트 등의 활용이 가능한 Ollama 로컬 모델로 변환하고, 시스템 프롬프트를 변경해서 커스텀 언어 모델을 만드는 방법에 대해 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 허깅페이스 모델 가져오기 먼저 커스텀 언어 모델을 만들기 위해 기본이 되는 모델을 허깅페이스에서 가져오겠습니다. 제가 선택한 모델은 국내기업 업스테이지의 .. 2024. 3. 5.
🚀Unsloth : 메모리 60% 절약, 훈련 속도 30배 향상! 나만의 LLM 만들기 안녕하세요! 오늘은 Unsloth라는 대형 언어 모델 훈련도구에 대해서 알아보겠습니다. Unsloth는 메모리를 효율적으로 사용하여 대형 언어 모델을 더 빠르게 훈련시킬 수 있도록 지원하는 도구입니다. 해당 도구는 PyTorch를 기반으로 하며, 주로 CUDA를 사용하는 NVIDIA GPU에서 작동합니다. 이 블로그에서는 Unsloth의 기능과 특징, 설치방법, 코랩을 이용한 LLM 훈련 및 로컬 저장방법 등에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Unsloth란? Unsloth는 LLM(대규모 언어 모델)의 훈련을 최적화하기 위한 도구입니다. 이 도구는 훈련 속도를 높이고 메모리 사용량을 줄이며 정확성을 유지하거나 향상시킬 수.. 2024. 3. 3.
Groq LPU : 논문 한편 요약하는데 입력-추론-응답까지 2.4초! 안녕하세요! 오늘은 Groq이라는 회사의 대형 언어 모델 추론성능 가속장치, LPU(Language Processing Unit)에 대해서 알아보겠습니다. Groq은 2016년에 과거 구글 직원이었던 조나단 로스에 의해 설립된 AI 솔루션 회사인데요. 세계 최초로 대형 언어 모델의 처리속도 가속화 위해 특별히 설계된 LPU(Language Processing Unit)라는 사용자 정의 칩을 개발하였습니다. 이 블로그에서는 Groq LPU의 특징, 성능 등에 대해서 알아보고 Groq 클라우드 플레이 그라운드와 Groq API 사용방법에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Groq LPU란? Groq LPU(Language Pro.. 2024. 2. 29.
[AI 논문] EMO: 사진 1장과 음성으로 되살린 오드리 헵번의 생생한 표정! 안녕하세요! 오늘은 중국의 알리바바 그룹에서 발표한 오디오 기반 비디오 생성기술 "EMO: Emote Portrait Alive"에 대해 알아보겠습니다. EMO는 주어진 단일 캐릭터의 얼굴이미지를 바탕으로 음성 입력에 동기화된 비디오를 생성하는 인공지능 기술입니다. 이 기술은 캐릭터의 자연스러운 머리 움직임과 생동감 있는 표현이 입력된 음성의 음조 변화와 조화를 이루면서 깜짝 놀랄 만큼 사실적이고 일관된 인물의 모습을 유지합니다. 이 블로그에서는 EMO의 구성요소와 역할, 동작원리, 성능평가 등에 대해서 살펴보겠습니다. 자, 그럼 오드리 헵번을 만나러 가보실까요? https://humanaigc.github.io/emote-portrait-alive/ EMO EMO: Emote Portrait Alive.. 2024. 2. 28.
🤯 파이데이터(Phidata) : 5줄 코드로 토큰 과금없는 AI 어시스턴트 만들기 안녕하세요! 오늘은 간단한 파이썬 코드 5줄 만으로 다양한 기능을 무료로 구현할 수 있는 파이데이터(Phidata)에 대해서 알아보겠습니다. 파이데이터는 함수 호출(Function Calling)을 사용하여 AI 어시스턴트를 구축하는 데 사용되는 도구 모음으로, 간단한 코드 구현을 통해 대규모 언어 모델이 함수를 호출하고 응답에 따라 다음 단계를 지능적으로 선택함으로써 사용자의 질문에 대답하거나 작업을 수행할 수 있도록 도와줄수 있습니다. 이 블로그에서는 파이데이터의 구성요소와 동작원리, 토큰 과금 없는 LLM 활용방법, DEMO 실행방법에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 파이데이터(Phidata) 란? 파이데이터는 대규모.. 2024. 2. 27.
🏆텍스트 임베딩의 혁신! 오픈AI 뛰어넘은 노믹 임베드의 모든것! 안녕하세요! 오늘은 최근 발표된 오픈소스 텍스트 임베딩 모델 "노믹 임베드(Nomic Embed)"에 대해서 알아보겠습니다. 노믹 임베드는 텍스트 임베딩에 대한 새로운 접근 방식을 통해 긴 문맥에서 텍스트를 효과적으로 임베딩하고 새로운 아키텍처와 학습 전략을 도입하여 성능을 향상시킨 텍스트 임베딩 모델입니다. 이 블로그에서는 노믹 임베드의 특징, 구성요소, 동작원리에 대해 알아보고, Ollama와 노믹 임베드를 활용한 URL 문서검색 DEMO를 실행해 보겠습니다. https://www.aitimes.com/news/articleView.html?idxno=157299 노믹 AI, 오픈AI 뛰어넘는 오픈 소스 최장 컨텍스트 임베딩 모델 출시 - AI타임스 현존 최고인 오픈AI의 ‘텍스트-임베딩-에이다-00.. 2024. 2. 25.
🚀 SDXL-Lightning: 스테이블 디퓨전 기반 초고속 이미지 생성 기술 심층 분석 안녕하세요! 오늘은 틱톡으로 유명한 중국의 IT기업, ByteDance에서 개발한 SDXL-Lightning이라는 이미지 생성모델에 대한 논문을 살펴보겠습니다. SDXL-Lightning은 " 점진적 적대적 확산 증류(Progressive Adversarial Diffusion Distillation)"라는 접근방식을 이용하여 한 단계 또는 몇 단계의 샘플링 만으로 이미지 생성이 가능한 기술입니다. 이 블로그에서는 점진적 적대적 확산 증류의 개념과 동작원리, 오픈소스 SDXL-Lightning 설치방법에 대해 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 논문 개요 이번 논문의 제목은 "SDXL-Lightning: Progressive Adve.. 2024. 2. 23.
💥핵꿀팁! 스마트폰에서 Ollama WebUI를 만나는 방법 (ngrok 활용) 안녕하세요! 오늘은 ngrok이라는 Tool을 이용해서 대규모 언어 모델 Ollama의 WebUI를 스마트폰에서 만나보겠습니다. ngrok은 클라이언트와 서버 사이에서 중개자 역할을 하여 클라이언트로부터의 요청을 받아서 해당 요청을 내부 네트워크의 서버로 전달하는 리버스 프록시(Reverse Proxy)입니다. ngrok을 사용하면 외부 스마트폰에서 집이나 사무실에 있는 컴퓨터로 원격접속해서 웹 애플리케이션을 사용할 수 있습니다. 이방식은 화면공유방식이 아닌 원격 액세스 및 네트워크 터널링 방식으로 구현되며, 전 세계에 분산된 서버를 이용해서 어디에서나 간단하고 빠르게 애플리케이션을 실행할 수 있습니다. 이 블로그에서는 ngrok 개요와 기능, Ollama WebUI 설치방법, ngrok로 Ollama .. 2024. 2. 21.
LangChain과 CrewAI를 활용한 News 검색-분석-요약 자동화 안녕하세요! 오늘은 LangChain, CrewAI를 활용해서 사용자가 요청한 키워드와 관련된 뉴스 기사를 인터넷에서 검색하고, 분석, 요약, 작성하는 과정을 자동화하는 방법을 알아보겠습니다. LangChain은 언어 모델 기반 응용 프로그램을 개발하기 위한 종합적인 프레임워크이며, CrewAI는 역할을 가진 자율 AI 에이전트들이 협력해서 복잡한 작업을 처리하도록 해줍니다. 이 블로그에서는 AI 에이전트 및 작업 정의, 협업 프로세스 관리, 텍스트 스플리팅과 임베딩, 유사도 검색과 외부 데이터 및 API 사용방법 등을 확인하실 수 있습니다. LangChain이란? LangChain은 언어 모델을 기반으로 하는 응용 프로그램을 개발하기 위한 종합적인 프레임워크입니다. 이 프레임워크는 다음과 같은 핵심 기.. 2024. 2. 20.
엔비디아의 최신 DEMO: Chat with RTX 설치 및 사용후기 안녕하세요! 오늘은 최근 엔비디아에서 공개한 "Chat with RTX"의 설치 및 사용후기에 대해 작성해 보겠습니다. "Chat with RTX"는 사용자가 자신의 문서, 노트, 비디오 또는 기타 데이터에 연결된 GPT(Generative Pre-trained Transformer) 대규모 언어 모델(LLM)을 개인화할 수 있는 DEMO 앱입니다. 검색 확장 생성(RAG), TensorRT-LLM 및 RTX 가속을 활용하여 사용자는 사용자 정의 챗봇에 쿼리 하여 즉각적으로 맥락에 맞는 답변을 얻을 수 있습니다. 그리고 이 모든 것이 로컬로 실행되므로 빠르고 안전한 결과를 얻을 수 있습니다. 이 블로그에서는 "Chat with RTX" 설치방법과 에러 해결방법, 특징과 장단점 등에 대해 알아보겠습니다. .. 2024. 2. 18.
Sora: 현실 세계를 시뮬레이션하는 OpenAI 비디오 생성 모델 안녕하세요! 오늘은 OpenAI에서 어제 공개한 새로운 생성형 AI 모델 Sora에 대해서 알아보겠습니다. Sora는 다양한 길이, 종횡비 및 해상도를 가진 비디오 및 이미지를 생성할 수 있는 시각 데이터 모델로서, 최대 1분까지의 고화질 비디오를 생성할 수 있으며, 뛰어난 사실감으로 현실 세계를 시뮬레이션할 수 있는 가능성을 보여줍니다. 이 블로그에서는 Sora의 비디오 생성 원리, 주요 특징과 기능 등에 대해서 살펴보겠습니다. 블로그 내용의 출처는 아래 링크와 같습니다. https://openai.com/research/video-generation-models-as-world-simulators "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Sora 개요.. 2024. 2. 17.
벡터 데이터베이스와 Llama2를 활용한 arXiv 논문 자동검색 및 분석 안녕하세요! 오늘은 벡터 데이터베이스와 대규모 언어 모델을 활용해서 자동으로 arXiv 논문을 검색하고 분석하는 방법에 대해 알아보겠습니다. 벡터 데이터베이스는 많은 숫자의 순서쌍으로 변환된 데이터를 효율적으로 저장하고 검색할 수 있는 데이터 저장소이며, 잘 알려진 솔루션으로는 Qdrant, ChromaDB, Milvus 등이 있습니다. 이 블로그에서는 벡터 데이터베이스의 개념과 구조, 원리 등에 대해서 알아보고, 활용예제 코드를 살펴보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 벡터 데이터베이스 개요 벡터 데이터베이스는 딥 러닝 아키텍처와 같은 기계 학습 모델을 위한 추상적인 데이터 표현과 상호 작용하는 방법입니다. 벡터 데이터는 여러 개의 숫자.. 2024. 2. 16.
🚀Ollama와 Instructor를 활용한 대규모 언어 모델과의 상호 작용 가이드 안녕하세요! 오늘은 Ollama API와 Instructor를 이용해서 대규모 언어모델과 상호작용하는 방법에 대해 알아보겠습니다. Instructor는 파이썬의 라이브러리로, OpenAI API를 호출하는 함수와 클라이언트를 제공하고, Pydantic 라이브러리와 함께 사용해서 데이터 모델을 정의하고 응답데이터를 파싱 합니다. 이 블로그에서는 Ollama API와 Instructor 및 Pydantic 라이브러리를 이용한 대규모 언어 모델과의 상호작용 방법에 대해서 확인하실 수 있습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Instructor란? Instructor는 OpenAI API를 보다 쉽게 사용하고 관리할 수 있도록 도와주는 파이썬 라이브러.. 2024. 2. 15.
AutoGen: 토큰 과금 없는 100% 무료 대규모 언어 모델 협업 자동화 안녕하세요! 오늘은 AutoGen을 이용해서 다중 에이전트를 생성하고, 오픈소스 대규모 언어모델 도구인 Litellm과 Ollama를 활용해서 Mistral과 Codellama를 통해 에이전트들이 서로 협업하며 자동화된 작업을 수행하는 애플리케이션을 만들어 보겠습니다. 이 블로그에서는 OpenAI API 호출이나 토큰 과금 없이 AutoGen과 Litellm, Ollama를 이용한 다중 에이전트 설정과 대규모 언어 모델 간 협업시스템 구현방법에 대해서 확인하실 수 있습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." AutoGen 이란? AutoGen은 Microsoft와 Penn State 대학 및 Washington 대학의 협업 연구를 통해 개발되었으며.. 2024. 2. 13.
구글 제미나이 울트라 1.0, 과연 진정한 AI 혁신인가? 솔직 후기 공개! 안녕하세요! 오늘은 구글의 인공지능 제미나이의 최상위 버전인 울트라의 사용후기를 작성해 보겠습니다. 제미나이 울트라는 구글 AI에서 개발한 최첨단 대화형 인공지능(AI) 모델이며, 1,560조 개의 방대한 파라미터로 학습되어 인간과 유사한 수준의 대화가 가능하고 텍스트 생성, 번역, 코딩, 요약, 스토리텔링 등 다양한 작업을 수행할 수 있다고 합니다. 이 블로그에서는 제미나이 울트라의 이미지 생성 및 인식, 이야기 생성, 언어와 코딩 기능, 환각현상 등에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 제미나이 울트라 접속방법 그동안 서비스가 제공되던 구글의 바드는 이제 제미나이로 통합되었으며, 현재 제미나이 울트라는 아직 공식 한국사이트.. 2024. 2. 12.
Ollama 업데이트! 이제 OpenAI API를 무료로 즐기세요! 안녕하세요! 오늘은 대규모 언어 모델 활용도구인 Ollama의 OpenAI API 호환성 업데이트 소식을 전해드리겠습니다. ChatGPT를 만든 OpenAI의 API는 현재 1,000 토큰 당 $0.03(GPT-4)의 가격에 유료로 제공되고 있는데요. 이번 Ollama의 호환성 업데이트를 통해 OpenAI API와 호환되는 AI 모델 및 서비스와 무료로 상호 작용할 수 있게 되었습니다. 이 블로그에서는 Ollama의 OpenAI API 호환성 업데이트 내용, 사용방법, 활용예제 등에 대해 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." OpenAI API란? OpenAI API는 ChatGPT를 만든 OpenAI에서 제공하는 인공 지능 모델과 서.. 2024. 2. 12.
뤼미에르: 구글의 텍스트 기반 비디오 생성의 새로운 기준 안녕하세요! 오늘은 구글에서 최근 발표한 비디오 생성 AI, 뤼미에르에 대해서 알아보겠습니다. 뤼미에르는 시공간 U-Net 아키텍처를 기반으로 텍스트에서 비디오로의 변환을 위한 혁신적인 확산 모델로, 공간 및 시간 다운샘플링, 업샘플링을 결합하여 전체 비디오를 한 번에 생성하는 기능을 제공합니다. 이 모델은 다양한 화질과 일관된 움직임을 보여주며 다른 T2V 모델과 비교했을 때 높은 품질의 비디오 생성을 실현합니다. 이 블로그에서는 시공간 U-Net 아키텍처가 무엇인지 알아보고 시공간 U-Net 아키텍처의 구성요소, 동작원리, 뤼미에르 모델 성능평가에 대해서 확인하실 수 있습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 논문 개요 및 목적 이 논문은 ".. 2024. 2. 8.
LLaVA NeXT: 제미나이 프로를 뛰어넘는 오픈소스 멀티모달 AI! 안녕하세요! 오늘은 멀티모달 대규모 언어 모델 LLaVA의 업데이트 소식에 대해 알아보겠습니다. LLaVA (Language-Image Visual Assistant, 언어-이미지 시각 어시스턴트)는 시각적 지시 조정기술(Visual Instruction Tuning, VIT)을 기반으로 개발된 언어와 이미지 간의 복합적인 상호 작용에 중점을 둔 멀티모달 모델입니다. 이번에 발표된 LLaVA NeXT는 여러 벤치마크에서 구글의 제미나이 프로를 능가하며, 이전 버전인 LLaVA 1.5에 비해 입력 이미지 해상도, OCR기능등이 개선되었다고 합니다. 이 블로그에서는 LLaVA NeXT의 특징, 개선 사항, 벤치마크 결과, 로컬 실행 방법 등에 대해서 알아보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으.. 2024. 2. 8.
OLMo(Open Language Model) : 완전한 오픈소스 대형 언어 모델 안녕하세요! 최근 언어 모델이 자연어 처리 연구와 상업 제품에서 더욱 보편화되면서, 모델의 편향과 잠재적인 위험을 이해하기 위한 훈련 데이터와 아키텍처 및 개발에 대한 세부 정보가 중요해지고 있는데요. 오늘은 앨런 AI연구소에서 최근에 발표된 완전한 오픈소스 대형 언어 모델, OLMo(Open Language Model)에 대해서 알아보겠습니다. OLMo는 진정한 개방형 언어 모델로, 모델 가중치와 추론 코드, 훈련 데이터, 평가 코드 등 모든 프레임워크를 공개합니다. 이 블로그에서는 OLMo의 아키텍처, 특징, 평가결과 등에 대해서 확인하실 수 있습니다. https://www.aitimes.com/news/articleView.html?idxno=156940 AI2, 상업 활용까지 자유로운 '진짜' 오.. 2024. 2. 4.
무료로 즐기는 유튜브 요약 AI 'Corely': 최신 콘텐츠부터 나만의 컬렉션까지 안녕하세요! 오늘은 유튜브를 많이 이용하시는 분들께 도움이 될 수 있는 간편한 유튜브 요약 AI, Corely를 소개해드리겠습니다. Corely는 최신 IT, 기술, 자기 계발, 경제 등 다양한 주제의 유튜브 동영상을 간략하게 요약해 줄 뿐만 아니라, 베스트 요약 Top50, 내 컬렉션, 추천 컬렉션, 최근 요약 기록 등 편리한 기능을 무료로 사용할 수 있습니다. 이 블로그에서는 Corely의 개요, 주요 기능 및 특징, 이용후기 등에 대해 확인하실 수 있습니다. 그럼 시작해 볼까요? "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." Corely 개요 Corely는 유튜브 요약 인공지능(AI) 서비스로, 다양한 주제의 유튜브 동영상을 간결하게 요약하여 제공하는 플.. 2024. 2. 3.
반응형