본문 바로가기
728x90

전체 글288

🎧NotebookLlama: PDF를 팟캐스트로 변환하는 메타의 오픈소스 솔루션 안녕하세요! 오늘은 구글 NotebookLM와 유사한 기능을 오픈소스로 구현한 메타의 NotebookLlama에 대해 알아보겠습니다. NotebookLlama는 PDF 문서를 팟캐스트 오디오로 변환하는 프로세스 가이드와 노트북 세트를 제공합니다. LLM과 텍스트 음성 변환 모델을 기반으로 구성된 NotebookLlama는, 전문 지식이 없어도 쉽게 따라 할 수 있도록 단계별로 상세한 안내를 제공합니다. 이 블로그에서는 NotebookLlama가 PDF를 팟캐스트로 변환하는 각 단계를 살펴보고, 여러분이 직접 사용해 볼 수 있도록 필요한 설치 방법을 소개해드리겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."NotebookLlama 개요NotebookLlam.. 2024. 11. 5.
🤖n8n: 깃허브 48k 스타의 노코드 AI 에이전트 자동화 도구 설치 및 활용 가이드 안녕하세요! 오늘은 오픈소스 AI 에이전트 자동화 도구인 n8n을 소개드리려고 합니다. n8n은 GitHub에서 48k 이상의 별을 받은 인기 프로젝트로, Gmail, Google Sheets, Telegram, Notion 등 200개 이상의 다양한 도구를 결합하여 워크플로우 자동화를 구현할 수 있습니다. 특히, API가 없어도 복잡한 자동화 작업을 쉽고 빠르게 구축할 수 있도록 사용자 친화적인 플랫폼을 제공하며, OpenAI의 GPT나 Google Gemini와 같은 클라우드 기반 LLM뿐만 아니라, Ollama의 오픈소스 LLM도 활용하여 챗봇 워크플로우를 제작할 수 있습니다. 이 블로그에서는 n8n의 개요, 특징과 주요 기능, 설치방법에 대해 알아보고 예제를 만들어서 테스트해 보겠습니다. "이 포.. 2024. 11. 2.
🎨Stable Diffusion 3.5: 향상된 이미지 품질과 프롬프트 정확도로 업그레이드된 최신 텍스트-이미지 AI 안녕하세요! 오늘은 Stability AI의 최신 텍스트-이미지 생성 모델인 Stable Diffusion 3.5에 대해 알아보겠습니다. 이 모델은 커뮤니티의 피드백을 반영하여 기존 모델보다 이미지 품질, 프롬프트의 정확성, 사용 편의성, 그리고 성능 효율성을 한층 높였습니다. Stable Diffusion 3.5는 세 가지 모델—Large, Large Turbo, Medium—로 구성되어 있으며, 각각의 모델은 서로 다른 하드웨어 환경과 사용 목적에 최적화되어 있습니다. 특히 Large 모델은 80억 개의 매개변수로 세밀한 이미지 표현이 가능하며, Turbo 모델은 4단계 만에 고품질 이미지를 생성할 수 있습니다. 또한, 무료로 사용할 수 있는 Stability AI 커뮤니티 라이선스를 제공하여 상업적.. 2024. 10. 27.
🤖Claude Computer Use 사용 가이드: 컴퓨터를 사람처럼 사용하는 AI 안녕하세요! 오늘은 최근 Anthropic에서 개발한 Claude Computer Use에 대해 알아보겠습니다. Claude Computer Use는 Anthropic의 최첨단 AI 모델 Claude 3.5 Sonnet에 탑재된 혁신적인 기능으로, AI가 컴퓨터를 사람처럼 사용할 수 있도록 합니다. 이는 마치 우리가 컴퓨터를 사용하듯 AI가 화면을 보고, 마우스 커서를 움직여 버튼을 클릭하고, 키보드로 텍스트를 입력하는 등 컴퓨터와 자유롭게 상호작용할 수 있는 기능입니다. 이 블로그에서는 Claude Computer Use의 개요, 특징과 주요 기능, 설치방법을 알아보고, 테스트를 해보겠습니다.  https://www.anthropic.com/news/3-5-models-and-computer-use I.. 2024. 10. 26.
🎙️Spirit LM: 풍부한 감정을 표현하는 Meta의 최신 음성 모델 안녕하세요! 오늘은 Meta에서 공개한 새로운 음성 모델, Spirit LM에 대해 알아보겠습니다. Meta Spirit LM은 음성과 텍스트를 결합하여 새로운 방식으로 언어를 처리하는 모델로, 기존 텍스트 언어 모델을 기반으로 음성 모달리티로 확장되었으며, 단순한 의미 이해부터 감정 표현이 풍부한 음성 생성까지 다양한 작업을 처리할 수 있습니다. 이를 통해 ASR(Automatic Speech Recognition), TTS(Text-to-Speech), 음성 분류 등의 분야에서 활용가능한 잠재력을 보여줍니다. 이 블로그에서는 Spirit LM의 개요, 특징 및 주요 기능, 벤치마크 결과에 대해 알아보고, 실제 성능을 테스트해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액.. 2024. 10. 23.
🏆NVIDIA Llama-3.1-nemotron-70B: GPT-4o를 뛰어넘은 오픈소스 모델 안녕하세요! 오늘은 NVIDIA가 개발한 대규모 언어 모델(LLM), Llama-3.1-nemotron-70b-instruct 모델에 대해 알아보겠습니다. Llama-3.1-nemotron-70b-instruct는 2024년 10월 1일 기준 Arena Hard, AlpacaEval 2 LC, MT Bench (GPT-4-Turbo)와 같은 벤치마크에서 모두 1위를 차지하며 GPT-4o, Claude 3.5 Sonnet과 같은 강력한 모델들을 능가하는 성능을 보여줍니다. Llama-3.1-nemotron-70b-instruct는 사용자의 질문에 대해 더욱 도움이 되고, 정확하며, 일관성 있는 답변을 생성하도록 훈련되어, "How many r in strawberry?"와 같은 질문에도 특별한 프롬프트 없.. 2024. 10. 20.
🤖Swarm 설치 및 활용 가이드: OpenAI의 혁신적 멀티 에이전트 프레임워크 안녕하세요! 오늘은 OpenAI가 최근 공개한 멀티 에이전트 시스템을 위한 실험적 프레임워크, Swarm에 대해 알아보겠습니다. Swarm은 루틴(Routines), 핸드오프(Handoffs)라는 핵심 개념을 통해 에이전트 간의 조정과 실행을 간소화함으로써, 시스템을 더 쉽게 제어하고 테스트할 수 있게 해 주며, 여러 에이전트가 지침과 도구를 주고받으면서 대화를 통해 작업을 처리할 수 있고, 특히 많은 독립적인 기능이나 다중 프롬프트 명령을 다루는 데 적합합니다. 이 블로그에서는 Swarm의 개요, 주요 기능, 설치 방법, 그리고 활용예제 테스트까지 함께 살펴보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Swarm 개요Swarm은 여러 에이전트의 조정.. 2024. 10. 17.
🌟Aria: 최신 오픈소스 멀티모달 네이티브 MoE 모델 안녕하세요! 오늘은 Aria라는 오픈소스 멀티모달 네이티브 Mixture-of-Experts (MoE) 모델에 대해서 알아보겠습니다. Aria는 Rhymes AI가 개발한 모델로 텍스트, 이미지, 비디오, 코드를 포함한 다양한 형태의 데이터를 단일 모델로 처리하고 이해할 수 있습니다. Aria는 멀티모달 네이티브 이해, 긴 컨텍스트 윈도우, 빠른 처리 속도와 뛰어난 명령어 따르기 능력, 오픈소스 및 개발자 친화적인 환경을 통해 다양한 멀티모달 작업에서 잠재력을 가진 강력한 AI 모델입니다. 이 블로그에서는 Aria의 개요, 특징, 주요기능, 벤치마크 결과에 대해 알아보고, 실제성능을 테스트해 보겠습니다. https://rhymes.ai/ https://rhymes.ai/We're building the .. 2024. 10. 14.
💻Project IDX: 구글의 차세대 웹 기반 통합 개발 환경 안녕하세요! 오늘은 다양한 기술 스택과 툴을 효율적으로 관리할 수 있도록 도와주는 구글이 개발한 웹 기반 통합 개발 환경(IDE), Project IDX에 대해 알아보겠습니다. Project IDX는 브라우저에서 바로 실행되며, Google Cloud 상의 안전한 가상 머신(VM)을 활용해 모든 작업을 처리할 수 있습니다. 이를 통해 개발자는 추가적인 설정 없이도 다양한 애플리케이션을 신속하게 빌드하고 배포할 수 있습니다. 이 블로그에서는 Project IDX 개요, 주요 기능, 설치방법에 대해 알아보겠습니다.https://idx.dev/ Project IDXProject IDX is an entirely web-based workspace for full-stack application developm.. 2024. 10. 11.
📄Open NotebookLM: 무료로 PDF 문서를 팟캐스트로 만들어보세요!🎧 안녕하세요! 👋 오늘은 PDF 파일을 팟캐스트로 변신시켜 주는 또 하나의 도구, Open NotebookLM에 대해 알아보겠습니다. 저번주에는 OpenAI의 유료 언어모델을 사용하는 도구 PDF2AUDIO를 소개해드렸는데요, Open NotebookLM은 강력한 무료 오픈 소스 LLM(Large Language Model)인 Llama 3.1 405B 모델과 TTS 텍스트 음성 변환 기술을 통해 누구나 손쉽게 팟캐스트를 제작할 수 있도록 지원합니다.  이 블로그에서는 복잡한 설정이나 전문 지식 없이도 간편하게 사용할 수 있는 Open NotebookLM의 주요 기능과 작동 원리, 설치 방법, 실제 활용 예시까지 살펴보겠습니다. 🚀"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료.. 2024. 10. 8.
🚀Flux 1.1 Pro: 6배 더 빨라진 고품질 이미지 생성 모델🎨 안녕하세요! 오늘은 Black Forest Labs에서 발표한 최신 이미지 생성 모델인 Flux 1.1 Pro에 대해 알아보겠습니다. Flux 1.1 Pro는 이전 버전인 Flux 1.0 Pro보다 6배 더 빠른 속도를 자랑하며, 이미지 품질, 프롬프트 준수, 그리고 다양한 스타일과 장면을 처리하는 능력이 크게 향상되었습니다. 특히 이번에는 BFL API와 통합되어, 개발자와 기업들이 Flux의 뛰어난 기능을 애플리케이션에 쉽게 적용할 수 있습니다. 이 블로그에서는 Flux 1.1 Pro의 개요, 주요 특징 및 기능, 그리고 사용방법 등에 대해 살펴보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Flux 1.1 Pro 개요 및 특징Flux 1.1 Pr.. 2024. 10. 7.
🎬Movie Gen: 메타의 차세대 미디어 생성 AI 모델🤖 안녕하세요! 오늘은 메타가 어제 공개한 차세대 미디어 생성 AI 모델, Movie Gen에 대해서 알아보겠습니다. Movie Gen은 텍스트, 이미지, 비디오 및 오디오 입력을 기반으로 최대 1080p 해상도의 비디오와 자연스러운 오디오를 생성하며, 개인화 및 편집 기능을 지원합니다. 벤치마크에서 기존 모델들을 능가하는 성능을 보여, 특히 움직임의 자연스러움과 사실성, 사운드 효과에서 높은 평가를 받았습니다. 이 블로그에서는 Movie Gen의 개요, 주요 기능, 동작원리 및 벤치마크 결과에 대해 알아보겠습니다. https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/ How Meta Movie Gen could ush.. 2024. 10. 5.
🌐웹 크롤링과 AI의 융합, Crawl4AI로 웹 페이지 요약기 만들기 안녕하세요! 오늘은 복잡한 웹 크롤링 작업을 쉽게 처리할 수 있도록 해주는 무료 오픈소스 도구, Crawl4AI에 대해 알아보겠습니다. Crawl4AI는 여러 페이지를 동시에 요청하고 처리하는 비동기 웹 크롤링과 데이터 추출 기능을 제공하며, 대규모 언어 모델에 친화적인 데이터 출력 형식을 지원해, 누구나 쉽게 웹 데이터를 수집하고 활용할 수 있도록 도와줌으로써 AI 기반 프로젝트에서 데이터를 효율적으로 관리할 수 있게 해 줍니다. 이 블로그에서는 Crawl4AI 개요, 특징 및 주요 기능, 설치방법에 대해 알아보고 웹 브라우저의 사이드바에 간단한 웹 페이지 요약기를 만들어보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Crawl4AI 개요Crawl4A.. 2024. 10. 5.
🤩 PDF 문서가 지루하다면? PDF2AUDIO로 한국어 팟캐스트를 쉽게 만들어보세요!🎧 안녕하세요! 오늘은 PDF 파일을 흥미진진한 팟캐스트로 변신시켜 줄 PDF2AUDIO라는 도구에 대해 알아보겠습니다. 🪄 구글의 NotebookLM과 유사한 기능을 오픈소스로 구현한 PDF2AUDIO는 OpenAI의 강력한 언어 모델과 텍스트 음성 변환 기술을 통해 누구나 손쉽게 전문가 수준의 팟캐스트를 제작할 수 있도록 지원합니다. 이 블로그에서는 복잡한 설정이나 전문 지식 없이도 간편하게 사용할 수 있는 PDF2AUDIO의 주요 기능과 작동 원리, 설치 방법을 알아보고 한국어 팟캐스트를 만들어보겠습니다. 🚀 "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."PDF2AUDIO 개요PDF2AUDIO는 PDF 파일을 오디오 콘텐츠.. 2024. 10. 3.
👁️🤖Llama 3.2: 에지 컴퓨팅과 비전까지 확장한 Meta의 AI 모델 안녕하세요! 오늘은 Meta에서 공개한 최신 오픈소스 대규모 언어 모델(LLM)인 Llama 3.2에 대해 알아보겠습니다. Llama 3.2는 이전 3.1 버전보다 향상된 성능을 보여주며, 특히 에지(Edge) 컴퓨팅 및 비전 분야에서 큰 혁신을 일으키고 있습니다. 이 모델은 텍스트 생성부터 이미지 추론에 이르기까지 다양한 작업을 수행할 수 있으며, 경량화된 모델을 통해 Edge 기기에서도 효율적으로 사용할 수 있다는 점이 주목할 만합니다. 이번 블로그에서는 Llama 3.2의 주요 특징과 모델 종류, 벤치마크 결과, 그리고 다양한 테스트를 통해 그 성능을 분석해 보도록 하겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Llama 3.2 개요 및 특징L.. 2024. 9. 28.
🚀Qwen2.5: 오픈소스 모델 최고 성능! MMLU 86.1% HumanEval 88.4% 달성! 안녕하세요! 오늘은 중국 알리바바 클라우드에서 개발한 최신 오픈소스 인공지능 모델 Qwen2.5에 대해 알아보겠습니다. Qwen2.5는 대화 응대, 자연어 처리, 그리고 코딩 능력에서 뛰어난 성능을 자랑하는 다목적 AI 모델로, 향상된 자연어 처리 능력과 멀티태스크 학습 성능으로 복잡한 질문이나 추론을 더욱 정확하고 신속하게 처리하며, 코딩 문제 해결에서도 고도의 알고리즘 추론 능력을 발휘합니다. 또한, 효율적인 메모리 관리로 더 적은 자원으로도 복잡한 작업을 수행할 수 있습니다. 이  블로그에서는 Qwen2.5의 주요 기능과 성능, 벤치마크 결과를 살펴보고, 코딩 및 추론 테스트를 해보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Qwen2.5 개요.. 2024. 9. 26.
🧠GRIN MoE: 6.6B 활성 파라미터로 GPT-4o를 뒤쫓는 코딩 천재 모델 안녕하세요! 오늘은 마이크로소프트에서 개발한 GRIN MoE라는 모델에 대해 알아보겠습니다. GRIN MoE(GRadient-IN formed Mixture-of-Experts, 기울기 정보 기반 전문가 혼합) 모델은 SparseMixer-v2라는 새로운 기법을 활용해 모델을 효율적으로 훈련시킵니다. 이 모델은 6.6B 활성 파라미터만으로 모든 파라미터를 항상 사용하는 14B 모델과 비슷한 성능을 달성했으며, GPT-4o를 능가하는 지표도 기록하였습니다.  이는 선택적 전문가 활성화를 통해 모델 효율성을 크게 향상시켰음을 보여줍니다. 이 블로그에서는 GRIN MoE 모델의 개요, 특징, 주요 기능을 알아보고 성능 테스트를 해보겠습니다. https://www.aitimes.com/news/articleVi.. 2024. 9. 23.
💡NotebookLM: 구글의 최신 AI 연구 어시스턴트 리뷰 안녕하세요! 오늘은 Google의 최신 AI 연구 어시스턴트인 NotebookLM에 대해 알아보겠습니다. NotebookLM은 프로젝트와 관련된 문서를 업로드하면, 그 즉시 해당 내용을 분석하고 전문적인 도움을 제공하는 AI 도구입니다. 문서요약은 물론, 학습가이드, 목차, 브리핑과 같은 AI 자동생성 지원 기능과, 오디오 개요, 추천 질문 등 특히 연구나 창작 작업에서 효율성을 극대화할 수 있는 기능들이 탑재되어 있습니다. 이 블로그에서는 NotebookLM의 개요, 주요 기능에 대해 알아보고 사용방법과 테스트 결과에 대해 살펴보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."NotebookLM 개요 NotebookLM은 Google의 Gemini 1... 2024. 9. 20.
🖼️Pixtral 12B: 추론과 코딩에 강한 Mistral AI의 첫번째 멀티모달 모델 안녕하세요! 오늘은 Mistral AI의 첫 번째 멀티모달 모델, Pixtral 12B에 대해 알아보겠습니다. Pixtral 12B는 텍스트와 이미지를 동시에 이해하는 모델로, 128k 토큰의 긴 컨텍스트 윈도우를 지원하며 임의 해상도의 이미지를 처리할 수 있습니다. 또한, 다양한 벤치마크에서 경쟁 모델을 능가하며, 특히 지식, 추론, 질문 응답 분야에서 우수한 성과를 보이면서, Apache 2.0 라이센스 하에 공개되어 자유롭게 사용할 수 있습니다. 이 블로그에서는 Pixtral 12B의 특징과 벤치마크 결과에 대해 알아보고 이미지 처리 성능을 테스트해 보겠습니다.https://huggingface.co/mistral-community/pixtral-12b-240910 mistral-community/.. 2024. 9. 18.
🌟업스테이지 Solar Pro Preview 분석: 단일 GPU 최강 AI 모델 안녕하세요! 오늘은 우리나라 AI 스타트업 Upstage의 최신 모델 Solar Pro Preview 모델에 대해 알아보겠습니다. 작년 말 허깅페이스 오픈소스 LLM 리더보드 1위를 차지했던 Solar의 업그레이드 모델인 Solar Pro Preview모델은 단일 GPU에서도 뛰어난 성능을 발휘하도록 설계된 대형 언어 모델(LLM)로, Depth Up-Scaling(DUS)과 고급 데이터 처리를 통해 자원 사용을 최적화하며 성능을 극대화하고, 양자화(Quantization) 기법으로 다양한 GPU 아키텍처에서 사용 가능합니다. 또한, Solar Pro Preview모델은 벤치마크에서 대부분 상위권 성능을 기록해 높은 효율성과 다양한 작업에서의 성능을 입증했습니다. 이 블로그에서는 Solar Pro Pre.. 2024. 9. 16.
🤖DeepSeek V2.5: 대화와 코딩 능력을 하나로 통합한 차세대 AI 모델 안녕하세요! 오늘은 일반 대화 능력과 코딩 작업을 통합한 DeepSeek-AI의 최신 모델 DeepSeek V2.5 모델에 대해 알아보겠습니다. DeepSeek V2.5는 이전 모델인 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct의 강점을 결합한 인공지능 모델로, 일반 대화 능력과 코딩 능력을 동시에 강화한 것이 특징입니다. 다양한 벤치마크에서 향상된 성능을 보이며, 특히 Python과 C++ 같은 언어의 코딩 문제에서 높은 정확도를 기록하고 있습니다. 이 블로그에서는 DeepSeek V2.5의 개요, 특징 및 주요 기능, 벤치마크 결과에 대해 알아보고 코딩 및 수학 및 추론성능을 테스트해 보겠습니다. https://huggingface.co/deepseek-ai/Dee.. 2024. 9. 11.
🌋LLaVA-OneVision: GPT-4o 대체할 오픈소스 비디오·다중 이미지 분석 모델 안녕하세요! 오늘은 최신 오픈소스 멀티모달 모델인 LLaVA-OneVision에 대해 알아보겠습니다. 이 모델은 단일 이미지, 다중 이미지, 그리고 비디오 시나리오에서도 우수한 성능을 발휘하는 최초의 오픈소스 모델로, 멀티모달 AI 중에서도 주목받고 있습니다. 특히, 이미지 기반 전이 학습을 통해 비디오 처리까지 가능하다는 점이 큰 장점입니다. 또한, 여러 벤치마크에서 GPT-4V 및 GPT-4o 같은 상용 모델들과 비교해도 매우 경쟁력 있는 성능을 보여주고 있습니다. 이번 블로그에서는 LLaVA-OneVision의 개요, 주요 특징, 벤치마크 성능을 살펴보고, 직접 테스트를 진행해 보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."LLaVA-OneVis.. 2024. 9. 8.
🔍OpenPerPlex: 🌐퍼플렉시티를 오픈소스로 구현한 AI 검색 엔진 안녕하세요! 오늘은 최신 기술을 활용하여 웹 검색 기능을 제공하는 오픈소스 AI 검색 엔진, OpenPerPlex를 소개해드리겠습니다. 퍼플렉시티로부터 영감을 받은 OpenPerPlex의 핵심 아이디어는 기존 검색 엔진에 인공지능 기술을 접목하여 더욱 정확하고 관련성 높은 검색 결과를 제공하는 것으로, 이를 위해 시맨틱 청킹, 결과 재순위화, Google 검색 통합 등 다양한 기술을 활용합니다. 이 블로그에서는 OpenPerPlex 개요, 특징 및 주요 기능, 설치 방법에 대해 알아보고 테스트해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."OpenPerPlex 개요 OpenPerPlex는 우리가 익히 잘 알고 있는 퍼플렉시티와 같이 웹 검색 기능을.. 2024. 9. 7.
📝Kotaemon: 논문 파악 5분! GraphRAG도 쉽게 하는 문서 Q&A 인터페이스 안녕하세요! 오늘은 Kotaemon이라는 문서와 대화할 수 있는 GraphRAG 인터페이스에 대해 알아보겠습니다. GraphRAG은 그래프 데이터 구조와 검색 기반 생성(RAG) 기술을 결합한 방식으로, 그래프 데이터에서 노드 간의 관계를 검색하고, 그 정보를 바탕으로 언어 모델이 정확한 답변을 생성하도록 하는 기술인데요, Kotaemon은 일반 사용자에게는 문서 기반 QA(질의응답)를 위한 간결하고 직관적인 UI 제공하고, 개발자에게는 RAG 파이프라인을 구축할 수 있는 프레임워크를 제공합니다. 이 블로그에서는 Kotaemon의 주요 기능, 설치방법에 대해 알아보고 RAG기능을 테스트해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Kotaemon.. 2024. 9. 6.
💻AI 코드 에디터 Cursor 사용법 & 고품질 웹페이지 10분 완성 가이드 안녕하세요! 오늘은 최근 가장 인기 있는 AI 코드 에디터, Cursor에 대해 알아보겠습니다. Cursor는 소프트웨어 개발 속도를 높이고 코드 작성 및 편집 과정을 도와주는 AI 기반의 코드 자동 완성 및 생성 도구입니다. 이 도구는 특히 여러 줄의 코드 편집을 자동으로 처리할 수 있어, 복잡한 코드 작업도 간단하고 빠르게 처리할 수 있도록 돕습니다. 또한, Cursor는 AI와의 채팅 기능을 통해 개발자와의 상호작용으로, 코드 작성, 디버깅, 코드 리뷰 등 여러 개발 작업에서 유용하게 활용될 수 있습니다. 이 블로그에서는 Cursor의 특징과 주요 기능 및 사용방법을 알아보고 테스트 웹페이지를 만들어 보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다... 2024. 9. 4.
Qwen2-VL: 👁️알리바바의 오픈소스 비전 언어모델 안녕하세요! 오늘은 알리바바 클라우드 AI 연구소가 개발한 오픈소스 비전 언어모델, Qwen2-VL(Vision Language)에 대해서 알아보겠습니다. Qwen2-VL은 기존 Qwen-VL 모델의 후속작으로, Qwen2 대규모 언어모델을 기반으로 시각적 이해 능력을 갖춘 모델입니다. 특히 이 모델은 이미지뿐 아니라 영상 처리 능력까지 갖추고 있으며, 여러 언어의 텍스트를 인식합니다. 이 블로그에서는 Qwen2-VL의 개요 및 특징과 아키텍처에 대해 알아보고 비전 기능을 테스트해 보겠습니다.https://qwenlm.github.io/blog/qwen2-vl/ Qwen2-VL: To See the World More ClearlyDEMO GITHUB HUGGING FACE MODELSCOPE API D.. 2024. 9. 3.
⚡Cerebras: 🌐세계에서 가장 빠른 AI 추론 솔루션, NVIDIA H100의 20배 성능! 🚀 안녕하세요! 오늘은 현존하는 가장 빠른 AI 추론 솔루션, Cerebras에 대해 알아보겠습니다. Cerebras Inference는 Llama3.1 8B 모델에 대해 초당 1,800 토큰을 생성하며, 이는 NVIDIA GPU 기반의 대규모 하이퍼스케일 클라우드보다 20배 빠른 속도입니다. Cerebras의 Wafer Scale Engine(WSE) 기술은 하나의 웨이퍼(반도체 기판) 전체를 단일 칩으로 사용하여 90만 개의 AI 코어를 가지며, 총 21 페타바이트/초의 집계 메모리 대역폭으로 계산 능력을 극대화합니다. 이 블로그에서는 Cerebras의 개요, 특징 및 주요 기술에 대해 알아보고, 추론 속도를 테스트해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를.. 2024. 8. 31.
🎥CogVideoX: 최초의 오픈소스 비디오 생성 AI 안녕하세요! 오늘은 최초의 오픈소스 비디오 생성 AI, CogVideoX에 대해 알아보겠습니다. CogVideoX는 텍스트 프롬프트를 기반으로 최대 6초 길이, 720×480 해상도의 고품질 비디오를 생성하는 AI 모델로, 3D VAE 구조를 사용하여 비디오 데이터를 효율적으로 압축하고, 전문가 트랜스포머로 각 모달리티의 특징을 효과적으로 결합하며, 3D Full Attention을 통해 공간적 및 시간적 차원을 모두 고려해서 전체적인 맥락에 맞는 비디오를 생성합니다. 이 블로그에서는 CogVideoX의 개요, 특징 및 아키텍처, 설치방법에 대해 살펴보고 직접 비디오 생성 테스트를 해 보겠습니다.  https://www.aitimes.com/news/articleView.html?idxno=162895 .. 2024. 8. 30.
🤖마이크로소프트 Phi-3.5 시리즈: 소형 MoE 모델의 혁신 안녕하세요! 오늘은 마이크로소프트의 최신 모델 Phi-3.5 시리즈에 대해 알아보겠습니다. Phi-3.5는 세 가지 다른 버전(MoE-instruct, Mini-instruct, Vision-instruct)으로 출시되었으며, 이전 버전인 Phi-3 모델과 비교해서 MoE(Mixture of Experts) 아키텍처 도입, 다국어 능력 향상, 멀티모달 능력 추가 등을 통해 더 적은 자원을 사용하면서도 높은 성능을 유지하고, 다양한 작업에서 더 높은 효율성을 발휘합니다. 이 블로그에서는 Phi-3.5 개요, 특징 및 주요 기능, 성능평가 결과에 대해 알아보고, Phi-3.5- MoE-instruct의 코딩 및 추론성능을 실제로 테스트해 보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른.. 2024. 8. 24.
⚡Hermes 3: Llama 3.1을 넘어선 최첨단 오픈 소스 언어 모델의 등장 안녕하세요! 오늘은 Nous Research에서 개발한 최신 오픈 소스 대규모 언어 모델 Hermes 3에 대해 알아보겠습니다. Hermes 3는 AGIEval(일반 인공지능 평가 능력), ARC-C(상식적 추론 능력), ARC-E(과학적 추론 능력), Hellaswag(상황 예측 능력), TruthfulQA(사실 기반 응답 능력) 등의 평가지표에서 메타의 Llama 3.1 모델보다 우수한 성능을 보이며, 유연한 페르소나 적용, 구조화된 출력, 단계별 추론 및 계획, Mermaid 다이어그램 표현 등 다양한 고급기능을 갖추고 있습니다. 이 블로그에서는 Hermes 3의 특징 및 주요 기능, 성능평가 결과를 살펴보고, 코딩 및 추론성능 테스트와 비주얼 스튜디오 코드 Co-pilot 설정방법에 대해 알아보겠.. 2024. 8. 21.
728x90