본문 바로가기
반응형

AI 언어 모델71

Phi-3: 마이크로소프트의 작지만 강한 소형 언어 모델, 고난도 스네이크 게임 성공!! 안녕하세요! 오늘은 마이크로소프트의 최신 언어 모델 Phi-3에 대해서 알아보겠습니다. 이번에 먼저 공개된 Phi-3 mini 모델은 3.8B(38억) 개의  매개변수를 가진 소형 언어 모델(SLMs)이며, 동등한 수준의 언어 모델에 비해 성능이 뛰어나고 비용 효율적인 모델로, 다양한 벤치마크에서 우수한 결과를 나타내고, 아이폰 14에서도 별도의 변환과정 없이 구동된다고 합니다. 이 블로그에서는 Phi-3의 기술리포트를 통해 모델의 기술적 사양, 벤치마크 결과에 대해 살펴보고, 추론 및 코딩 테스트를 진행해 보겠습니다."이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."Phi-3 기술적 사양Phi-3-mini는 38억 개의 매개변수를 가진 언어 모델로, 3.3조 개의.. 2024. 4. 25.
[Llama 3 70B] Groq을 활용한 함수 호출 및 API 통합! NBA 게임 및 주식 정보 실시간 조회 안녕하세요! 이번주 가장 핫한 대형 언어 모델은 Llama3인데요. 오늘은 Groq을 활용해서 Llama 3 함수 호출 및 API 통합을 해보겠습니다. 이 프로그램은 사용자가 Gradio 웹 인터페이스를 통해 NBA 게임결과나 주식가격을 질문을 입력하면, Groq은 사용자 질문에 맞는 API와 함수를 호출하고, 그 실행 결과를 Llama 3에게 전달하며, Llama 3는 실행결과를 해석하여 입력된 질문에 맞는 대답을 출력합니다. 자, 시작해 볼까요? "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 프로그램 개요 이 프로그램은 사용자가 임의로 저장한 NBA 게임 결과와 야후 파이낸스의 실시간 주식 가격의 조회가 가능한데요. 사용자의 질문에 따라 자동으로 Flask.. 2024. 4. 21.
Llama 3: 추론 테스트 및 스네이크 게임 코딩, 에러 없이 한번에 성공! 안녕하세요! 오늘은 메타의 최신 대형 언어 모델 Llama 3에 대해서 알아보겠습니다. Llama 3은 8B(80억 개)와 70B(700억 개)의 학습 가능한 매개변수를 가진 두 종류의 모델을 발표하였는데요, 입력 컨텍스트의 최대 길이는 8,000 토큰이며 2023년 3월(사전 훈련 모델)과 12월(명령어 조정 모델)까지의 지식 데이터로 구축되었다고 합니다. 특히 훈련에 사용된 데이터는 15조 개 이상으로 Llama 2보다 7배 크고, 코드 양은 4배 더 많으며, MMLU, GPQA, GSM-8K 및 MATH와 같은 대부분의 벤치마크에서 제미나이 1.5 프로와 클라우드 3 Sonnet을 제치고 가장 우수한 결과를 나타내었습니다. 이 블로그에서는 Llama 3의 개요, 특징, 벤치마크 결과에 대해 살펴보고.. 2024. 4. 19.
야놀자 한국어 언어 모델 EEVE와 Ollama로 구현하는 로컬 RAG 안녕하세요! 오늘은 한국어 언어 모델 EEVE를 활용해서 로컬 RAG을 구현해 보겠습니다. RAG(Retrieval-Augmented Generation, 검색 강화 생성)는 외부 지식소스 검색을 통해 정보를 얻고, 이를 바탕으로 답변을 생성함으로써, 언어모델이 환각현상이나 부정확한 답변을 하지 않도록 보장하는 기술인데요, 이 블로그에서는 우수한 성능으로 올해의 한국어 언어 모델에 선정된 야놀자의 EEVE와 LLM 관리도구인 Ollama를 이용해서 영어 문서와 한국어로 대화하는 로컬 RAG를 구현하는 예제를 살펴보겠습니다. "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." 프로그램 개요 오늘 알아볼 예제 코드는 대화상자를 통해 입력한 pdf 문서를 텍스트로 변환한.. 2024. 4. 17.
[AI 논문] 올해의 한국어 LLM에 선정된 야놀자 언어 모델, EEVE 안녕하세요! 오늘은 최근 "올해의 한국어 LLM"으로 선정된 야놀자의 대형 언어 모델, EEVE에 대해 살펴보겠습니다. EEVE모델은 Efficient and Effective Vocabulary Expansion의 약자로, 효율적이고 효과적인 어휘 확장을 위한 파라미터 동결, 서브워드 기반 임베딩 초기화, 다단계 학습과 같은 접근방법을 통해 기존의 영어 언어 모델을 한국어 모델로 확장하고 새로운 언어 토큰을 통합한 모델입니다. 야놀자는 EEVE 언어 모델을 통해 사용자의 후기를 요약하고 인사이트를 얻기 위해 도입하였다고 하는데요, 이 블로그에서는 논문을 통해 EEVE 모델의 개요, 어휘 확장 방법, 학습과정, 성능평가 결과에 대해 알아보고, Ollama UI, LM Studio를 활용해서 EEVE 모델.. 2024. 4. 13.
Dolphin 2.8: 무엇이든 대답하는 무검열 Mistral 최신 모델과 오프라인 대화(크롬 브라우저 Ollama UI) 안녕하세요! 오늘은 Mistral AI의 최신 대규모 언어 모델 Mistral 7B v0.2를 기반으로 미세조정하여 만들어진 Dolphin 2.8 모델을 크롬 브라우저에서 만나보겠습니다. Dolphin 2.8은 2024년 3월 23일에 MistralAI가 발표한 Mistral 7B v0.2를 기반으로 하여 개발되었으며, 텍스트를 처리할 때 고려하는 문맥의 크기는 32k 컨텍스트로서 다양한 명령, 대화 및 코딩 기능을 제공합니다. 이 모델은 검열되지 않았으며, 정렬 및 편견을 제거하기 위해 학습 데이터셋을 필터링하여, 보다 중립적이고 공정한 방식으로 조정했다고 합니다. 이 블로그에서는 크롬 브라우저의 Ollama UI 확장기능을 통해 Dolphin 2.8 언어모델과 오프라인으로 대화해 보겠습니다. http.. 2024. 4. 10.
반응형