안녕하세요! 오늘은 최근 Anthropic에서 개발한 Claude Computer Use에 대해 알아보겠습니다. Claude Computer Use는 Anthropic의 최첨단 AI 모델 Claude 3.5 Sonnet에 탑재된 혁신적인 기능으로, AI가 컴퓨터를 사람처럼 사용할 수 있도록 합니다. 이는 마치 우리가 컴퓨터를 사용하듯 AI가 화면을 보고, 마우스 커서를 움직여 버튼을 클릭하고, 키보드로 텍스트를 입력하는 등 컴퓨터와 자유롭게 상호작용할 수 있는 기능입니다. 이 블로그에서는 Claude Computer Use의 개요, 특징과 주요 기능, 설치방법을 알아보고, 테스트를 해보겠습니다.
https://www.anthropic.com/news/3-5-models-and-computer-use
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
Claude Computer Use 개요
Claude Computer Use는 Anthropic에서 개발한 최첨단 AI 모델인 Claude 3.5 Sonnet에 새롭게 도입된 기능으로, 컴퓨터를 사람처럼 사용할 수 있도록 하는 혁신적인 기술입니다. Claude 3.5 Sonnet은 이 기능을 통해 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 등 컴퓨터와 상호 작용할 수 있습니다.
위 화면은 Claude Computer Use 데모의 초기화면으로 좌측에는 사용자와 Claude의 대화가 표시되고, 오른쪽에는 가상컴퓨터 화면이 배치되어 있습니다. 가상컴퓨터의 운영체제는 Linux 커널 5.15.146.1 버전이며, 우측 하단에는 LibreOffice Calc(스프레드 시트), 터미널, 파이어폭스, PDF 뷰어, 계산기 등의 바로가기가 있습니다.
Claude Computer Use 주요 기능
Claude Computer Use는 기존의 AI 도구와 달리 특정 작업을 위한 특정 도구를 만드는 대신, 사람이 사용하도록 설계된 다양한 표준 도구 및 소프트웨어 프로그램을 사용할 수 있는 일반적인 컴퓨터 기술을 Claude가 실행하는 데 중점을 둡니다. 개발자는 이 기능을 사용하여 반복적인 프로세스를 자동화하고, 소프트웨어를 빌드 및 테스트하고, 연구와 같은 개방형 작업을 수행할 수 있습니다.
주요 기능:
- 화면 인식 및 제어: Claude는 API를 통해 컴퓨터 화면을 인식하고 마우스와 키보드를 제어하여 다양한 작업을 수행할 수 있습니다. 이번에 공개된 데모 앱은 Linux 운영체제를 제어합니다.
- 명령어의 컴퓨터 명령어로 변환: "내 컴퓨터에 있는 데이터를 사용해서 이 양식을 채워줘"와 같은 사용자의 명령을 스프레드시트를 열고, 웹 브라우저를 실행하여 특정 웹사이트에 접속한 후, 해당 웹 페이지에서 필요한 정보를 추출하여 양식을 채우는 등의 컴퓨터 명령어로 변환하여 실행합니다.
- 다양한 도구 및 소프트웨어 활용: 사람들이 사용하는 다양한 컴퓨터 도구 및 소프트웨어를 Claude가 직접 사용할 수 있도록 지원합니다. 예를 들어, 텍스트 편집기, 웹 브라우저, 스프레드시트 프로그램 등을 활용할 수 있습니다
Claude Computer Use 기능이 작동하는 순서는 다음과 같습니다.
- 컴퓨터 사용 도구 및 사용자 프롬프트 제공: API 요청에 Anthropic에서 정의한 컴퓨터 사용 도구를 추가하고, 이러한 도구가 필요한 사용자 프롬프트(예: "내 바탕 화면에 고양이 사진을 저장해 줘")를 포함합니다.
- Claude의 도구 사용 결정: Claude는 저장된 컴퓨터 사용 도구 정의를 로드하고 사용자 쿼리에 도움이 될 수 있는 도구를 평가합니다. 도움이 되는 도구가 있는 경우 Claude는 적절하게 형식이 지정된 도구 사용 요청을 생성합니다.
- 도구 입력 추출, 컴퓨터에서 도구 평가 및 결과 반환: 사용자 측에서는 Claude의 요청에서 도구 이름과 입력을 추출합니다. 컨테이너 또는 가상 머신에서 도구를 사용합니다.
- 작업 완료까지 Claude의 컴퓨터 사용 도구 호출: Claude는 가상컴퓨터의 스크린샷을 통해 화면 도구 결과를 분석하여 더 많은 도구 사용이 필요한지 또는 작업이 완료되었는지 확인합니다. Claude가 다른 도구가 필요하다고 결정하면 3단계로 돌아가고, 그렇지 않으면 사용자에 대한 텍스트 응답을 작성합니다.
Claude Computer Use 설치 방법
Claude Computer Use를 사용하려면 Anthropic API를 통해 접근할 수 있습니다. 또한 Amazon Bedrock 및 Google Cloud의 Vertex AI 플랫폼에서도 사용할 수 있습니다. 이 블로그의 설치 환경은 Windows 11 Pro, WSL2, 파이썬 3.11이며, 설치 순서는 다음과 같습니다.
1. 먼저 아래 링크에서 Docker 데스크탑을 설치합니다.
https://www.docker.com/products/docker-desktop/
2. 설치가 완료되면 Docker 초기화면 우측 하단에 있는 Terminal을 클릭해서 터미널 창을 엽니다.
3. 아래 명령어를 복사해서 터미널에 붙여 넣고 Claude Computer Use를 실행합니다.
docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY -v $HOME/.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
4. Claude Computer Use가 시작되면 http://localhost:8080을 클릭합니다.
5. 좌측 상단 < 화살표를 클릭하고 사이드 패널에서 Anthropic API Key를 입력합니다. Anthropic API Key는 아래 링크에서 발급받을 수 있습니다.
https://console.anthropic.com/settings/keys
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
Claude Computer Use 테스트
다음은 Claude Computer Use를 테스트해 보겠습니다. 설치가 완료되면 좌측 화면의 사용자 프롬프트에 Claude가 실행할 작업내용을 입력하면 됩니다. 먼저 Claude가 한국어로 대답하도록 좌측 사이드 패널 Custom System Prompt Suffix에 "Answer in Korean"을 입력합니다.
1. 스프레드 시트 양식 자동 채우기
첫 번째 테스트는 다음 주 서울 날씨를 검색해서 최저, 최고온도와 날씨를 화면에 보이는 스프레드 시트의 양식에 맞게 채우는 테스트입니다. 먼저 중앙의 톱니바퀴 아이콘을 클릭하고, 가상 컴퓨터 "보기 전용" 모드를 체크 해제 한 후, 하단에서 스프레드 시트를 클릭해서 실행합니다.
스프레드 시트가 실행되면 아래와 같이 요일별 최저, 최고온도 및 날씨정보 양식을 작성해서 저장합니다.
다음은 사용자 프롬프트를 아래와 같이 입력합니다.
다음 주 서울 날씨를 검색해서 최저, 최고 기온과 날씨정보를 화면에 보이는 스프레드시트 양식에 채워줘
프롬프트를 입력하면 Claude는 스프레드 시트 양식을 확인하고, 파이어폭스 브라우저로 구글검색으로 날씨정보를 검색한 후, 화면을 캡처하고 자동으로 온도와 날씨를 시트에 입력합니다. 사용자는 프롬프트만 입력하고, 추가적인 개입이 없으며, 모든 동작은 자동으로 이루어집니다. 파이어폭스와 스프레드 시트(LibreOffice Calc) 한글 설정방법은 블로그 하단을 참고하셔서 설정하시면 한글이 정상적으로 표시됩니다.
아래 동영상을 보시면 Claude Computer Use의 스프레드 시트를 자동으로 채우는 동작을 확인하실 수 있습니다.
또한, 날씨정보를 검색한 가상컴퓨터의 화면을 캡처해서 아래와 같이 파일로 저장하도록 작업을 지시할 수 있습니다.
2. 주요 뉴스 검색 및 요약
다음 테스트는 주요 AI 뉴스를 검색하고 중요한 뉴스 5개만 선택하여 요약해 달라고 요청하였습니다.
Search for the major AI news this week and select only 5 important news and summarize them
최신 AI 뉴스 검색 및 요약명령을 실행하는 Claude Computer Use |
Claude Computer Use는 실행속도나 토큰의 제한이 있어서 복잡한 동작은 테스트해 볼 수 없었습니다.
파이어폭스와 스프레드 시트(LibreOffice Calc)의 한글 설정방법은 다음과 같습니다.
먼저, 중앙의 톱니바퀴 아이콘을 클릭한 후, "보기 전용"을 체크 해지 합니다. 그리고, 하단의 터미널 바로가기로 터미널을 실행하고, 다음 명령어를 입력하여 한글 폰트와 LibreOffice 한국어 언어 팩을 설치합니다.
sudo apt install fonts-nanum
sudo apt install libreoffice-l10n-ko
다음은 파이어 폭스 브라우저의 언어 설정을 열어서 한국어를 추가하고 설정합니다.
마찬가지로, LibreOffice Calc를 열어서 아래와 같이 메뉴와 문서에 한국어를 설정합니다.
위와 같이 설정하면 Claude Computer use 가상컴퓨터의 파이어폭스 브라우저와 LibreOffice Calc 스프레드 시트에서 한국어를 정상적으로 사용하실 수 있습니다.
Claude Computer use는 현재 공개 베타 단계이며, 아직은 실험적인 기술이기 때문에 오류가 발생할 수 있습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
맺음말
Claude Computer use는 AI 분야의 혁신적인 발전으로, 우리가 컴퓨터를 사용하는 방식을 근본적으로 바꿀 수 있는 잠재력을 가지고 있습니다. 아직은 초기 단계이지만, Claude Computer use를 통해 인간과 컴퓨터의 상호 작용 방식이 어떻게 변화할지 기대됩니다.
Claude Computer Use를 테스트해 본 후기는 다음과 같습니다.
- 단순한 동작도 여러 단계를 거치며, 동작속도가 느리다.
- Rate Limit로 속도와 토큰에 제한이 있다.
- 스프레드 시트 특정 좌표 클릭 및 텍스트입력에 실수가 있다.
오늘은 Anthropic의 새로운 컴퓨터 사용방식 Claude Computer Use에 대해 알아보았습니다. 앞으로는 AI에게 맡길 수 있는 작업이 늘어나면서, 인간은 더 많은 시간 다른 일을 하거나, 휴식할 수 있겠네요. 저는 그럼 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2024.03.07 - [AI 언어 모델] - 클로드(Claude) Sonnet을 이용한 고객리뷰 분류 및 요약 자동화
'AI 도구' 카테고리의 다른 글
🎧NotebookLlama: PDF를 팟캐스트로 변환하는 메타의 오픈소스 솔루션 (24) | 2024.11.05 |
---|---|
🤖n8n: 깃허브 48k 스타의 노코드 AI 에이전트 자동화 도구 설치 및 활용 가이드 (22) | 2024.11.02 |
🤖Swarm 설치 및 활용 가이드: OpenAI의 혁신적 멀티 에이전트 프레임워크 (38) | 2024.10.17 |
💻Project IDX: 구글의 차세대 웹 기반 통합 개발 환경 (20) | 2024.10.11 |
📄Open NotebookLM: 무료로 PDF 문서를 팟캐스트로 만들어보세요!🎧 (5) | 2024.10.08 |