Mobile ALOHA: 저렴한 전신 원격운전 양손 조작 학습 로봇

안녕하세요! 오늘은 저렴한 비용으로 전신(Whole-Body) 원격운전을 통해 인간의 복잡한 동작을 학습하여 스스로 양손 조작이 가능한 움직이는 로봇, Mobile ALOHA를 만나보겠습니다. 가사, 요리, 인간-로봇 상호작용 등 다양한 작업을 수행하는 Mobile ALOHA는 복잡한 동작도 학습을 통해 모방이 가능하며, 저렴한 하드웨어와 오픈소스 소프트웨어로 만들어졌습니다. 이 블로그를 통해 Mobile ALOHA의 설계 고려사항, 구성요소, 훈련방법, 수행작업, 실험결과, 향후전망에 대해서 확인하실 수 있습니다. 그럼 Mobile ALOHA를 만나러 가보실까요?

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문 개요 및 목적

논문 제목: Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
논문 저자: Zipeng Fu, Tony Z. Zhao, Chelsea Finn
논문 게재 사이트: https://arxiv.org/abs/2401.02117
논문 게재일: 2024년 1월

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation - 논문 발췌

이 논문은 저렴한 비용으로 전신 원격운전 양손 모바일 조작 시스템인 Mobile ALOHA를 소개하며, 복잡한 모바일 조작 작업을 20~50번의 데모를 통해 모방 학습하는 방법을 연구합니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문의 연구내용 및 결과

이 논문에서는 저렴한 비용의 전신 원격 조작 기술을 활용해서, 이동하면서 양손을 사용하여 가사, 요리, 인간-로봇 상호작용 등 다양한 작업을 수행하는 로봇인 Mobile ALOHA를 제시합니다.

Mobile ALOHA 설계 및 하드웨어 특징

Mobile ALOHA의 하드웨어는 비교적 저렴한 가격에 구성되어 있으며, 이는 저렴한 비용의 전신 원격 조작 시스템을 구현하기 위한 목적에 부합합니다. 다음은 Mobile ALOHA의 주요 하드웨어 설계에 있어서 중요한 네 가지 고려 사항입니다.

이동 가능성 (Mobile): Mobile ALOHA 시스템은 인간의 보행 속도와 유사한 속도로 이동할 수 있습니다. 이것은 로봇이 다양한 환경에서 빠르게 이동하면서 작업을 수행할 수 있음을 의미합니다. 로봇이 인간과 유사한 속도로 움직이는 능력은 다양한 작업 환경 및 장소에서의 실용성을 높입니다.
안정성 (Stable): Mobile ALOHA는 무거운 주거용 물건, 예를 들면 냄비나 캐비닛과 같은 물건을 조작할 때에도 안정성을 유지할 수 있습니다. 이는 로봇이 높은 안정성을 유지하면서 물체를 조작하고, 사용자 주변에서 안전하게 이동할 수 있음을 나타냅니다.
전신 원격 조작 (Whole-body teleoperation): Mobile ALOHA 시스템은 로봇의 모든 자유도(degree of freedom)를 동시에 원격으로 조작할 수 있습니다. 이는 양손과 이동 가능한 베이스를 포함한 로봇의 전체 부분을 실시간으로 조작할 수 있음을 의미합니다. 사용자가 로봇의 모든 부분을 통제할 수 있으므로 복잡한 작업을 유연하게 수행할 수 있습니다.
유선 해방 (Untethered): Mobile ALOHA는 외부 전원 및 컴퓨팅에 의존하지 않고 자체적으로 전원을 공급하고 계산을 수행할 수 있습니다. 이는 로봇이 외부 연결 없이 자율적으로 작업할 수 있음을 나타내며, 휴대 가능하며 독립적으로 활동할 수 있는 특징을 갖추고 있습니다.

다음은 논문에서 제시한 Mobile ALOHA의 하드웨어 구성요소에 대한 설명입니다.

모바일 베이스 (AgileX Tracer AGV): AgileX Tracer AGV는 창고 물류용으로 설계된 저프로파일, 이변 휠 모바일 베이스입니다. 이는 이동성을 위해 선택되었으며, 최대 1.6m/s의 속도로 이동할 수 있으며 평균 인간 보행 속도와 유사합니다. Tracer는 최대 100kg의 페이로드, 17mm의 낮은 높이를 가지고 있으며 10mm 높이의 장애물 및 8도의 경사를 적재한 상태에서 통과할 수 있습니다. 모바일 베이스는 로봇이 환경 내에서 이동하고 탐색할 수 있는 능력을 제공합니다.
로봇 팔 (ALOHA Arms): ALOHA 팔은 ALOHA 시스템의 일부이며 조작 작업에 사용됩니다. Mobile ALOHA의 맥락에서 이러한 팔은 앞으로 향하도록 구성되어 있으며, 팔이 내부로 향하는 원래 ALOHA 디자인과는 다릅니다. 로봇 팔은 로봇이 주변의 물체와 상호 작용하고 조작하는 데 사용됩니다.
카메라 시스템 (Logitech C922x RGB 웹캠): 시스템은 시야를 위해 Logitech C922x RGB 웹캠 세 개를 사용합니다. 이러한 카메라는 480x640의 해상도와 50Hz의 새로 고침 속도로 스트리밍 기능을 제공합니다. 이 중 두 개의 카메라는 팔로우 로봇의 손목에 장착되어 있고, 세 번째 카메라는 앞을 향합니다. 카메라 시스템은 로봇이 주변 환경을 인식하고 비전 기반 작업을 수행하는 데 도움을 줍니다.
전원 (1.26kWh 배터리): 모바일 조작기의 기저에는 1.26 kWh 배터리가 위치하며 이 배터리는 전원 공급원이자 넘어지지 않도록 하는 균형 재로 작용합니다. 전원 시스템은 시스템이 동작하는 데 필요한 에너지를 제공하며, 모바일 조작기가 연결되지 않고 자율적으로 실행될 수 있게 합니다.
컴퓨팅 (Nvidia 3070 Ti GPU, Intel i7-12800H): 데이터 수집 및 추론 중에 모든 계산은 Nvidia 3070 Ti GPU (8GB VRAM) 및 Intel i7-12800H가 장착된 소비자용 랩톱에서 수행됩니다. 컴퓨팅 시스템은 데이터 처리, 의사 결정 추론 및 로봇의 전반적인 제어를 관리합니다.

이러한 하드웨어 구성 요소는 함께 작동하여 Mobile ALOHA가 다양한 환경에서 양손으로 모바일 조작 작업을 수행할 수 있도록 하며, 비교적 저렴한 가격에도 높은 성능의 원격 조작 및 이동 기능을 제공합니다.

Mobile ALOHA 공동훈련

공동 훈련(co-training)은 두 가지 또는 그 이상의 다른 데이터 소스로부터 모델을 훈련하는 기술입니다. 논문에서는 Static ALOHA 데이터셋과 Mobile ALOHA 데이터셋을 활용하여 공동 훈련을 수행합니다. 여기서는 Mobile ALOHA 시스템이 다양한 환경에서 모방 학습을 통해 동작을 학습하는 과정에서, Static ALOHA 데이터셋을 활용하여 더 견고하고 일반화된 정책을 얻기 위해 공동 훈련을 수행했습니다.

Static ALOHA 데이터셋에는 Ziploc 닫기, 포크 집기, 사탕 포장, 종이 타월 찢기, 뚜껑이 있는 플라스틱 컵 열기, 탁구공 놀이, 테이프 공급, 커피 머신 사용, 연필 전달, 벨크로 케이블 고정, 배터리 홀에 삽입 및 나사 드라이버 전달과 같은 작업이 포함되어 있습니다. Mobile ALOHA 데이터셋에는 와인 닦기, 엘리베이터 호출, 캐비닛 사용, 하이 파이브, 팬 씻기, 의자 밀기 등이 포함되어 있습니다.

이처럼 공동훈련은 Static ALOHA 데이터셋에서 얻은 정보와 Mobile ALOHA 데이터셋에서 얻은 정보를 동시에 활용하여 학습하는 것이 특징입니다. 공동 훈련은 서로 다른 도메인에서 수집된 데이터셋을 활용하여 모델의 성능을 향상시키고 일반화 능력을 향상시키는 데 사용될 수 있으며, 특정 로봇 하드웨어나 환경에 종속되지 않고, 다양한 상황에서 안정적으로 작동하는 모델을 얻을 수 있도록 도와줍니다. 다음 표는 일반적인 로봇훈련 방식과 공동훈련 방식을 비교한 내용입니다.

특징	일반적인 로봇훈련 접근 방식	공동 훈련을 활용한 모방 학습
데이터 수집	특정 로봇 하드웨어 및 작업을 위해 새로운 데이터 수집이 필요	여러 로봇 및 작업 유형에서 수집된 다양한 데이터 활용
데이터 다양성	한정된 시각적 다양성으로 인한 견고성 부족	서로 다른 로봇 유형에 대한 다양한 시각적 환경에서 견고성 향상
시간 소요	데이터를 처음부터 수집해야 하므로 시간 소요가 큼	기존 데이터셋을 활용하므로 상대적으로 빠른 학습 가능
환경 변화 대응	특정 로봇 및 환경에서 학습된 정책은 다른 환경에서 불안정	다양한 환경에서 학습된 정책은 다양한 환경에서 안정적으로 작동
시각적 요동 대응	제한된 시각적 다양성으로 인한 미세한 시각적 변화에 민감	다양한 시각적 환경에서 학습되어 미세한 시각적 변화에 견고
결과	고유 로봇 및 작업에 특화된 정책	여러 로봇과 작업에 걸쳐 견고하고 일반적인 정책

Mobile ALOHA 수행작업

Mobile ALOHA 논문에서 언급된 작업(task) 섹션은 로봇이 수행하는 여러 동작과 활동을 포함하는 부분입니다. 다양한 작업을 통해 로봇 시스템이 모방 학습과 공동 훈련을 통해 다양한 동작을 학습하고 일반화할 수 있는 능력을 키우는 것이 주요 목표입니다. 다음은 Mobile ALOHA의 작업 동영상과 논문에 언급된 작업목록입니다.

Mobile ALOHA의 다양한 작업

Wipe Wine (와인 닦기): 로봇이 와인잔을 닦는 동작을 학습하도록 설계된 작업입니다. 와인잔을 어떻게 잡고, 어떻게 닦아야 하는지를 배우게 됩니다. 한 팔로 와인 잔을 들고 다른 팔은 수건으로 테이블과 잔의 바닥을 닦아야 합니다. 이 작업은 정적인 ALOHA에서는 불가능하며, 단일 팔을 가진 이동 로봇은 더 많은 시간이 소요니다.
Call Elevator (엘리베이터 호출): 로봇이 엘리베이터를 호출하고 이동하도록 하는 작업입니다. 엘리베이터 호출 및 이용 동작을 학습합니다. 엘리베이터 버튼은 크기가 2cm × 2cm로, 주변을 누르거나 너무 가볍게 누를 경우 엘리베이터를 활성화하지 않습니다. 로봇은 또한 엘리베이터 문에 정확하게 돌아가서 들어가야 합니다.
Use Cabinet (캐비닛 사용): 로봇이 캐비닛을 여는 동작 및 내부 물품을 사용하는 작업입니다. 특정 물체를 캐비닛에서 가져오고, 캐비닛을 닫는 등의 동작을 학습합니다. 실험에서 사용된 냄비 중 가장 무거운 것이 1.4kg로, 이는 단일 팔의 무게 제한인 750g을 초과하지만 두 로봇 팔을 결합하여 처리 가능한 범위 내에 있다는 것을 나타냅니다.
High Five (하이 파이브): 로봇이 사용자와 손을 통해 하이 파이브 하는 동작을 학습하는 작업입니다. 이 작업은 로봇의 인간과의 친밀한 상호 작용 능력을 강조하며, 로봇은 다가오는 사용자와 손을 통해 활발한 소통을 할 수 있습니다.
Rinse Pan (팬 씻기): 로봇이 조리용 팬을 씻는 동작을 학습합니다. 팬을 어떻게 들고, 어떻게 물을 사용하는지를 배우게 됩니다. 팬 씻기 작업은 로봇이 다양한 주방 활동을 수행할 수 있는 능력을 향상시키는 데 기여합니다.
Push Chairs (의자 밀기): 로봇이 의자를 움직이거나 밀어내는 동작을 학습하는 작업입니다. 다양한 위치에서 의자를 움직이는 것을 목표로 합니다. 의자 밀기는 로봇이 환경에서 물체를 효과적으로 조작하고 이동할 수 있는 기술적인 기술을 강화합니다.

이러한 작업들은 로봇 시스템이 다양한 환경에서 다양한 동작을 수행할 수 있도록 하는 데에 중점을 두고 있습니다. 이러한 작업을 통해 효과적인 공동 훈련 및 모방 학습을 수행하여 로봇이 다양한 상황에서 유연하게 동작할 수 있도록 학습합니다.

실험결과

논문에서는 7가지 작업에 대해 공동 훈련을 수행하고, 훈련된 정책을 실제 세계에서 평가했습니다. 랜덤화된 로봇 및 물체 설정으로 평가를 수행하여 각 하위 작업의 성공률을 계산했습니다. 공동 훈련을 통해 와인 닦기, 엘리베이터 호출, 캐비닛 용, 하이 파이브, 팬 씻기, 그리고 의자 밀기 작업에서 각각 95%, 95%, 85%, 85%, 80%, 그리고 80%의 성공률을 달성했습니다. 모든 작업에서 50회의 데모만 필요했거나 하이 파이브의 경우 20회만 필요했습니다. 공동훈련은 7가지 작업 중 5가지에서 전체 작업 성공률을 향상시켰으며, 나머지 2가지에서는 성공률이 비슷했습니다.

또한 Diffusion Policy와 VINN이라는 두 가지 최근의 모방 학습 방법을 ACT와 함께 Mobile ALOHA에서 훈련시켰습니다. 공동훈련은 Diffusion Policy의 성능을 향상시켰으며, VINN에 대해서는 혼합된 결과가 나타났습니다.

실험 결과, Mobile ALOHA가 다양한 모방 학습 방법과 함께 작동할 수 있으며, 공동 훈련을 통해 전반적인 작업 성능이 향상됨을 보여줍니다. 실제로 Mobile ALOHA는 다양한 작업에서 높은 성공률을 보였으며, 데모 횟수가 적은 상황에서도 효과적으로 작업을 수행하고, 특히 정확한 조작이 필요한 하위 작업에서는 향상된 정확성을 보여줍니다.

또한, 논문에서는 Mobile ALOHA를 제작하는데 드는 비용은 총 32,000달러(약 4천2백만 원)가 소요된다고 공개하였습니다. 다음 표는 Mobile ALOHA의 제작비용 세부 내역서입니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문의 결론 및 전망

논문의 결론에서는 Mobile ALOHA 시스템에 대한 전반적인 성과와 한계, 그리고 향후 연구 방향에 대한 내용을 다루고 있습니다. 논문은 양손을 활용한 이동 로봇 조작에 대한 하드웨어와 소프트웨어의 기술적인 도전에 성공했으며, ALOHA 시스템에 모바일 베이스와 전신 원격 조작을 통합하여 복잡한 이동 로봇 작업에 대한 고품질 데모를 수집했습니다. 또한, 정적 ALOHA 데이터와의 공동 훈련을 통해 Mobile ALOHA는 단 20-50번의 데모로도 복잡한 작업을 수행할 수 있게 하였으며, 경제적인 가격과 소프트웨어 및 하드웨어의 공개를 통해 보다 폭넓은 접근이 가능케 하였습니다.

향후 연구 방향으로 논문은 다양한 측면에서의 발전과 개선을 제안하고 있습니다. 먼저, 하드웨어적인 측면에서는 로봇이 차지하는 면적과 팔의 고정 높이에 대한 한계를 극복하기 위해 추가적인 개선이 필요하다고 언급하고 있습니다. 특히, 로봇 팔의 고정 높이를 늘리기 위해 더 많은 자유도를 추가하는 방안을 탐구할 것으로 기대하고 있습니다. 소프트웨어적인 측면에서는 현재는 단일 작업의 모방 학습에 중점을 두고 있지만, 미래에는 로봇이 스스로 개선하거나 새로운 지식을 습득할 수 있는 자율적인 학습에 대한 연구가 필요하다고 언급하고 있습니다. 또한, 로봇이 최적화되지 않은 이질적인 데이터셋에서도 효과적으로 학습할 수 있는 능력을 개발하는 것이 중요하다고 강조하고 있습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

마치며

Mobile ALOHA 논문은 저렴한 비용으로 전신 원격 조작을 가능케 하는 혁신적인 이동 로봇 시스템에 대한 연구를 제공합니다. 고성능의 하드웨어와 효과적인 소프트웨어 설계를 통해 Mobile ALOHA는 다양한 작업을 수행할 수 있으며, 공동 훈련을 통해 모방 학습에 강한 성능을 보입니다. 논문에서 소개된 다양한 작업들은 로봇의 유연성과 다양성을 강조하며, 높은 성공률과 적은 데모 횟수로 효과적인 학습을 증명했습니다.

또한, 비용 효율적인 제작비용과 오픈소스 소프트웨어의 사용으로 누구나 접근 가능한 로봇 기술의 가능성을 열어놓고 있습니다. 향후에는 하드웨어의 추가적인 개선과 더욱 다양한 환경에서의 성능 향상을 통해 Mobile ALOHA의 실용성을 높이는 방향으로 연구가 이어질 것으로 기대됩니다.

Mobile ALOHA의 혁신적인 기술과 성공적인 실험 결과를 통해서, 로봇 공학 및 인공지능 분야에서의 새로운 동향과 연구 가 이루어지기를 기대하면서, 오늘 포스트는 여기서 마치겠습니다. 저는 다음시간에 더욱 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.01.04 - [AI 논문 분석] - Mixtral-8x7B, MoE 언어 모델의 고속 추론 혁신 기술

Mixtral-8x7B, MoE 언어 모델의 고속 추론 혁신 기술

안녕하세요! 오늘은 Mixture-of-Experts(MoE) 언어 모델을 고성능 GPU 없이도 빠르게 처리할 수 있는 새로운 기술에 대한 논문을 살펴보겠습니다. MoE는 각 분야에 특화된 서브네트워크(sub-network)를 의미

fornewchallenge.tistory.com

저작자표시

'AI 논문 분석' 카테고리의 다른 글

AlphaGeometry: 국제 수학 올림피아드 수준 기하학 정리 증명 AI (4)	2024.01.25
[AI 논문 분석] 트랜스포머 모델의 핵심기술, 어텐션 메커니즘 (2)	2024.01.14
Mixtral-8x7B, MoE 언어 모델의 고속 추론 혁신 기술 (2)	2024.01.04
SOLAR 10.7B: 대규모 언어 모델의 효과적인 깊이 업스케일링 (2)	2023.12.31
FERRET: 이미지에서 무엇이든 찾아서 표현하는 애플의 언어 모델 (0)	2023.12.25