메인 메뉴 바로가기

구글코리아 블로그

AI를 물리적인 세계로 확장하는 ‘제미나이 로보틱스’를 소개합니다

[]

AI를 물리적인 세계로 확장하는 ‘제미나이 로보틱스’를 소개합니다

2025년 3월 13일

로봇 공학을 위해 설계된 제미나이 2.0 기반 모델 ‘제미나이 로보틱스’를 공개합니다.

캐롤리나 파라다(Carolina Parada)

Senior Director, Robotics, Google DeepMind

"물리적인 세계를 위한 제미나이"라는 영문 텍스트와 한 쌍의 로봇 손이 타일을 움직여 "세계(world)"라는 단어를 완성합니다.

최근 몇 년 간 대규모 언어 모델(LLM)은 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 정보를 종합적으로 이해하고 추론하는 탁월한 능력 덕분에 이용자들에게 매우 유용한 도구가 되었습니다. 그러나 지금까지 이러한 능력은 주로 디지털 영역에 머물러 있었습니다. AI가 물리적 영역에서 사람들에게 유용하고 도움이 되려면, 주변 환경을 이해하고 반응하는 사람과 유사한 “구체화된” 추론 능력을 갖추는 것은 물론, 안전하게 작업을 수행할 수 있어야 하기 때문입니다.

오늘, 구글은 새로운 차원의 로봇 개발을 위한 기반이 될 두 가지 새로운 AI 모델을 소개합니다.

첫 번째는 ‘제미나이 로보틱스(Gemini Robotics)’입니다. 이는 제미나이 2.0을 기반으로 구축된 첨단 시각-언어-행동(VLA) 모델로, 로봇을 직접 제어하기 위해 물리적 행동을 새로운 출력 형태로 추가했습니다. 두 번째는 ‘제미나이 로보틱스-ER(Gemini Robotics-ER)’입니다. 이는 뛰어난 공간 이해 능력을 갖춘 시각-언어 모델(VLM)로, 로봇 공학자들이 제미나이의 구체화된 추론 능력을 활용하여 자체 프로그램을 실행할 수 있도록 지원합니다.

이 두 모델은 다양한 로봇이 이전보다 훨씬 폭넓은 작업을 수행하도록 도움을 줍니다. 현재 앱트로닉(Apptronik), 애자일 로봇(Agile Robots), 보스톤 다이내믹스(Boston Dynamics), 인챈티드 툴스(Enchanted Tools) 등 신뢰할 수 있는 파트너들과 함께 모델을 시험하며, 피드백을 수집해 향후 제품 개발에 반영하고 있습니다. 또한, 앱트로닉과의 협력을 통해 인간형 로봇 기술의 발전 역시 가속화하고 있습니다.

구글은 이 모델들의 무한한 가능성을 탐구하고, 현실 세계에 적용하기 위해 지속적으로 개발해 나갈 것입니다.

제미나이 로보틱스: 최첨단 시각-언어-행동 모델(VLA)

사람들에게 실질적인 도움을 주는 로봇용 AI 모델은 세 가지 핵심 요소를 갖춰야 합니다. 다양한 상황에 유연하게 적응할 수 있는 범용성, 지시나 환경 변화를 신속하게 이해하고 반응하는 상호작용성, 그리고 사람처럼 손과 손가락을 섬세하게 사용하여 물체를 다루는 숙련도입니다.

이전 연구에서도 이러한 분야에서 진전을 보였지만, 제미나이 로보틱스는 이 세 가지 측면 모두에서 획기적으로 성능을 향상시켜 진정한 범용 로봇 개발에 한 걸음 더 다가섰습니다.

범용성

제미나이 로보틱스는 학습 과정에서 접하지 못한 새로운 상황에서도 이를 일반화하여 다양한 작업을 즉시 수행할 수 있습니다. 새로운 물체, 다양한 명령, 새로운 환경에도 능숙하게 대처합니다. 기술 보고서에서 확인할 수 있듯이, 제미나이 로보틱스는 종합적인 범용성 벤치마크에서 다른 최첨단 시각-언어-행동 모델보다 평균적으로 두 배 이상의 성능 향상을 보였습니다.

상호작용성

로봇은 역동적인 현실 세계에서 사람 및 주변 환경과 원활하게 상호작용하고 변화에 즉각적으로 적응해야 합니다.

제미나이 2.0을 기반으로 구축된 제미나이 로보틱스는 직관적인 상호작용이 가능합니다. 제미나이의 뛰어난 언어 이해 능력을 활용하여 일상적인 대화체의 명령을 이해하고 다양한 언어로 답변할 수 있습니다.

이전 모델보다 보다 광범위한 자연어 명령을 이해하고, 이용자와 대화하며 입력에 따라 행동을 조정할수 있습니다. 또한 주변 환경을 지속적으로 모니터링하여 환경이나 명령의 변화를 감지하고 즉시 행동을 수정할 수 있습니다. 이러한 제어 능력, 즉 ‘조정성(steerability)’은 가정에서 직장에 이르기까지 다양한 환경에서 로봇과 협력하는 데 더 큰 도움이 될 수 있습니다.

숙련도

유용한 로봇 시스템을 구축하기 위한 세 번째 핵심 요소는 숙련된 행동입니다. 대부분의 로봇에게는 여전히 다수의 간단한 일상 작업도 여전히 어려움을 겪습니다. 최첨단 AI 기반 로봇조차도 단순한 물건 집어 옮기기 작업만 수행할 수 있는 것이 현실입니다. 반면, 제미나이 로보틱스는 종이접기나 지퍼백에 간식 넣기처럼 섬세한 운동 능력과 정밀한 조작을 요구하는 매우 복잡한 다단계 작업을 진행할 수 있습니다. 더불어 환경이나 명령의 변화로 로봇 모델에게 계산 부담이 가중되더라도 이러한 능력은 유지됩니다.

다양한 형태로의 구현

마지막으로 제미나이 로보틱스는 로봇 유형별로 쉽게 적응하도록 설계되었습니다. 로봇 모델은 주로 양팔 로봇 플랫폼인 ALOHA 2의 데이터를 기반으로 학습되었지만, 많은 연구실에서 사용되는 프랭카(Franka) 암(arms)을 기반으로 하는 양팔 플랫폼도 제어할 수 있음을 보여주었습니다. 제미나이 로보틱스는 앱트로닉에서 개발한 인간형 아폴로(Apollo) 로봇과 같은 더욱 복잡한 구현에도 특화될 수도 있습니다.

제미나이의 물리적 세계 이해력 강화

구글은 제미나이 로보틱스와 함께 ‘구체화된 추론(embodied reasoning)’을 의미하는 ‘제미나이 로보틱스-ER(Gemini Robotics-ER)’이라는 첨단 비전-언어 모델을 선보입니다. 이 모델은 로봇 공학에 필수적인 제미나이의 물리적 세계 이해 능력을 향상시킵니다. 제미나이 로보틱스-ER은 인지, 상태 추정(state estimation), 공간 이해(spatial understanding), 계획 및 코드 생성에 이르기까지 로봇 제어에 필요한 모든 추론 단계를 즉시 수행할 수 있습니다. 이를 통해 로봇 공학자는 기존의 로봇 컨트롤러를 제미나이의 물리적 공간 이해 및 추론 능력과 연계할 수 있습니다.

제미나이 로보틱스-ER은 포인팅 및 3D 감지 등 제미나이 2.0의 기존 기능을 대폭 개선했습니다. 특히, 향상된 공간 추론 능력과 제미나이의 코딩 능력을 결합해 즉석에서 새로운 기능을 구현할 수 있습니다. 예를 들어, 커피 머그잔을 보여주면 모델은 손잡이를 잡고 들어 올리기에 적합한 두 손가락 그립과 안전한 접근 경로를 직관적으로 파악합니다.

이러한 모든 기술을 통합함으로써 제미나이 로보틱스-ER은 제미나이 2.0 대비 2-3배 높은 성공률을 달성합니다. 또한, 복잡한 작업의 경우 인간의 몇 가지 시연 패턴을 학습하여 성능을 향상시키는 컨텍스트 내 학습 기능을 활용할 수도 있습니다.

첨단 비전-언어 모델인 ‘제미나이 로보틱스-ER(Gemini Robotics-ER)' 시연 사진

인공지능과 로봇 공학의 책임감 있는 발전

구글은 인공지능과 로봇 공학의 무한한 잠재력을 탐구하며, 기초적인 모터 제어부터 고도화된 의미 이해에 이르기까지 연구 안전성에 대한 다각적이고 종합적인 접근 방식을 취하고 있습니다.

로봇의 물리적 안전은 물론 주변 사람들의 안전은 로봇 공학 과학 분야의 오랜 관심사였습니다. 이에 로봇 공학자들은 충돌 회피, 접촉력 제한, 이동 로봇의 동적 안정성 확보 등 전통적인 안전 조치를 마련해 왔습니다. 제미나이 로보틱스-ER은 이러한 ‘낮은 수준’의 안전 필수 컨트롤러와 상호 작용할 수 있도록 설계되었습니다. 제미나이의 핵심 안전 기능을 바탕으로, 제미나이 로보틱스-ER 모델은 주어진 시나리오 안에서 안전한 동작을 판단하고, 질문에 적절한 답변을 생성하도록 학습되었습니다.

구글은 학계 및 산업 전반의 로봇 공학 안전 연구 발전을 위해 인공지능 및 로봇 공학의 의미적 안전성을 평가하고 개선할 수 있는 새로운 데이터 세트를 공개합니다. 이전 연구에서 구글은 ‘아이작 아시모프’의 로봇 3원칙에서 영감을 받은 ‘로봇 헌법(Robot Constitution)’이 거대 언어 모델(LLM) 기반 로봇의 안전한 작업 선택에 어떻게 기여하는지 보여 주었습니다. 나아가 로봇의 행동을 제어하기 위해 자연어로 표현된 규칙인 ‘데이터 기반 헌법’을 자동으로 생성하는 프레임워크를 개발했습니다. 이 프레임워크를 통해 이용자는 헌법을 생성, 수정 및 적용하여 인간의 가치에 부합하는 안전한 로봇을 개발할 수 있습니다. 또한, 새로운 아시모프(ASIMOV) 데이터 세트는 연구자들이 실제 시나리오에서 로봇 동작의 안전성을 엄격하게 측정하는 데 도움이 될 것입니다.

구글은 연구 전반에 걸쳐 책임 있는 개발 및 혁신 팀 전문가와 협력하고, 구글 딥마인드의 연구 결과가 사회에 미치는 영향을 평가하는 내부 검토 그룹인 ‘책임 및 안전 위원회(Responsibility and Safety Council)’의 검토를 거칩니다. 또한, 로봇 공학 응용 분야에서 인공지능이 야기하는 특정한 문제와 기회에 대한 포괄적인 이해를 위해 외부 전문가와도 지속적으로 소통하고 있습니다.

관련 키워드: