메인 메뉴 바로가기
구글코리아 블로그
제미나이 로보틱스-ER 1.6: 강화된 체화된 추론을 통한 실세계 로봇 작업의 혁신
[]

제미나이 로보틱스-ER 1.6: 강화된 체화된 추론을 통한 실세계 로봇 작업의 혁신

Gemini Robotics 1.6

그림 1: 제미나이 로보틱스-ER 1.6과 제미나이 로보틱스-ER 1.5 및 제미나이 3.0 플래시 모델의 벤치마크 비교 결과. 계기판 판독 평가는 에이전틱 비전(agentic vision)을 활성화한 상태에서 진행됐으며 (제미나이 로보틱스-ER 1.5는 해당 기능 미지원), 그 외 평가는 모두 에이전틱 비전을 비활성화한 상태에서 진행되었습니다. 단일 시점 및 다중 시점 성공 감지 평가는 서로 다른 예시를 기반으로 하므로 직접적인 비교는 불가능합니다.

Gemini Robitics - ER
Gemini Robotics ER

제미나이 로보틱스-ER 1.6은 여러 카메라 시점의 정보를 종합하여 "파란색 펜을 검은색 펜꽂이에 넣으시오"라는 작업이 완료되는 시점을 판단합니다.

그림 2: 제미나이 로보틱스-ER 1.6의 각 요소가 계기판 판독 작업에서 높은 수준의 성능을 달성하는 데 기여하는 방식.

Gemini Robotics - ER 1.6

위 예시는 모델이 포인팅과 코드 실행, 이미지 확대를 결합해 게이지의 값을 눈금 단위 이하의 정밀도(sub-tick accuracy)로 도출하는 과정을 보여줍니다.

그림 3: 제미나이 로보틱스-ER 1.6은 물리적 안전 제약 준수 능력을 평가하는 '안전 지침 준수' 항목에서 제미나이 로보틱스-ER 1.5 대비 크게 향상되었습니다. 포인팅 성능은 제미나이 3.0 플래시보다 우수하며, 두 모델 모두 텍스트 정확도는 매우 높은 수준을 보입니다. 한편 경계 상자(Bounding boxes) 작업에서는 제미나이 3.0 플래시가 더 나은 성능을 보입니다.

Gemini robotics - ER 1.6