메인 메뉴 바로가기
구글코리아 블로그
제미나이 로보틱스 1.5로 AI 에이전트를 물리적 세계로 가져오다

제미나이 로보틱스 1.5로 AI 에이전트를 물리적 세계로 가져오다

제미나이 로보틱스 블로그 히어로 이미지

구글의 구체화된 추론 모델 ‘제미나이 로보틱스-ER 1.5’와 VLA 모델 ‘제미나이 로보틱스 1.5’가 어떻게 상호 보완적으로 작동하고 실제 물리적 세계에서 복잡한 작업을 수행하는지를 보여주는 다이어그램

블로그 이미지 1

막대그래프: 제미나이 로보틱스-ER 1.5의 최첨단 성능을 유사 모델들과 비교한 결과, Point-Bench, RefSpatial, RoboSpatial-Pointing, Where2Place, BLINK, CV-Bench, ERQA, EmbSpatial, MindCube, RoboSpatial-VQA, SAT, Cosmos-Reason1, Min Video Pairs, OpenEQA, VSI-Bench를 포함한 15개 학술적인 구체화된 추론 벤치마크에서 종합 성능 최고치를 달성했습니다.

블로그 이미지 3

GIF 콜라주: 제미나이 로보틱스-ER 1.5의 다양한 기능 시연 — 객체 인식 및 상태 추정(object detection and state estimation), 분할 마스크(segmentation mask), 포인팅, 궤적 예측, 작업 진행 상황 및 성공 여부 판별 등