Preview

Apr 14, 2026

ProducerGoogle DeepMind

FamilyGemini

APIHosted UICloud

Gemini Robotics-ER 1.6

MultimodalRobotics FM

Vision-Language Model by Google DeepMind with advanced spatial and embodied reasoning, designed for robotics applications.

Technical specification

Context window

Max output

Tools

Yes

Fine-tuning

Weights access

Closed

Last updated: May 2, 2026

Modalities

Input

Text

Image

Audio

Video

Output

Text

Capabilities

Reasoning★

Reasoning

Multi-step reasoning★

Reasoning

Planning★

Planning

Image understanding★

Vision

Multimodal understanding★

Multimodality

Function Calling

Planning

Structured output★

Structured gen.

Video Understanding

Other

Audio understanding

Audio

Robotic AI capabilities

Spatial reasoning Scene understanding Embodied task planning Visual grounding Object affordance understanding Spatial prediction

Architecture and technologies

Core Architecture

Form / Family

Training Techniques

Applications

Sources

Website1Blog1Technical report1Research paper1

Gemini Robotics-ER 1.6 — Google DeepMind

deepmind.googleWebsite

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

deepmind.googleBlog

Gemini Robotics-ER 1.6 Model Card — Google DeepMind

deepmind.googleTechnical report

Gemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)

arxiv.orgResearch paper

Gemini Robotics-ER 1.6Gemini Robotics-ER 1.6Gemini Robotics-ER 1.6