Gemini Robotics 1.5

MultimodalRobotics FMVLA

Vision-Language-Action (VLA) model by Google DeepMind that converts visual inputs and language instructions into motor commands for robots.

Technical specification

Context window

Tools

Fine-tuning

Weights access

Closed

Last updated: May 2, 2026

Modalities

Input

Text

Image

Output

Text

action

Capabilities

Reasoning★

Reasoning

Multi-step reasoning★

Reasoning

Planning★

Planning

Image understanding★

Vision

Multimodal understanding★

Multimodality

Multilingual★

Language

Robotic AI capabilities

Dexterous manipulation Robot manipulation Robot control Embodied task planning Visual grounding Bimanual manipulation Motion planning

Applications

Sources

Website1Technical report1Research paper1

Gemini Robotics 1.5 - Google DeepMind

deepmind.googleWebsite

Gemini Robotics 1.5 Technical Report

storage.googleapis.comTechnical report

Gemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)

arxiv.orgResearch paper

Gemini Robotics 1.5Gemini Robotics 1.5Gemini Robotics 1.5

Technical specification

Modalities

Capabilities

Robotic AI capabilities

Applications

Sources

Robotic AI capabilities

Gemini Robotics 1.5