Mar 9, 2026

MoDE-VLA

Sharp's VLA robotic model designed for contact-rich, bimanual manipulation tasks using vision, language, force, and touch.

Technical specification

Context window

nieujawnione publicznie

Parameters

nieujawnione publicznie; backbone obejmuje SigLIP So400m/14, PaliGemma (Gemma-3B) oraz action expert Gemma-300M

License

CC BY 4.0 for paper; model/license for weights not publicly disclosed

Tools

Fine-tuning

Last updated: Mar 12, 2026

Input

Text

robot vision

Robot sensors

Robot state data

Output

Robot actions

Robot commands

Manipulator control

Motion trajectories

Reasoning★

Reasoning

Planning★

Planning

Image understanding★

Vision

Multimodal understanding★

Multimodality

Research paper1Website3