Figure 03が1時間に1台へ。フィジカルAIの焦点はデータ基盤へ移る

ヒューマノイドロボットのニュースは、動画だけで追うと見誤りやすい。

階段を上る。洗濯物を畳む。箱を運ぶ。映像は強い。フィジカルAIで見たいのは、1回できた動きより、失敗をどう集め、どう直し、どう全体へ戻すかだ。

2026年4月29日、Figureは Ramping Figure 03 Production を公開した。Figure 03の生産速度を1日1台から1時間1台へ引き上げ、第3世代ロボットを350台以上生産したという発表だ。

このニュースは、生産台数そのものより、ロボットを「学習データを生むfleet」として扱い始めた点が面白い。

Figureが出した数字

Figureの発表に出てくる主な数字は次の通り。

項目	発表値
Figure 03の生産速度	1日1台から1時間1台
改善幅	120日未満で24倍
生産済みFigure 03	350台超
BotQのworkstation	150台超
in-process inspection	50点超
end-of-line first pass yield	80%超、改善中
battery line first-pass yield	99.3%
shipped battery packs	500超
actuators	9,000超、10 SKU超
sign-off前のfunctional verification	80項目超

これはFigure自身の発表値だ。第三者が監査した稼働実績やタスク成功率とは分けて読む。

Figureは、量産、検査、fleet management、field service、OTA、Helixの学習を同じ発表の中でつないでいる。

fleet managementは、複数台のロボットの状態、場所、稼働時間、更新状態を管理する仕組みを指す。

OTAはover-the-air updateの略で、現場の機体へソフトウェア更新を配る仕組みだ。field serviceは現地保守を意味する。

ロボット企業がこの3つを語り始めると、話は研究デモから運用へ移る。

ロボットの学習は、現場で動かして初めて見える差に左右される。

床材、照明、摩耗、センサーのずれ、バッテリー残量、人間の動き、部品のばらつき、現場ごとの運用差。こうした要素は、綺麗なデモ環境では出にくい。

台数が少ないうちは、成功例が目立つ。台数が増えると、珍しい失敗が見えてくる。

Figureは今回、次の運用要素を挙げている。

robust diagnosticsは、故障原因を短時間で絞る仕組みだ。

fallback ladderは、異常時に性能を段階的に落として安全側へ戻す設計を指す。long-tail failuresは、頻出する不具合を潰した後に残る、低頻度で現場では避けにくい失敗群だ。

この並びは、ロボットを製品として運用する会社の言葉になっている。

2026年4月24日に、VLAサーベイ Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines が出た。

この論文は、ロボティクスAIのボトルネックをデータ基盤として整理している。

VLAはVision-Language-Actionの略だ。画像や映像、言語指示、ロボットの行動をつないで扱うモデル群を指す。たとえば「赤いカップを取って」と言われたとき、視覚で対象を見つけ、言語指示を理解し、ロボットの動作へ変換する。

このサーベイは、今後の進歩がdatasets、benchmarks、data enginesの設計に強く依存すると整理している。

datasetは学習に使うデータの集まり。benchmarkは性能を比べるための評価条件。data engineは、実機、シミュレーション、動画再構成、自動タスク生成などを使い、学習と評価に必要なデータを継続的に作る仕組みだ。

Figureの発表とVLAサーベイを合わせると、追う数字が変わる。