フィジカルAIとは何か：AIが現場を動かす時代

フィジカルAIとは、AIが現実世界を見て、状態を判断し、ロボット、設備、車両、機械、アクチュエータを通じて物理世界を動かし、その結果を次の判断へ戻す仕組みである。

チャットAIは文章を返す。画像生成AIは画像を返す。フィジカルAIは現実の物を動かす。部品を持つ。設備を止める。搬送順を変える。製品を検査する。危ない状態なら人に渡す。

工場で言えば、次のような流れになる。

設備が完了を知らせる
カメラが製品の位置と状態を見る
AIが「取り出せる」「傷がある」「人確認」と判断する
ロボットが製品を取る
問題がなければ次工程へ置く
不確実なら人へ渡す
結果をログに残し、次の判断や工程改善に使う

この一連の流れがフィジカルAIである。範囲はAIモデル単体より広く、センサー、設備通信、ロボット、制御、安全、ログ、改善まで含む。

ここで言うアクチュエータとは、電気、空気圧、油圧などを動きや力に変える機構である。モーター、ロボット関節、グリッパ、油圧シリンダ、空気圧シリンダ、バルブ、サーボ機構が入る。

ロボットAIとの違い

狭い意味では、フィジカルAIは「身体を持つ機械のAI」である。ヒューマノイド、ロボットアーム、AMR、自動運転車、手術支援ロボット、産業機械が対象になる。ヒューマノイドは人型ロボットである。AMRは自律移動ロボットのことで、周囲を見ながら工場や倉庫内を移動する台車型ロボットを指す。

現場で使うなら、もっと広く見る必要がある。工場では、ロボットだけ動いても価値にならない。設備が受け入れ可能か、どのロットか、検査結果はどうか、人が近くにいないか、異常時にどこで止めるかまでつながる必要がある。ロットとは、同じ条件でまとめて作る製品の単位である。

そのため、広い意味でのフィジカルAIは、現場を動かすAIシステムである。ロボット、PLC、MES、SCADA、設備API、画像検査、搬送装置、品質データベース、デジタルツイン、安全制御、作業者端末まで含む。

PLCは設備を直接制御する産業用コントローラである。MESは製造実行システムで、作業指示、ロット、進捗、実績を扱う。SCADAは設備監視・制御システムで、設備状態やアラームを扱う。

設備APIは、ソフトウェアから設備状態を読んだり、許可された指示を送ったりする接続口である。デジタルツインは、設備、ロボット、置き場、人の動線などをソフトウェア上に写したモデルで、事前検証や訓練に使う。フィジカルAIは、こうした既存の制御・監視システムを接続先として使う。

フィジカルAIは3層で見ると分かりやすい

フィジカルAIは、見る、決める、動かすの3層で考えると理解しやすい。

第一に、見る。カメラ、距離センサー、力覚、触覚、エンコーダ、設備信号から、現場の状態を読む。力覚は押す、引く、持つときの力を測る感覚である。触覚は接触、滑り、当たり方を測る感覚である。エンコーダは、モーターや関節の位置、角度、速度を測るセンサーである。

必要なのは、画像そのものより、機械が扱える状態である。製品がある。向きが違う。設備が受け入れ可能である。人が近い。置き場が空いている。ロットが違う。こうした状態へ変換する。

第二に、決める。AIは、取る、置く、待つ、再把持する、検査する、止める、人へ渡す、といった行動を選ぶ。ロボット分野では、観測された状態から次の行動を決める関数を「方策」と呼ぶ。最近のVLAは、画像や映像と言語指示からロボット行動を出すモデルである。VLAはVision-Language-Actionの略で、視覚、言語、行動をまとめて扱う考え方を指す。

第三に、動かす。AIの判断は、設備許可、安全状態、品質条件、権限、干渉、速度制限を確認してから、PLC、設備API、ロボットコントローラ、AMR、グリッパへ渡す。

フィジカルAIの本質は、この3層がつながることにある。画像認識だけでも、ロボット単体でも、設備通信だけでも足りない。現場を見て、判断し、動かし、結果を戻すからフィジカルAIになる。

AIに任せる範囲を決める

実装で最初に決めるべきなのは、AIに任せる範囲である。

設備の開始、停止、完了通知、投入許可、ロット番号、搬送指示のように意味が決まっている処理は、通信と状態機械で扱う方がよい場合が多い。状態機械とは、ready（受け入れ可能）、running（処理中）、completed（完了）、error（異常）、hold（保留）のように状態を決め、その状態ごとに許可する動作を制御する考え方である。

AIに寄せる意味があるのは、現場ごとの揺らぎを含む判断である。

正しく持てたか
滑っていないか
治具へ入ったか
傷や欠けがあるか
見たことのない異常か
自動で流してよいか
人へ渡すか

短期の導入では、確定的な処理を通信へ寄せ、揺らぐ判断をAIへ寄せる構成が現実的である。工場全体をいきなり汎用AIで動かす設計にすると、責任範囲、学習データ、安全設計、復旧手順が一気に複雑になる。

なぜ今フィジカルAIなのか

理由は3つある。

一つ目は、視覚と言語と行動をつなぐモデルが進んだことだ。2023年のRT-2は、視覚と言語のモデルをロボット行動へ接続する流れを強めた。その後、Open X-Embodiment、DROID、OpenVLA、Octo、π0のような研究が、個別タスクごとのロボット学習から、より汎用的な方策へ向かう流れを作った。

二つ目は、ロボット学習に必要なデータの考え方が変わったことだ。ロボットは、インターネット上の文章や画像だけでは十分に学べない。物を持ったときの滑り、治具に入れるときの引っかかり、薄いフィルムの変形、金属部品の反射、ケーブルのたわみ、接触時の力は、実機データから取る必要がある。2025年から2026年の研究は、複数ロボットのデータ、人間の操作データ、自律実行データ、シミュレーション、評価ベンチマークをどう組み合わせるかへ進んでいる。

三つ目は、シミュレーションと実機をつなぐ基盤が進んだことだ。NVIDIAのCosmos、Isaac、Omniverse、GR00Tのような取り組みは、合成データ、シミュレーション、ロボット基盤モデルをつなぐ方向にある。合成データは、シミュレーションや生成モデルで作った学習用データである。ロボット基盤モデルは、単一作業だけでなく複数の作業やロボット形態に使うことを狙う大きなモデルである。

2026年には、開発手順そのものをツール化する動きも進んだ。NVIDIAは、ロボット、産業用デジタルツイン、画像AI、自動運転向けに、学習、評価、展開の作業を再利用しやすい手順として扱うPhysical AI向けツール群を発表している。

Google DeepMindのGemini Robotics 1.5は、上位の推論モデルと行動モデルを分けて、複数ステップの物理タスクを扱う。Physical Intelligenceのπ0.7は、未学習タスクへの一般化を強く打ち出している。加えて、2026年のPhysical Intelligenceの研究では、長い作業を覚える仕組みや、数十分から数時間の実機データで精密作業を改善する方法も扱われている。これは、フィジカルAIでログ、失敗データ、再学習が重要になる理由とつながる。

動画で見えるデモと、工場で長時間止まらず動くことは別である。現在の競争は、「ロボットが動いた」から「現場で何時間、何個、どの失敗率で働けたか」へ移っている。

今できること、まだ難しいこと

今のフィジカルAIが入りやすいのは、対象物、置き場所、照明、作業手順、安全条件をある程度固定できる領域である。

入りやすい作業は次の通りである。

製品を取り、設備へ入れ、処理後に取り出す
箱、トート、棚、台車のような比較的扱いやすい物を搬送する
カメラで傷、欠け、ラベル、向き、欠品を見る
設備の完了信号に合わせて次工程へ流す
判断が曖昧なものを人へ渡す
点検画像や異常音から保留候補を出す

難しい作業もはっきりしている。

柔らかい袋、薄いフィルム、ケーブル、液体入り容器を安定して扱う
反射する金属や透明部品を安定して認識する
乱雑な箱の中から任意の部品を取り出す
人と同じ空間で高速に動く
8時間以上、低い失敗率で動き続ける
失敗時に自分で原因を切り分けて復旧する
未知の作業を現場で即座に安全に実行する

できることと難しいことを分けずに「人型ロボットが何でもやる」と語ると、現場の実態から離れる。

工場で最初に作るなら何か

最初の候補として分かりやすいのは、製品を運び、設備に入れ、出口から受け取り、次の場所に置く作業である。理由は単純で、状態を定義しやすいからだ。

設備側は通信で扱う。

投入許可
処理開始
処理完了
アラーム
ロット番号
次工程の指示

ロボット側は物理の揺らぎを扱う。

製品の位置を見る
正しい向きで持つ
滑りや落下を検知する
設備入口へ置く
治具へ入ったか確認する
取り出した製品を検査する
不確実なら人へ渡す

実装の流れは次のようになる。

MESが投入指示を出す
設備が投入許可を返す
カメラが製品位置と向きを見る
ロボットが把持する
把持状態を画像または力覚で確認する
設備入口へ置く
設置完了を確認する
設備を開始する
完了信号を受ける
ロボットが取り出す
画像検査を行う
OKなら次工程へ流す
不確実なら人へ渡す
画像、設備状態、行動、結果をログに残す

この例でAIが学習する範囲は、正しく見つける、正しく持つ、正しく置く、異常を見る、人へ渡す、といった部分である。

AIはどう作るのか

ソフトウェア側の最初の仕事は、現場の状態と失敗を定義することだ。

画像検査なら、良品、不良、保留、人確認に分ける。把持なら、持てた、滑っている、向きが悪い、落とした、再把持、保留に分ける。設置なら、正しく入った、浅い、斜め、干渉、未投入、確認不能に分ける。

次に、時刻を合わせてログを残す。

カメラ画像
ロボット姿勢
グリッパ状態
力覚や触覚
設備状態
ロット番号
AI判定
人の介入理由
最終品質結果

このログがないと、失敗しても原因を追えない。画像認識が悪いのか、照明が悪いのか、治具が悪いのか、把持が悪いのか、設備通信が遅いのかを切り分けられない。

学習方法は作業によって変わる。画像検査なら、良品と不良の教師あり学習、または良品から外れたものを見つける異常検知が候補になる。教師あり学習は、画像に「良品」「不良」などの正解ラベルを付けて学習する方法である。異常検知は、正常な状態から外れたものを見つける方法である。把持や設置なら、物体検出、姿勢推定、把持候補生成、動作計画、把持後確認を組み合わせる。十分な実機データがあれば、模倣学習や強化学習を使う余地が出る。模倣学習は、人やロボットの実演をまねて学ぶ方法である。強化学習は、試行錯誤しながら成功しやすい行動を学ぶ方法である。VLAやロボット基盤モデルは、既存の認識、制御、安全、ログの仕組みに組み込む部品として見る方が現実的である。

初期運用では、AIを影で動かす。AIの判定を現場の意思決定へ使わず、人の判断と照合する。十分に安定したら、確信度の高いOKだけ自動で流す。NGや不確実なものは人へ渡す。失敗ログが増えたら、データを選別して再学習する。

この順序なら、フィジカルAIは「専門家へデータを渡して終わり」になりにくい。現場の状態定義、ログ設計、判定分類、復旧手順まで自社で持てるからである。

市場と事例

産業ロボットはすでに大きな市場である。IFRのWorld Robotics 2025では、2024年の産業用ロボット新規導入は世界で約54.2万台、中国は約29.5万台で世界の54%を占めた。日本は約4.45万台だった。業務用サービスロボットでは、物流や医療が先行している。

ヒューマノイドは期待が大きいが、予測幅も大きい。Goldman Sachsは2035年に380億ドル規模、2030年に25万台超の出荷という基本シナリオを置いている。Bank of America Instituteは、2030年に120万台、2035年に1,000万台というより強い見通しを置いている。どちらも予測である。

現場事例では、BMWとFigureの実証が分かりやすい。BMWは、米国スパータンバーグ工場でFigure 02を使い、10カ月で3万台超のBMW X3生産を支援し、9万点超の板金部品を扱い、約1,250時間稼働したと発表した。これは重要な実証だが、自律稼働率、遠隔操作比率、停止理由、復旧時間、保守費、安全認証の詳細は外からは分からない。自律稼働率は、人が操作せずに動いた割合である。遠隔操作比率は、人が離れた場所から操作や補助をした割合である。

フィジカルAIは研究室だけの話から、工場で試す段階へ進んでいる。一方で、全面普及にはまだ距離がある。評価軸は、見た目のインパクトより、連続稼働時間、処理個数、失敗率、復旧時間、人間介入回数、設備状態との同期、品質影響へ移っている。

投資するならどこを見るか

フィジカルAIへの投資は、ロボット本体の購入だけでは決まらない。初期段階では、ロボットの周辺に投資する領域が多い。

物理環境では、治具、照明、カメラ、グリッパ、置き場、搬送経路、安全柵、復旧しやすいレイアウトへ投資する。対象物が難しいほど、AIモデルより先に、持ちやすく、見やすく、置きやすくする設計が効く。

接続基盤では、PLC、MES、SCADA、設備API、OPC UA、ロボットコントローラをつなぐ。OPC UAは、設備やソフトウェアの間で産業データをやり取りするための通信規格である。AIが判断しても、設備状態が読めなければ動かせない。設備へ安全に命令できなければ、現場には出せない。

データ基盤では、画像、動画、力覚、設備ログ、品質結果、作業者介入、復旧操作を同じ時刻軸で残す。フィジカルAIでは、失敗ログが価値を持つ。成功例だけでは、現場で止まった理由を学べない。

人材面では、AIエンジニアだけでは足りない。制御、ロボット、画像処理、データ基盤、MLOps、設備保全、品質保証、安全設計を横断するチームが必要になる。MLOpsは、AIモデルを作って終わりにせず、評価、配布、監視、再学習まで運用するための考え方である。

個人で入るなら、Python、C++、Linux、画像処理、ROS 2、PLC、OPC UA、座標変換、キャリブレーション、ログ設計、安全設計を学ぶ価値がある。ROS 2はロボット制御で使われるソフトウェア基盤である。キャリブレーションは、カメラ、ロボット、設備の座標やズレを合わせる作業である。

2030年までの見方

2026年から2028年は、限定された作業セルでの導入が中心になるのではないか。設備投入、取り出し、搬送、画像検査、棚やトートの扱い、工場内物流、点検、医療支援のような領域が先に進む可能性が高い。

2028年から2030年にかけては、単体セルから複数セルの連携へ進む可能性がある。ロボット、AMR、検査装置、設備、MES、WMSが同じ状態管理の上でつながり、搬送、検査、投入、保留、人への引き渡しが連動する形である。WMSは倉庫管理システムで、在庫、棚、入出庫、搬送先を扱う。

ヒューマノイドは、人間向け環境へ入るための選択肢の一つになる。通路、棚、扉、作業台、台車、治具が人間向けに作られている場所では、人型に近い身体に合理性がある。一方で、工場ではAMRとアーム、固定ロボット、専用ハンド、天井やフレーム上を移動するガントリー型ロボット、画像検査、コンベヤを組み合わせる方が安い場合も多い。

長期の方向は、AIが物理世界を運用対象として扱うことである。現場を観測し、設備と通信し、ロボットを動かし、品質を見て、失敗を分類し、治具や手順へ戻す。この閉ループを持てる企業と、ロボット本体を買うだけの企業の差は広がる。