フィジカルAIとは、AIが現実世界を観測し、状態を理解し、行動を決め、設備、ロボット、車両、機械、アクチュエータを通じて物理世界へ作用し、その結果を次の判断へ戻す閉ループ型のAIシステムである。
2026年時点の公表情報から見える変化は、VLA、ワールドモデル、デジタルツイン、シミュレーション、実機データ、設備通信、安全制御が一つの開発スタックへ近づいていることである。Google DeepMindはGemini Robotics 1.5で、上位の推論モデルと下位のVLAモデルを組み合わせる構成を発表した。NVIDIAはCosmos、Isaac、Omniverse、GR00Tを通じて、シミュレーション、合成データ、ロボット基盤モデルを接続する方向を示している。Physical Intelligenceは2026年4月にπ0.7を発表し、ロボットデータ、人間データ、自律実行データ、言語指示、視覚サブゴールを組み合わせる方針を示した。
市場面では、産業ロボットと業務用サービスロボットが実装基盤になる。IFRのWorld Robotics 2025によると、2024年の中国の産業用ロボット新規導入は29万5,000台で、世界導入の54%を占めた。日本は4万4,500台だった。業務用サービスロボットでは、2024年の販売が約20万台、輸送・物流向けが10万2,900台、医療ロボットが約1万6,700台だった。ヒューマノイド市場はGoldman SachsとBank of Americaで予測幅が大きく、実績値より期待値の振れ幅が大きい段階にある。
導入設計については、初期段階ではAIに任せる範囲を絞る方がよいと考える。設備の開始、停止、完了通知、投入許可、ロット番号、搬送指示のように意味が決まっている処理は、PLC、設備API、MES、SCADAなどの通信と状態機械で扱う。把持できたか、置けたか、ズレたか、傷があるか、未知の異常か、人へ渡すか、といった現場ごとの揺らぎを含む判断をAIに寄せる。この分離は実装上の考え方であり、対象工程、設備、品質要求、安全条件によって最適解は変わる。
フィジカルAIの定義
複数の公開資料を横断すると、フィジカルAIの中核は「AIが現実世界に接続され、物理世界へ作用すること」にある。NVIDIAはPhysical AIを、物理世界で自律システムが知覚、理解、推論、行動するAIとして説明している。IBMは、AIモデルをセンサー、アクチュエータ、制御システムと組み合わせ、デジタルな知能を現実世界の作用へ移すものとして説明している。日本語資料では、産総研が「身体を持って実世界で動くAI」と説明し、JST/CRDSはAIロボット単体だけでなく、運用環境や基盤を含むフィジカルAIシステムとして扱っている。
定義を次のように置く。
フィジカルAIとは、AIが現実世界の状態を認識し、予測し、計画し、
設備、ロボット、車両、機械、アクチュエータを通じて物理世界へ作用し、
その結果をデータとして戻しながら改善する技術体系である。
アクチュエータとは、電気、空気圧、油圧などのエネルギーを動きや力に変える機構である。モーター、ロボット関節、油圧シリンダ、空気圧シリンダ、グリッパ、バルブ、サーボ機構が含まれる。
狭義では、フィジカルAIは身体を持つ機械のAIを指す。対象は、ヒューマノイド、ロボットアーム、AMR、自動運転車、産業機械、手術支援ロボットなどである。
広義では、フィジカルAIは現実世界へ作用するサイバーフィジカルAIを指す。工場では、ロボット、PLC、MES、SCADA、設備API、画像検査、搬送装置、品質データベース、デジタルツイン、安全制御、作業者端末まで含む。サイバーフィジカルシステムとは、現実の設備や機械と、ソフトウェア、データ、通信、制御が一体になった仕組みである。
工場実装では広義の理解が必要になる。ロボット本体、設備状態、投入許可、品質結果、安全停止、作業指示がつながって初めて、現場の閉ループが成立する。
参考: NVIDIA、IBM、産総研、JST/CRDS、FANUC
生成AIとの違い
生成AIの主な出力は、文章、画像、音声、コード、検索結果、要約である。出力はデジタル空間にとどまることが多く、誤りの多くは情報の訂正で処理できる。
フィジカルAIの出力は物理世界へ出る。ロボットが部品を持つ。車両が進む。設備が動く。薬品を混ぜる。手術器具が組織へ触れる。失敗は、品質不良、設備停止、衝突、怪我、火災、医療事故へつながりうる。
この違いにより、フィジカルAIには次の制約が加わる。
- 実時間で動く
- センサーの遅延やノイズを扱う
- 接触、摩擦、滑り、重量、反射、照明変化を扱う
- 安全停止、インターロック、権限、監査ログを設計する
- 実機データの収集に時間と費用がかかる
- シミュレーションと現実の差を埋める
インターネット上の文章や画像だけでは、物を持ったときの滑り、治具に入れるときの引っかかり、薄いフィルムの変形、金属部品の反射、ケーブルのたわみ、接触時の力は十分に学べない。実機データ、触覚、力覚、失敗ログが重くなる理由はここにある。
2025年から2026年に何が変わったか
2023年のGoogle DeepMind RT-2は、視覚と言語のモデルをロボット制御へ接続し、画像と言語から行動を出すVLAの流れを強めた。VLAはVision-Language-Actionの略で、視覚、言語、行動を一つのモデルで扱う考え方である。参考: Google DeepMind RT-2、RT-2論文
2023年後半から2024年にかけて、Open X-Embodiment、DROID、OpenVLA、Octo、π0のような研究が、ロボット学習の中心を個別タスクから汎用方策へ寄せた。方策とは、観測された状態から次に取る行動を決める関数である。ロボットでは、画像、関節角、力覚、言語指示などを入力し、エンドエフェクタの移動量、把持、停止、速度などを出力する。参考: Open X-Embodiment、DROID、OpenVLA、Octo、π0
2025年から2026年には企業発表が増えた。Google DeepMindはGemini Robotics 1.5で、上位の推論モデルと下位のVLAモデルを組み合わせ、複数ステップの物理タスクを扱う構成を示した。NVIDIAは2026年の発表で、Cosmos、Isaac、Omniverse、GR00Tなどを通じ、ワールドモデル、合成データ、シミュレーション、ヒューマノイド向けVLAを接続する方向を示した。Physical Intelligenceは2026年4月にπ0.7を発表した。参考: Gemini Robotics 1.5、NVIDIA発表、π0.7
この流れから、ロボットの知能化は単一モデルへの置き換えというより、機能分担へ進んでいると考える。高位の計画、物体認識、姿勢推定、行動生成、低レベル制御、安全監視、設備通信、ログ管理が分かれ、それらを接続する構成である。
市場環境
市場規模は定義によって大きく変わる。ヒューマノイドだけを数える場合、産業ロボットを含める場合、AIソフトウェアやシミュレーションを含める場合、医療ロボットや自動運転まで含める場合で、対象市場が変わる。
産業ロボットの実装規模では中国の存在が大きい。IFRのWorld Robotics 2025によると、2024年の中国の産業用ロボット新規導入は29万5,000台で、世界導入の54%を占めた。日本は4万4,500台だった。参考: IFR World Robotics 2025
業務用サービスロボットでは物流と医療が先行している。IFRによると、2024年の業務用サービスロボット販売は約20万台で、輸送・物流向けが10万2,900台だった。医療ロボットは約1万6,700台で、前年比91%増だった。参考: IFR World Robotics 2025
ヒューマノイド市場の予測幅は大きい。Goldman Sachs Researchは2035年に380億ドル規模、2030年に25万台超の出荷を基本シナリオとして示している。Bank of America Instituteは2026年3月の資料で、BofA Global Researchの見通しとして、ヒューマノイドの年間出荷が2030年に120万台、2035年に1,000万台へ伸びる可能性を示した。参考: Goldman Sachs、Bank of America Institute
この差は、ヒューマノイド市場が実績値より期待値で動いている段階にあることを示す。量産コスト、稼働率、遠隔操作比率、保守費、安全認証、保険、顧客側の運用負荷で予測は大きく変わる。
資金面では、ヒューマノイドとロボット基盤モデルへ大型資金が流入している。Apptronikは2026年2月にSeries Aの拡張を発表し、Series A総額を9億3,500万ドル超にした。1XはNEO Factoryを公開し、2026年出荷と将来の大規模生産を掲げている。参考: Apptronik、1X
現場検証はどこまで進んだか
公表情報を見る限り、フィジカルAIはデモから限定現場での検証へ移っている。量産現場への全面普及を示す公開データはまだ少ない。
BMWは、米国スパータンバーグ工場でFigure 02を使った実証を行い、10カ月で3万台超のBMW X3生産を支援し、9万点超の板金部品を扱い、約1,250時間稼働したと発表した。この数値は企業発表であり、第三者監査された性能評価とは区別して読む。参考: BMW Group
この事例からは、限定作業、既存工程、安全、工場IT、物流との接続が進んでいると読み取れる。ヒューマノイドの価値は、人間の仕事全体の置き換えより、反復作業や位置決め作業を既存工程へ接続できるかで評価され始めているように見える。
評価軸も変わると考える。外観や自然言語応答より、連続稼働時間、処理個数、失敗率、復旧時間、人間介入回数、設備状態との同期、品質影響が重要になる。この評価軸は公開情報からの実装上の読み解きであり、公開各社で統一された公式KPIはまだ見当たらない。
技術スタック
フィジカルAIの現場実装は、AIモデルに加えて、観測、状態化、制約確認、実行、記録を接続するシステムになる。
センサー
カメラ、距離センサー、力覚、触覚、エンコーダ、設備信号
状態化
ワーク位置、姿勢、設備状態、人の接近、置き場、ロット、品質状態
判断
取る、置く、待つ、再把持する、検査する、停止する、人へ渡す
制約確認
安全、品質、設備許可、速度、把持力、干渉、権限、変更履歴
実行
PLC、設備API、ロボットコントローラ、AMR、グリッパ、アクチュエータ
記録
成功、失敗、保留、介入、復旧、品質結果、設備アラーム
PLCは設備を直接制御する産業用コントローラである。MESは製造実行システムで、作業指示、ロット、進捗、実績を扱う。SCADAは設備監視・制御システムで、現場の状態を可視化し、アラームや制御を扱う。OPC UAは、設備やソフトウェア間で産業データをやり取りするための標準的な通信方式の一つである。
VLAは、画像や映像と言語指示を受け取り、ロボットの行動へつなげるモデルである。ワールドモデルは、現実世界の変化を内部的に予測するモデルである。デジタルツインは、設備、ロボット、空間、物体、制約を仮想空間に写したモデルで、訓練、検証、合成データ生成に使う。
現場実装では、AIの判断を設備制御へ安全に変換する層が要る。モデルの出力、設備許可、安全状態、品質条件、権限、ログを通してから実行へ渡す設計になる。
物理面で確認する項目
物理面では、対象物、治具、置き場、照明、把持点、設備入口、設備出口、安全柵、人の動線を先に確認する。
把持対象が硬い箱なら比較的扱いやすい。柔らかい袋、薄いフィルム、反射する金属、ケーブル、液体入り容器、寸法ばらつきの大きい部品は難しくなる。対象物が難しいほど、AIモデルより先に、グリッパ、治具、照明、供給姿勢の設計が効く。
工場で確認する項目は次の通りである。
- 作業範囲に届くロボットまたはAMR
- 対象物に合うグリッパ
- 位置ズレを吸収する治具
- 安定した照明とカメラ位置
- 失敗時に壊れにくい置き場
- 人の接近を検知する安全センサー
- 非常停止と安全PLC
- 点検、交換、清掃しやすい機構
フィジカルAIの失敗は、モデル精度だけで説明しきれない。ワークが少し傾く。照明が変わる。治具が摩耗する。グリッパに粉じんが付く。設備入口の公差が想定より厳しい。人が置き場を少し変える。こうした物理側の変化が、認識や行動を崩す。
初期導入では、再現性の高い置き方、見やすい照明、位置決めしやすい治具、ログを取りやすいセンサー、復旧しやすい搬送経路へ先に投資する構成がよいと思う。これは実装上の見立てであり、対象物と工程条件で変わる。
ソフトウェア面の導入設計
初期導入の設計案としては、現場を動かす状態管理、設備通信、AI推論、制約確認、記録、再学習を分ける構成が扱いやすいと考える。
上位指示
MES、WMS、生産計画、作業指示
設備通信
PLC、設備API、ロボットコントローラ、OPC UA、フィールドバス
状態管理
設備ready、投入許可、ロット、置き場、人の接近、異常状態
専門AI
物体検出、姿勢推定、把持確認、設置確認、画像検査、異常検知
行動制御
ロボット動作、AMR移動、把持、投入、取り出し、待機、停止
安全監視
インターロック、速度制限、禁止領域、非常停止、人間承認
ログ基盤
画像、動画、力覚、設備ログ、行動ログ、失敗ログ、品質結果
改善ループ
失敗分類、データ選別、再学習、シミュレーション検証、段階的展開
AI実装の最初の仕事は、現場の状態を機械が扱える形へ変換することである。設備が受け入れ可能か、ロットが正しいか、ワークが存在するか、向きが合っているか、人が近くにいないか、置き場が空いているか、前回の失敗が復旧済みかを状態として持つ。
次に、AIが判断する範囲を絞る。画像検査なら、良品、不良、保留、人確認に分ける。把持なら、持てた、滑っている、向きが悪い、落とした、再把持、保留に分ける。設置なら、正しく入った、浅い、斜め、干渉、未投入、確認不能に分ける。
AIの結果は、制約確認を通して実行へ渡す。ロットが違うなら投入しない。設備がreadyでなければ待つ。人が安全領域にいれば止める。AIの確信度が低ければ人へ渡す。品質に関わる判断では、初期運用から自動OKを広げず、保留を残す構成が扱いやすい。
この構成では、失敗原因を分類しやすい。認識失敗、把持失敗、設備通信失敗、治具不良、照明不良、人の介入、品質判定ミスが分かれる。原因分類ができるほど、再学習、治具変更、照明変更、作業手順変更へ戻しやすい。
最初の導入候補
初期導入候補として扱いやすい作業は、製品を取り、設備へ入れ、出口から受け取り、次の場所へ置く作業である。対象物、置き場、設備状態、失敗時の処理を定義しやすく、データも集めやすい。
この構成では、設備の開始、完了、アラーム、投入許可を通信で扱う。PLCや設備APIで扱える処理を通信へ寄せると、ロボットに人間用ボタンを押させる構成より状態管理が明確になる。
ロボット側の学習対象は次の範囲に絞る。
- 正しく対象物を見つける
- 正しい向きで持つ
- 滑りや落下を検知する
- 設備入口へ安全に置く
- 治具へ正しく入ったか確認する
- 取り出し時に傷や欠けがないか見る
- 判断が曖昧なときに人へ渡す
作業の流れは次のようになる。
1. MESが搬送または投入指示を出す
2. 設備側が投入許可をPLCまたはAPIで返す
3. カメラがワーク位置と向きを検出する
4. ロボットが把持する
5. 力覚または画像で把持状態を確認する
6. ロボットが設備入口へ置く
7. カメラまたは設備信号で設置完了を確認する
8. PLCまたはAPIで設備を開始する
9. 完了信号を受けてロボットが取り出す
10. 画像検査で傷、欠け、向き、ラベル、欠品を見る
11. OKなら次工程へ流す
12. NGまたは不確実なら人へ渡す
13. 画像、設備状態、行動、結果をログとして残す
この導入候補は一例である。対象工程によって、固定ロボット、AMR、コンベヤ、専用治具、画像検査装置の組み合わせは変わる。考え方の中心は、確定的な設備制御を通信と状態機械へ寄せ、現場の揺らぎを含む把持、設置確認、画像検査、異常検知をAIへ寄せることである。
画像検査と異常検知
画像検査は、フィジカルAIの初期導入候補になりやすい。対象を限定しやすく、失敗時の処理を設計しやすく、搬送や設備投入と同時にデータを集めやすい。
機械視覚は、対象物、照明、撮像位置、判定基準が安定しているほど性能を出しやすい。Intelは機械視覚を、カメラとコンピュータ処理によって自動検査や測定を行う技術として説明している。工業製品の表面欠陥検出については、深層学習ベースの物体検出を扱うレビュー論文もある。参考: Intel、Springerレビュー
未知の不良、反射、照明変化、汚れ、カメラの焦点ズレ、対象物の個体差、学習データにない欠陥では、誤検知や見逃しが起きる。初期運用ではOKとNGだけに分けず、保留と人確認を残す構成が扱いやすい。
画像検査で価値が出やすいのは、人間が疲労しやすい反復確認、微小欠陥の見落としが起きやすい作業、記録性が必要な品質確認である。人間以上の結果が出るかどうかは、対象物、照明、撮像条件、不良定義、データ量、運用設計に依存する。参考: IBM Research、紙コップ欠陥検出研究
導入手順
初期導入では、データ、通信、判定、実行、閉ループの順で進める構成が扱いやすい。
- 対象工程の状態を定義する。設備ready、投入許可、完了、アラーム、ロット不一致、置き場空き、作業者接近、保留、復旧中を明確にする。
- PLC、設備API、MES、SCADAから状態を読む。最初は読み取り専用でよい。
- 画像とログを集める。画像、設備状態、ロット、作業結果、介入理由を同じ時刻軸で紐づける。
- AIを影で動かす。AIの判定を現場の意思決定へ使わず、人の判断と照合する。
- 低リスク部分から制御へ接続する。最初は人確認後に搬送し、次に確信度の高いOKだけを自動で流す。
- 保留、復旧、人への引き渡し、再学習の流れを整えたうえで、自動化範囲を広げる。
この順序を採ると、失敗時に認識、把持、通信、治具、照明、作業順序のどこに原因があるかを切り分けやすい。
投じる経営資源
フィジカルAIへの投資対象は、ロボット本体に限られない。現場で効く投資は、物理環境、接続基盤、データ基盤、専門AI、安全と運用に分かれる。
物理環境では、治具、照明、カメラ、グリッパ、置き場、搬送経路、安全柵、復旧しやすいレイアウトへ投資する。接続基盤では、PLC、MES、SCADA、設備API、OPC UA、ロボットコントローラをつなぐ。データ基盤では、画像、動画、力覚、触覚、設備ログ、品質結果、作業者介入、復旧操作を同じ時刻軸で残す。
専門AIでは、把持確認、設置確認、画像検査、異常検知、エスカレーション判定のように、狭いが価値のあるAIを積み上げる。安全と運用では、インターロック、非常停止、権限、変更管理、監査ログ、保守、現場教育、復旧手順を整える。
人材面では、AIエンジニアだけで完結しない。制御、ロボット、画像処理、データ基盤、MLOps、設備保全、品質保証、安全設計を横断できるチームが要る。製造業では、ITを情シスの周辺業務として扱うより、工程、品質、保全を動かす製造技術として扱う方がフィジカルAIに向いている。
個人が身につけるスキル
エンジニアがフィジカルAIへ入るなら、現場の物理とソフトウェアを接続できる能力が価値を持つ。
- Python、C++、Linux、Docker
- 画像処理、物体検出、姿勢推定、セグメンテーション
- 時系列データ、ログ設計、データ品質管理
- PLC、OPC UA、産業ネットワーク、設備API
- ROS 2、ロボットコントローラ、AMR連携
- 座標変換、キャリブレーション、ロボット運動学
- グリッパ、治具、照明、カメラ配置の基礎
- MLOps、モデル評価、再学習、データセット管理
- 機能安全、リスクアセスメント、非常停止、権限管理
- 品質保証、トレーサビリティ、変更管理
特に不足しやすいのは、座標系、時間同期、設備通信、安全制御である。AIモデルの精度が高くても、カメラ座標とロボット座標がずれていれば置けない。PLCの状態を読めなければ設備へ入れられない。時刻がずれていれば失敗原因を追えない。安全制御が弱ければ現場へ出せない。
2030年までの展望
2026年から2028年は、限定された作業セルでの導入が中心になるのではないか。対象は、設備投入、取り出し、搬送、画像検査、棚やトートの扱い、工場内物流、点検、医療支援のような領域である。IFRの実績値では、産業ロボット、物流向けサービスロボット、医療ロボットがすでに大きな実装基盤を持つ。BMW/Figureの事例も、汎用的な人間代替より、限定作業を既存工程へ接続する動きに見える。
2028年から2030年にかけては、単体セルから複数セルの連携へ進む可能性がある。ロボット、AMR、検査装置、設備、MES、WMSが同じ状態管理の上でつながり、搬送順序、検査、投入、保留、人への引き渡しが連動する構成である。
ヒューマノイドは、人間向け環境へ入るための選択肢の一つになる。通路、棚、扉、作業台、台車、治具が人間向けに作られている場所では、人型に近い身体に合理性がある。一方で、工場ではAMRとアーム、固定ロボット、専用ハンド、ガントリー、画像検査、コンベヤを組み合わせる方が安い場合も多い。
長期の方向は、AIが物理世界を運用対象として扱うことである。現場を観測し、設備と通信し、ロボットを動かし、品質を見て、失敗を分類し、治具や手順へ戻す。この閉ループを持てる企業と、ロボット本体を買うだけの企業の差は広がる。
結論
フィジカルAIの核心は、現実世界を観測し、判断し、通信と物理動作で変え、結果を戻す閉ループにある。
現在の到達点は、VLA、ワールドモデル、シミュレーション、実機データ、設備通信、安全制御が接続され始め、工場や倉庫の限定作業で検証が進む段階である。
初期導入では、設備通信で決められる部分を確実に処理し、AIは把持、設置、検査、異常検知、人への引き渡しに集中させる構成が扱いやすいと考える。失敗ログと復旧ログを集め、改善ループを回す設計が要る。
フィジカルAIへの投資判断は、ロボット本体の購入では決まらない。物理環境、設備接続、データ基盤、専門AI、安全運用、人材を同時に整えるかどうかで決まる。
日本にとっての論点は、AI、ソフトウェア、データ、シミュレーション、制御、安全、品質保証を製造技術として統合できるかである。ロボット部品やFA機器の強さを、現場データとソフトウェアを含む実装基盤へ広げられるかが、フィジカルAI時代の競争力になる。

