私は2025年12月、自動収穫ロボットを開発するAGRISTで、Microsoft AI Co-Innovation Lab KOBEと一緒に「フィジカルAI」の開発検証を行いました(プレスリリースの公表は2026年2月になりました)。
やったことを一言でいうと、こうです。ロボットのカメラ画像(RGB/Depth)を生成AIに渡し、「障害物を回り込むための推奨角度」を算出させ、その角度をAzure Functions経由でロボットアームの動作につなぐ。画像から状況を解釈して、ロボットが動ける具体的な指示(角度データ)に落とし込む、という仕組みです。
検証はうまくいきました。プレスリリースはこちらです。
AGRIST、Microsoft AI Co-Innovation Lab KOBEでフィジカルAIにより収穫性能向上に向けた開発検証を実施
ただ、この検証を進めながら、最初から意識していたことがあります。
「画像を入れて、座標や角度を出力させて、その通りにロボットを動かす」——この角度出力型は有効な一手です。ですが、フィジカルAIには、これとは根本から設計思想の違うアプローチがある。そこまで踏み込んでこそ最前線です。
別方式が存在すること自体は、以前から掴んでいました。ただ、自分の手を動かして腹落ちさせたことはなかった。だから今回、技術者としてさらにレベルアップするために、最新のフィジカルAIを一から勉強し直すことにしました。調べてみると、その最前線の技術は、想像以上に進化していて——しかも自宅のPC1台で実際に試せるところまで来ていました。
だからこのシリーズを始めます。タイトルは「フィジカルAIチャレンジ 〜誰でもできるフィジカルAI〜」。私自身が手を動かして学びながら、全6回で「自宅でフィジカルAIを動かす」ところまでやります。第1回の今回は、その土台になる2つの言葉、VLM と VLA を整理します。
「個人のGPUでは無理」が変わったのは、ここ1年半の話
正直に書くと、少し前まで「最新のロボットAIを、個人のGPUで試すのは無理」というのが私の肌感覚でした。そしてこの感覚は、2024年前半までは正確でした。研究室がデータセンター級の計算資源で回す世界だったからです。
流れが変わったのは、ここ1年半に集中して起きた出来事の連なりです。2024年5月、Hugging Faceがロボット学習をオープンソース化する「LeRobot」を公開。同年6月には、24GBのGPU1枚で微調整できるオープンソースのロボットAI「OpenVLA」が登場。同年10月に約100ドルの低価格ロボットアーム「SO-100」、2025年2月には有力な基盤モデル「π0(パイゼロ)」の重みが公開されました。
ソフト・モデル・安価なハードが、わずか1年で出揃ったわけです。だから「個人では難しい」という印象は間違いではなく、”その印象ができた頃から状況が急変した”が正しい。 このシリーズは、その急変した後の世界で個人が何をどこまでできるのか、自分の手で確かめる試みでもあります。
フィジカルAIとは「AIの判断をロボット動作につなぐ仕組み」
まず言葉の整理から。フィジカルAIとは、AIの判断を物理世界のロボット動作へ接続する仕組みのことです。画面の中で文章や画像を生成して終わり、ではなく、その判断が現実のモーターを動かすところまでつながっているものを指します。
生成AIブームは、文章・画像・コードといった「画面の中」で起きました。フィジカルAIは、その知能を「画面の外」、つまりロボットの身体に接続する流れです。研究の実験自動化、物流、製造、農業、家庭用ロボットなど、応用先が一気に広がっています。
ここまでは、おそらく多くの人のイメージ通りだと思います。問題は「中身の作り方」です。ここに段階があり、その段階を理解することがフィジカルAI入門の第一歩になります。
私が実務でやったのは「座標・角度を出力させる」フィジカルAI
最初に、私自身が実務で組んだ方式を正直に書きます。これは「生成AIに状況を判断させ、座標や角度といった数値を出力させて、ロボットを動かす」方式です。
AGRISTの検証では、こういう流れでした。
カメラ画像を前処理してMicrosoft Foundry Models上の生成AIに渡す。生成AIが「回り込み角度」をJSON形式で返す。その角度をAzure Functions経由でロボットが受け取り、アームの動作に反映する。2ケース(ヘタ隠れ/障害物あり)で、実機が指示通りに動くところまで確認できました。
これは立派なフィジカルAIです。AIの判断がロボットを動かしているので、定義通り。現場の収穫成功率を上げる手応えも得られました。
ただし、この方式には構造上の特徴があります。
ひとつ、AIは「角度」という中間の数値を出すだけで、ロボットの動き方そのものは学習していないこと。動作生成は従来の制御に任せています。もうひとつ、推論に時間がかかること。実際、検証では1回の推論に概ね10〜30秒かかりました。位置が決まっている対象に一発で角度を出す用途なら、これで十分機能します。でも、刻一刻と変わる接触の多い作業を、滑らかに連続制御するには向きません。
つまり私がやったのは、「AIが上流で段取りを決め、座標・角度に変換し、ロボットがその通り動く」タイプ。これはこれで現場で役に立つ、れっきとした実装です。
世界の最前線は「座標を経由しない」方式に進んでいる
ところが、いま研究と各社が競っているフィジカルAIの最前線は、この「座標・角度を出力させる」方式とは設計思想が違います。
何が違うか。画像と指示から、座標や角度を一切経由せず、ロボットのモーター制御コマンドを直接出力するのです。途中に「角度」のような人間が読める中間表現が存在しない。画像(ピクセル)から動作へ、一気通貫で写像します。
この一気通貫の方式を担うのが、VLA(Vision-Language-Action)モデルです。Physical Intelligenceの「π0(パイゼロ)」、スタンフォードなどの「OpenVLA」、NVIDIAの「GR00T」、Figureの「Helix」、Google DeepMindの「Gemini Robotics」——2024年以降に主流化したこれらが、すべてこの系統です。
私が実務でやった「角度出力型」と、この「VLA型」。この2つの違いを腹落ちさせるために、ここからVLMとVLAという言葉を順番に説明します。
VLMとは何か:画像と言葉を入れて、言葉を返す
先にVLMから。VLM(Vision-Language Model)は、画像(Vision)と言葉(Language)を入力し、言葉(テキスト)を出力するモデルです。
身近な例でいうと、ChatGPTやClaude、Geminiの画像理解がこれです。写真を見せて「何が写っている?」「赤いカップはどこ?」と聞くと、答えが返ってくる。あの能力です。
ポイントは、出力が「言葉」だということ。VLMが出すのは説明・記述であって、モデル自身が物理世界に手を出すわけではありません。
VLMの構造
入力:画像 + 言葉(指示・質問)
出力:言葉(説明・座標などの記述)
ここで気づく人もいると思います。私が実務でやった「画像を渡して角度を出力させる」方式は、構造的にはこのVLMの使い方に近いのです。VLM(に近い生成AI)に状況を説明させ、その出力(角度)を別の仕組みでロボットにつないでいた。つまり「VLMの言葉の出力を、人間が作った配管でロボットに流していた」とも言えます。
VLAとは何か:VLMに「身体」を足したもの
ではVLAです。一言でいうと、VLAは、VLMの出力を「言葉」から「行動(Action)」に置き換えたものです。
VLAの構造
入力:画像 + 言葉(指示)
出力:行動(ロボットの関節角度・速度・グリッパー操作などの制御コマンド)
入力はVLMと同じ「画像+言葉」。違うのは出力です。テキストではなく、ロボットのモーターをどう動かすかという制御値が、直接出てきます。先ほどの「座標を経由しない」というのは、この出力部分のことです。
そして重要なのは、VLAは一から作るのではなく、土台にVLMを使うということ。OpenVLAもGR00TもHelixも、まずネット規模で学習済みのVLM(世界の常識・物体・言葉を理解している部分)を持ってきて、その先に「行動を出力するヘッド」を接ぎ木し、実ロボットのデータで追加学習しています。
系譜にすると、こうです。
VLM(見て・読んで・言葉で答える)
↓ 行動を出力するヘッドを接ぎ木し、実ロボットのデータで学習
VLA(見て・指示を理解して・身体を動かす)
VLMが「目と頭脳」だとすれば、VLAはそこに「手足」を付けて物理世界に接続したもの。この捉え方が一番しっくりきます。
VLMとVLAの違いを一枚で
ここまでを整理します。
| 観点 | VLM | VLA |
|---|---|---|
| 入力 | 画像 + 言葉 | 画像 + 言葉 |
| 出力 | 言葉(説明・記述) | 行動(モーター制御コマンド) |
| 物理世界 | 触れない(記述するだけ) | 直接動かす |
| たとえ | 目と頭脳 | 目と頭脳 + 手足 |
| 代表例 | GPT-4V / Claude / Gemini | π0 / OpenVLA / GR00T / Helix |
画像認識やYOLOに馴染みのある方向けに補足すると、YOLOやセグメンテーションは「目」の中の知覚に特化した部品、VLMは「目+言語的な理解」、VLAは「それを動作にまでつなげた全体システム」、という階層関係で整理できます。
私の「角度出力型」と最新VLAは、結局何が違うのか
では本題に戻ります。私が実務でやった「角度出力型」と、最新の「VLA型」は何が違うのか。差は2つです。
ひとつは、中間表現があるかないか。角度出力型は「角度」という人間が読める数値を経由します。VLA型は経由せず、画像から動作へ直接いきます。
もうひとつは、動作そのものを学習しているかどうか。角度出力型では、ロボットの滑らかな動き方は学習対象に入っていません。VLA型は、人間が実演したお手本データから「どう動くか」自体を学習します。
なぜ最前線がVLA型に進んだのか。理由は速度と接触です。座標や角度を毎回AIに問い合わせる方式は、位置が決まった一発動作には強い一方、刻一刻と状況が変わる接触の多い作業には遅すぎます。実際、最新のHelixは「ゆっくり状況を理解する遅い層」と「滑らかに身体を動かす速い層」を分け、後者を高速で回すことでこの問題に対処しています。
ここで誤解してほしくないのは、角度出力型が劣っているわけではないということです。対象の位置が構造化された現場(私がやった農業の収穫や、ラボの定型実験など)では、角度出力型のほうが軽くて確実なことも多い。要は適材適所です。ただ、フィジカルAIの全体像を理解するには、両方の方式と、その違いを押さえておく必要があります。
このシリーズでやること(全6回ロードマップ)
ここからが本題です。VLAは、研究機関だけのものではありません。土台になるVLMもオープンソースで公開され、OpenVLAのような完成済みVLAも重みが公開されています。学習も、工夫すれば家庭用のGPU1枚で回せるところまで来ています。
なので、このシリーズでは実際に自宅で手を動かします。全6回の予定はこうです。
第1回(今回)|VLMとVLAとは何か 第2回|VLMをローカルで動かす(装置なし・PCだけ) 第3回|VLAをシミュレーションで動かす(装置なし・PCだけ) 第4回|実機を用意する(低価格ロボットアームの組み立て) 第5回|人がロボットを操縦してデータを貯める 第6回|自宅のGPUで学習させて、自律で動かす
第2回からは、いよいよ実際にモデルを動かしていきます。装置を買うのは第4回からなので、最初の数回はお手持ちのPCだけで一緒に進められます。私もここから先は手探りで、詰まった失敗も含めて正直に書いていきます。
まとめ
- フィジカルAIとは、AIの判断を物理世界のロボット動作につなぐ仕組み。中身の作り方には段階があり、その段階を理解することが入門の第一歩。
- 私が実務(AGRIST×Microsoft)でやったのは「画像を生成AIに渡し、角度を出力させ、API経由でロボットを動かす」角度出力型。現場で機能する立派な実装だが、座標を経由し、動作そのものは学習していない。
- VLMは「画像+言葉 → 言葉」、VLAは「画像+言葉 → 行動」。VLAはVLMを土台に、行動を出力するヘッドを接ぎ木して実ロボットのデータで学習したもの。VLMが目と頭脳、VLAはそこに手足を足したもの。
- 最新のVLA型は座標を経由せず、画像から動作へ直接写像する。角度出力型が劣るわけではなく適材適所。次回からこのVLA型を、自宅のPCとGPUで実際に動かしていく。
「自社のロボットやAI導入で、どこまでが現実的に作れるのか、誰かと整理したい」という方は、無料の30分オンライン診断で一緒に交通整理できます。実務でフィジカルAIを現場実装した経験から、率直にお話しします。
この記事の技術を、現場で実装したい方へ
AI×IoTの技術顧問として、月額契約で継続伴走しています。PoC設計・技術判断・組織設計・ベンダー管理・実装支援まで、現場で動くまで一緒に進めます。受託開発(請負)ではありません。
→ AI技術顧問サービスの詳細 / 無料30分オンライン診断 / 料金一覧






LEAVE A REPLY