フィジカルAIは自宅で試せる時代になった｜誰でもできるフィジカルAI 第1回：VLMとVLAの違い

私は2025年12月、自動収穫ロボットを開発するAGRISTで、Microsoft AI Co-Innovation Lab KOBEと一緒に「フィジカルAI」の開発検証を行いました（プレスリリースの公表は2026年2月になりました）。

やったことを一言でいうと、こうです。ロボットのカメラ画像（RGB/Depth）を生成AIに渡し、「障害物を回り込むための推奨角度」を算出させ、その角度をAzure Functions経由でロボットアームの動作につなぐ。画像から状況を解釈して、ロボットが動ける具体的な指示（角度データ）に落とし込む、という仕組みです。

検証はうまくいきました。プレスリリースはこちらです。

AGRIST、Microsoft AI Co-Innovation Lab KOBEでフィジカルAIにより収穫性能向上に向けた開発検証を実施

ただ、この検証を進めながら、最初から意識していたことがあります。

「画像を入れて、座標や角度を出力させて、その通りにロボットを動かす」——この角度出力型は有効な一手です。ですが、フィジカルAIには、これとは根本から設計思想の違うアプローチがある。そこまで踏み込んでこそ最前線です。

別方式が存在すること自体は、以前から掴んでいました。ただ、自分の手を動かして腹落ちさせたことはなかった。だから今回、技術者としてさらにレベルアップするために、最新のフィジカルAIを一から勉強し直すことにしました。調べてみると、その最前線の技術は、想像以上に進化していて——しかも自宅のPC1台で実際に試せるところまで来ていました。

だからこのシリーズを始めます。タイトルは「フィジカルAIチャレンジ〜誰でもできるフィジカルAI〜」。私自身が手を動かして学びながら、全6回で「自宅でフィジカルAIを動かす」ところまでやります。第1回の今回は、その土台になる2つの言葉、VLM と VLA を整理します。

「個人のGPUでは無理」が変わったのは、ここ1年半の話

正直に書くと、少し前まで「最新のロボットAIを、個人のGPUで試すのは無理」というのが私の肌感覚でした。そしてこの感覚は、2024年前半までは正確でした。研究室がデータセンター級の計算資源で回す世界だったからです。

流れが変わったのは、ここ1年半に集中して起きた出来事の連なりです。2024年5月、Hugging Faceがロボット学習をオープンソース化する「LeRobot」を公開。同年6月には、24GBのGPU1枚で微調整できるオープンソースのロボットAI「OpenVLA」が登場。同年10月に約100ドルの低価格ロボットアーム「SO-100」、2025年2月には有力な基盤モデル「π0（パイゼロ）」の重みが公開されました。

ソフト・モデル・安価なハードが、わずか1年で出揃ったわけです。だから「個人では難しい」という印象は間違いではなく、”その印象ができた頃から状況が急変した”が正しい。 このシリーズは、その急変した後の世界で個人が何をどこまでできるのか、自分の手で確かめる試みでもあります。

フィジカルAIとは「AIの判断をロボット動作につなぐ仕組み」

まず言葉の整理から。フィジカルAIとは、AIの判断を物理世界のロボット動作へ接続する仕組みのことです。画面の中で文章や画像を生成して終わり、ではなく、その判断が現実のモーターを動かすところまでつながっているものを指します。

生成AIブームは、文章・画像・コードといった「画面の中」で起きました。フィジカルAIは、その知能を「画面の外」、つまりロボットの身体に接続する流れです。研究の実験自動化、物流、製造、農業、家庭用ロボットなど、応用先が一気に広がっています。

ここまでは、おそらく多くの人のイメージ通りだと思います。問題は「中身の作り方」です。ここに段階があり、その段階を理解することがフィジカルAI入門の第一歩になります。

私が実務でやったのは「座標・角度を出力させる」フィジカルAI

最初に、私自身が実務で組んだ方式を正直に書きます。これは「生成AIに状況を判断させ、座標や角度といった数値を出力させて、ロボットを動かす」方式です。

AGRISTの検証では、こういう流れでした。

カメラ画像を前処理してMicrosoft Foundry Models上の生成AIに渡す。生成AIが「回り込み角度」をJSON形式で返す。その角度をAzure Functions経由でロボットが受け取り、アームの動作に反映する。2ケース（ヘタ隠れ／障害物あり）で、実機が指示通りに動くところまで確認できました。

これは立派なフィジカルAIです。AIの判断がロボットを動かしているので、定義通り。現場の収穫成功率を上げる手応えも得られました。

ただし、この方式には構造上の特徴があります。

ひとつ、AIは「角度」という中間の数値を出すだけで、ロボットの動き方そのものは学習していないこと。動作生成は従来の制御に任せています。もうひとつ、推論に時間がかかること。実際、検証では1回の推論に概ね10〜30秒かかりました。位置が決まっている対象に一発で角度を出す用途なら、これで十分機能します。でも、刻一刻と変わる接触の多い作業を、滑らかに連続制御するには向きません。

つまり私がやったのは、「AIが上流で段取りを決め、座標・角度に変換し、ロボットがその通り動く」タイプ。これはこれで現場で役に立つ、れっきとした実装です。

世界の最前線は「座標を経由しない」方式に進んでいる

ところが、いま研究と各社が競っているフィジカルAIの最前線は、この「座標・角度を出力させる」方式とは設計思想が違います。

何が違うか。画像と指示から、座標や角度を一切経由せず、ロボットのモーター制御コマンドを直接出力するのです。途中に「角度」のような人間が読める中間表現が存在しない。画像（ピクセル）から動作へ、一気通貫で写像します。

この一気通貫の方式を担うのが、VLA（Vision-Language-Action）モデルです。Physical Intelligenceの「π0（パイゼロ）」、スタンフォードなどの「OpenVLA」、NVIDIAの「GR00T」、Figureの「Helix」、Google DeepMindの「Gemini Robotics」——2024年以降に主流化したこれらが、すべてこの系統です。

私が実務でやった「角度出力型」と、この「VLA型」。この2つの違いを腹落ちさせるために、ここからVLMとVLAという言葉を順番に説明します。

VLMとは何か：画像と言葉を入れて、言葉を返す

先にVLMから。VLM（Vision-Language Model）は、画像（Vision）と言葉（Language）を入力し、言葉（テキスト）を出力するモデルです。

身近な例でいうと、ChatGPTやClaude、Geminiの画像理解がこれです。写真を見せて「何が写っている？」「赤いカップはどこ？」と聞くと、答えが返ってくる。あの能力です。

ポイントは、出力が「言葉」だということ。VLMが出すのは説明・記述であって、モデル自身が物理世界に手を出すわけではありません。

VLMの構造
入力：画像 ＋ 言葉（指示・質問）
出力：言葉（説明・座標などの記述）

ここで気づく人もいると思います。私が実務でやった「画像を渡して角度を出力させる」方式は、構造的にはこのVLMの使い方に近いのです。VLM（に近い生成AI）に状況を説明させ、その出力（角度）を別の仕組みでロボットにつないでいた。つまり「VLMの言葉の出力を、人間が作った配管でロボットに流していた」とも言えます。

VLAとは何か：VLMに「身体」を足したもの

ではVLAです。一言でいうと、VLAは、VLMの出力を「言葉」から「行動（Action）」に置き換えたものです。

VLAの構造
入力：画像 ＋ 言葉（指示）
出力：行動（ロボットの関節角度・速度・グリッパー操作などの制御コマンド）

入力はVLMと同じ「画像＋言葉」。違うのは出力です。テキストではなく、ロボットのモーターをどう動かすかという制御値が、直接出てきます。先ほどの「座標を経由しない」というのは、この出力部分のことです。

そして重要なのは、VLAは一から作るのではなく、土台にVLMを使うということ。OpenVLAもGR00TもHelixも、まずネット規模で学習済みのVLM（世界の常識・物体・言葉を理解している部分）を持ってきて、その先に「行動を出力するヘッド」を接ぎ木し、実ロボットのデータで追加学習しています。

系譜にすると、こうです。

VLM（見て・読んで・言葉で答える）
  ↓ 行動を出力するヘッドを接ぎ木し、実ロボットのデータで学習
VLA（見て・指示を理解して・身体を動かす）

VLMが「目と頭脳」だとすれば、VLAはそこに「手足」を付けて物理世界に接続したもの。この捉え方が一番しっくりきます。

VLMとVLAの違いを一枚で

ここまでを整理します。

観点	VLM	VLA
入力	画像＋言葉	画像＋言葉
出力	言葉（説明・記述）	行動（モーター制御コマンド）
物理世界	触れない（記述するだけ）	直接動かす
たとえ	目と頭脳	目と頭脳＋手足
代表例	GPT-4V / Claude / Gemini	π0 / OpenVLA / GR00T / Helix

画像認識やYOLOに馴染みのある方向けに補足すると、YOLOやセグメンテーションは「目」の中の知覚に特化した部品、VLMは「目＋言語的な理解」、VLAは「それを動作にまでつなげた全体システム」、という階層関係で整理できます。

私の「角度出力型」と最新VLAは、結局何が違うのか

では本題に戻ります。私が実務でやった「角度出力型」と、最新の「VLA型」は何が違うのか。差は2つです。

ひとつは、中間表現があるかないか。角度出力型は「角度」という人間が読める数値を経由します。VLA型は経由せず、画像から動作へ直接いきます。

もうひとつは、動作そのものを学習しているかどうか。角度出力型では、ロボットの滑らかな動き方は学習対象に入っていません。VLA型は、人間が実演したお手本データから「どう動くか」自体を学習します。

なぜ最前線がVLA型に進んだのか。理由は速度と接触です。座標や角度を毎回AIに問い合わせる方式は、位置が決まった一発動作には強い一方、刻一刻と状況が変わる接触の多い作業には遅すぎます。実際、最新のHelixは「ゆっくり状況を理解する遅い層」と「滑らかに身体を動かす速い層」を分け、後者を高速で回すことでこの問題に対処しています。

ここで誤解してほしくないのは、角度出力型が劣っているわけではないということです。対象の位置が構造化された現場（私がやった農業の収穫や、ラボの定型実験など）では、角度出力型のほうが軽くて確実なことも多い。要は適材適所です。ただ、フィジカルAIの全体像を理解するには、両方の方式と、その違いを押さえておく必要があります。

このシリーズでやること（全6回ロードマップ）

ここからが本題です。VLAは、研究機関だけのものではありません。土台になるVLMもオープンソースで公開され、OpenVLAのような完成済みVLAも重みが公開されています。学習も、工夫すれば家庭用のGPU1枚で回せるところまで来ています。

なので、このシリーズでは実際に自宅で手を動かします。全6回の予定はこうです。

第1回（今回）｜VLMとVLAとは何か第2回｜VLMをローカルで動かす（装置なし・PCだけ）第3回｜VLAをシミュレーションで動かす（装置なし・PCだけ）第4回｜実機を用意する（低価格ロボットアームの組み立て）第5回｜人がロボットを操縦してデータを貯める第6回｜自宅のGPUで学習させて、自律で動かす

第2回からは、いよいよ実際にモデルを動かしていきます。装置を買うのは第4回からなので、最初の数回はお手持ちのPCだけで一緒に進められます。私もここから先は手探りで、詰まった失敗も含めて正直に書いていきます。

まとめ

フィジカルAIとは、AIの判断を物理世界のロボット動作につなぐ仕組み。中身の作り方には段階があり、その段階を理解することが入門の第一歩。
私が実務（AGRIST×Microsoft）でやったのは「画像を生成AIに渡し、角度を出力させ、API経由でロボットを動かす」角度出力型。現場で機能する立派な実装だが、座標を経由し、動作そのものは学習していない。
VLMは「画像＋言葉 → 言葉」、VLAは「画像＋言葉 → 行動」。VLAはVLMを土台に、行動を出力するヘッドを接ぎ木して実ロボットのデータで学習したもの。VLMが目と頭脳、VLAはそこに手足を足したもの。
最新のVLA型は座標を経由せず、画像から動作へ直接写像する。角度出力型が劣るわけではなく適材適所。次回からこのVLA型を、自宅のPCとGPUで実際に動かしていく。

「自社のロボットやAI導入で、どこまでが現実的に作れるのか、誰かと整理したい」という方は、無料の30分オンライン診断で一緒に交通整理できます。実務でフィジカルAIを現場実装した経験から、率直にお話しします。

この記事の技術を、現場で実装したい方へ

AI×IoTの技術顧問として、月額契約で継続伴走しています。PoC設計・技術判断・組織設計・ベンダー管理・実装支援まで、現場で動くまで一緒に進めます。受託開発（請負）ではありません。

→ AI技術顧問サービスの詳細／無料30分オンライン診断／料金一覧

AI coordinator

現場で動くAIを、一緒に

フィジカルAIは自宅で試せる時代になった｜誰でもできるフィジカルAI 第1回：VLMとVLAの違い

「個人のGPUでは無理」が変わったのは、ここ1年半の話

フィジカルAIとは「AIの判断をロボット動作につなぐ仕組み」

私が実務でやったのは「座標・角度を出力させる」フィジカルAI

世界の最前線は「座標を経由しない」方式に進んでいる

VLMとは何か：画像と言葉を入れて、言葉を返す

VLAとは何か：VLMに「身体」を足したもの

VLMとVLAの違いを一枚で

私の「角度出力型」と最新VLAは、結局何が違うのか

このシリーズでやること（全6回ロードマップ）

まとめ

About The Author

Recent Articles Of This Author

【誰でも今夜から】AIと一緒に”好きを突き詰める”時代の始め方｜星空観測で実感...

AIに最後まで置き換わらないのは、20年前に「これからはオープン系」と言われたメインフレームだった

生成AIは9割が成果ゼロ｜「個人の時短」から「AI駆動型企業」へ繋ぐ5つのフェーズ

フィジカルAIを自宅PCで動かす｜誰でもできるフィジカルAI 第2回：Ollama＋Qwen3-VLで...

AI時代に残る仕事とは何か｜ジェヴォンズのパラドクスで読み解く「信頼・所属・意味」という堀

「面白い技術」ほど、なぜお金にならないのか｜登山アプリに学ぶ、続くサービスと消えるサービスの差

LEAVE A REPLY CANCEL REPLY