フィジカルAIは自宅で試せる時代になった|誰でもできるフィジカルAI 第1回:VLMとVLAの違い

フィジカルAIは自宅で試せる時代になった|誰でもできるフィジカルAI 第1回:VLMとVLAの違い

私は2025年12月、自動収穫ロボットを開発するAGRISTで、Microsoft AI Co-Innovation Lab KOBEと一緒に「フィジカルAI」の開発検証を行いました(プレスリリースの公表は2026年2月になりました)。

やったことを一言でいうと、こうです。ロボットのカメラ画像(RGB/Depth)を生成AIに渡し、「障害物を回り込むための推奨角度」を算出させ、その角度をAzure Functions経由でロボットアームの動作につなぐ。画像から状況を解釈して、ロボットが動ける具体的な指示(角度データ)に落とし込む、という仕組みです。

検証はうまくいきました。プレスリリースはこちらです。

AGRIST、Microsoft AI Co-Innovation Lab KOBEでフィジカルAIにより収穫性能向上に向けた開発検証を実施

ただ、この検証を進めながら、最初から意識していたことがあります。

「画像を入れて、座標や角度を出力させて、その通りにロボットを動かす」——この角度出力型は有効な一手です。ですが、フィジカルAIには、これとは根本から設計思想の違うアプローチがある。そこまで踏み込んでこそ最前線です。

別方式が存在すること自体は、以前から掴んでいました。ただ、自分の手を動かして腹落ちさせたことはなかった。だから今回、技術者としてさらにレベルアップするために、最新のフィジカルAIを一から勉強し直すことにしました。調べてみると、その最前線の技術は、想像以上に進化していて——しかも自宅のPC1台で実際に試せるところまで来ていました。

だからこのシリーズを始めます。タイトルは「フィジカルAIチャレンジ 〜誰でもできるフィジカルAI〜」。私自身が手を動かして学びながら、全6回で「自宅でフィジカルAIを動かす」ところまでやります。第1回の今回は、その土台になる2つの言葉、VLMVLA を整理します。

「個人のGPUでは無理」が変わったのは、ここ1年半の話

正直に書くと、少し前まで「最新のロボットAIを、個人のGPUで試すのは無理」というのが私の肌感覚でした。そしてこの感覚は、2024年前半までは正確でした。研究室がデータセンター級の計算資源で回す世界だったからです。

流れが変わったのは、ここ1年半に集中して起きた出来事の連なりです。2024年5月、Hugging Faceがロボット学習をオープンソース化する「LeRobot」を公開。同年6月には、24GBのGPU1枚で微調整できるオープンソースのロボットAI「OpenVLA」が登場。同年10月に約100ドルの低価格ロボットアーム「SO-100」、2025年2月には有力な基盤モデル「π0(パイゼロ)」の重みが公開されました。

ソフト・モデル・安価なハードが、わずか1年で出揃ったわけです。だから「個人では難しい」という印象は間違いではなく、”その印象ができた頃から状況が急変した”が正しい。 このシリーズは、その急変した後の世界で個人が何をどこまでできるのか、自分の手で確かめる試みでもあります。

フィジカルAIとは「AIの判断をロボット動作につなぐ仕組み」

まず言葉の整理から。フィジカルAIとは、AIの判断を物理世界のロボット動作へ接続する仕組みのことです。画面の中で文章や画像を生成して終わり、ではなく、その判断が現実のモーターを動かすところまでつながっているものを指します。

生成AIブームは、文章・画像・コードといった「画面の中」で起きました。フィジカルAIは、その知能を「画面の外」、つまりロボットの身体に接続する流れです。研究の実験自動化、物流、製造、農業、家庭用ロボットなど、応用先が一気に広がっています。

ここまでは、おそらく多くの人のイメージ通りだと思います。問題は「中身の作り方」です。ここに段階があり、その段階を理解することがフィジカルAI入門の第一歩になります。

私が実務でやったのは「座標・角度を出力させる」フィジカルAI

最初に、私自身が実務で組んだ方式を正直に書きます。これは「生成AIに状況を判断させ、座標や角度といった数値を出力させて、ロボットを動かす」方式です。

AGRISTの検証では、こういう流れでした。

カメラ画像を前処理してMicrosoft Foundry Models上の生成AIに渡す。生成AIが「回り込み角度」をJSON形式で返す。その角度をAzure Functions経由でロボットが受け取り、アームの動作に反映する。2ケース(ヘタ隠れ/障害物あり)で、実機が指示通りに動くところまで確認できました。

これは立派なフィジカルAIです。AIの判断がロボットを動かしているので、定義通り。現場の収穫成功率を上げる手応えも得られました。

ただし、この方式には構造上の特徴があります。

ひとつ、AIは「角度」という中間の数値を出すだけで、ロボットの動き方そのものは学習していないこと。動作生成は従来の制御に任せています。もうひとつ、推論に時間がかかること。実際、検証では1回の推論に概ね10〜30秒かかりました。位置が決まっている対象に一発で角度を出す用途なら、これで十分機能します。でも、刻一刻と変わる接触の多い作業を、滑らかに連続制御するには向きません。

つまり私がやったのは、「AIが上流で段取りを決め、座標・角度に変換し、ロボットがその通り動く」タイプ。これはこれで現場で役に立つ、れっきとした実装です。

世界の最前線は「座標を経由しない」方式に進んでいる

ところが、いま研究と各社が競っているフィジカルAIの最前線は、この「座標・角度を出力させる」方式とは設計思想が違います。

何が違うか。画像と指示から、座標や角度を一切経由せず、ロボットのモーター制御コマンドを直接出力するのです。途中に「角度」のような人間が読める中間表現が存在しない。画像(ピクセル)から動作へ、一気通貫で写像します。

この一気通貫の方式を担うのが、VLA(Vision-Language-Action)モデルです。Physical Intelligenceの「π0(パイゼロ)」、スタンフォードなどの「OpenVLA」、NVIDIAの「GR00T」、Figureの「Helix」、Google DeepMindの「Gemini Robotics」——2024年以降に主流化したこれらが、すべてこの系統です。

私が実務でやった「角度出力型」と、この「VLA型」。この2つの違いを腹落ちさせるために、ここからVLMとVLAという言葉を順番に説明します。

VLMとは何か:画像と言葉を入れて、言葉を返す

先にVLMから。VLM(Vision-Language Model)は、画像(Vision)と言葉(Language)を入力し、言葉(テキスト)を出力するモデルです。

身近な例でいうと、ChatGPTやClaude、Geminiの画像理解がこれです。写真を見せて「何が写っている?」「赤いカップはどこ?」と聞くと、答えが返ってくる。あの能力です。

ポイントは、出力が「言葉」だということ。VLMが出すのは説明・記述であって、モデル自身が物理世界に手を出すわけではありません。

VLMの構造
入力:画像 + 言葉(指示・質問)
出力:言葉(説明・座標などの記述)

ここで気づく人もいると思います。私が実務でやった「画像を渡して角度を出力させる」方式は、構造的にはこのVLMの使い方に近いのです。VLM(に近い生成AI)に状況を説明させ、その出力(角度)を別の仕組みでロボットにつないでいた。つまり「VLMの言葉の出力を、人間が作った配管でロボットに流していた」とも言えます。

VLAとは何か:VLMに「身体」を足したもの

ではVLAです。一言でいうと、VLAは、VLMの出力を「言葉」から「行動(Action)」に置き換えたものです。

VLAの構造
入力:画像 + 言葉(指示)
出力:行動(ロボットの関節角度・速度・グリッパー操作などの制御コマンド)

入力はVLMと同じ「画像+言葉」。違うのは出力です。テキストではなく、ロボットのモーターをどう動かすかという制御値が、直接出てきます。先ほどの「座標を経由しない」というのは、この出力部分のことです。

そして重要なのは、VLAは一から作るのではなく、土台にVLMを使うということ。OpenVLAもGR00TもHelixも、まずネット規模で学習済みのVLM(世界の常識・物体・言葉を理解している部分)を持ってきて、その先に「行動を出力するヘッド」を接ぎ木し、実ロボットのデータで追加学習しています。

系譜にすると、こうです。

VLM(見て・読んで・言葉で答える)
  ↓ 行動を出力するヘッドを接ぎ木し、実ロボットのデータで学習
VLA(見て・指示を理解して・身体を動かす)

VLMが「目と頭脳」だとすれば、VLAはそこに「手足」を付けて物理世界に接続したもの。この捉え方が一番しっくりきます。

VLMとVLAの違いを一枚で

ここまでを整理します。

観点VLMVLA
入力画像 + 言葉画像 + 言葉
出力言葉(説明・記述)行動(モーター制御コマンド)
物理世界触れない(記述するだけ)直接動かす
たとえ目と頭脳目と頭脳 + 手足
代表例GPT-4V / Claude / Geminiπ0 / OpenVLA / GR00T / Helix

画像認識やYOLOに馴染みのある方向けに補足すると、YOLOやセグメンテーションは「目」の中の知覚に特化した部品、VLMは「目+言語的な理解」、VLAは「それを動作にまでつなげた全体システム」、という階層関係で整理できます。

私の「角度出力型」と最新VLAは、結局何が違うのか

では本題に戻ります。私が実務でやった「角度出力型」と、最新の「VLA型」は何が違うのか。差は2つです。

ひとつは、中間表現があるかないか。角度出力型は「角度」という人間が読める数値を経由します。VLA型は経由せず、画像から動作へ直接いきます。

もうひとつは、動作そのものを学習しているかどうか。角度出力型では、ロボットの滑らかな動き方は学習対象に入っていません。VLA型は、人間が実演したお手本データから「どう動くか」自体を学習します。

なぜ最前線がVLA型に進んだのか。理由は速度と接触です。座標や角度を毎回AIに問い合わせる方式は、位置が決まった一発動作には強い一方、刻一刻と状況が変わる接触の多い作業には遅すぎます。実際、最新のHelixは「ゆっくり状況を理解する遅い層」と「滑らかに身体を動かす速い層」を分け、後者を高速で回すことでこの問題に対処しています。

ここで誤解してほしくないのは、角度出力型が劣っているわけではないということです。対象の位置が構造化された現場(私がやった農業の収穫や、ラボの定型実験など)では、角度出力型のほうが軽くて確実なことも多い。要は適材適所です。ただ、フィジカルAIの全体像を理解するには、両方の方式と、その違いを押さえておく必要があります。

このシリーズでやること(全6回ロードマップ)

ここからが本題です。VLAは、研究機関だけのものではありません。土台になるVLMもオープンソースで公開され、OpenVLAのような完成済みVLAも重みが公開されています。学習も、工夫すれば家庭用のGPU1枚で回せるところまで来ています。

なので、このシリーズでは実際に自宅で手を動かします。全6回の予定はこうです。

第1回(今回)|VLMとVLAとは何か 第2回|VLMをローカルで動かす(装置なし・PCだけ) 第3回|VLAをシミュレーションで動かす(装置なし・PCだけ) 第4回|実機を用意する(低価格ロボットアームの組み立て) 第5回|人がロボットを操縦してデータを貯める 第6回|自宅のGPUで学習させて、自律で動かす

第2回からは、いよいよ実際にモデルを動かしていきます。装置を買うのは第4回からなので、最初の数回はお手持ちのPCだけで一緒に進められます。私もここから先は手探りで、詰まった失敗も含めて正直に書いていきます。

まとめ

  • フィジカルAIとは、AIの判断を物理世界のロボット動作につなぐ仕組み。中身の作り方には段階があり、その段階を理解することが入門の第一歩。
  • 私が実務(AGRIST×Microsoft)でやったのは「画像を生成AIに渡し、角度を出力させ、API経由でロボットを動かす」角度出力型。現場で機能する立派な実装だが、座標を経由し、動作そのものは学習していない。
  • VLMは「画像+言葉 → 言葉」、VLAは「画像+言葉 → 行動」。VLAはVLMを土台に、行動を出力するヘッドを接ぎ木して実ロボットのデータで学習したもの。VLMが目と頭脳、VLAはそこに手足を足したもの。
  • 最新のVLA型は座標を経由せず、画像から動作へ直接写像する。角度出力型が劣るわけではなく適材適所。次回からこのVLA型を、自宅のPCとGPUで実際に動かしていく。

「自社のロボットやAI導入で、どこまでが現実的に作れるのか、誰かと整理したい」という方は、無料の30分オンライン診断で一緒に交通整理できます。実務でフィジカルAIを現場実装した経験から、率直にお話しします。

この記事の技術を、現場で実装したい方へ

AI×IoTの技術顧問として、月額契約で継続伴走しています。PoC設計・技術判断・組織設計・ベンダー管理・実装支援まで、現場で動くまで一緒に進めます。受託開発(請負)ではありません。

AI技術顧問サービスの詳細無料30分オンライン診断料金一覧

About The Author

Hideki
東京大学発AIスタートアップでロボット開発室室長・画像解析室室長・動画解析室室長を務め、画像認識関連のAI特許を在籍中に3件取得。その後、KDDIグループでプロダクトリーダーとして自然言語処理パッケージの自社開発を経て、現在はAGRIST株式会社の執行役員CTO 兼 VPoEとして、農業の人手不足解決に向けた収穫ロボットの開発組織を統括しています。AI・ハード・エレキ・通信・クラウド・IoTまでを一気通貫で設計できる視点を強みに、性能だけでなく「感動やワクワク体験」までデザインできるロボットの研究を進めています。並行して、AI coordinatorとして企業のAI導入・教育機関のAI授業・地域の技術相談を月額契約で継続伴走しています。

LEAVE A REPLY

*
*
* (公開されません)