2025年 マルチモーダルAI年次報告書:エージェント経済の夜明けとネイティブ・シンセシスの衝撃

画像クリックでインフォグラフィックサイトに遷移します。

エグゼクティブ・ストラテジック・オーバービュー

2025年後半を迎えた現在、人工知能(AI)業界は、過去数年間の「生成(Generative)」フェーズから、根本的な構造転換を経て「エージェンティック(Agentic)」な時代へと突入しました。この新しいパラダイムにおいて、AIシステムはもはやユーザーのプロンプトに基づいて受動的にテキストや画像を生成するだけのツールではありません。それらはデジタルおよび物理的な経済圏における能動的かつ自律的な参加者となり、最小限の人間による監督の下で、推論し、計画を立て、複雑な多段階のワークフローを実行する能力を有するに至っています 1

本報告書では、2025年を定義づける3つの決定的な技術的ベクトルについて詳述します。第一に、モデルがテキスト、音声、映像、センサーデータを個別のコネクタ経由ではなく、単一の統合されたストリームとして処理する「ネイティブ・マルチモーダル(Native Multimodality)」の確立。第二に、DeepSeek-R1やOpenAIのoシリーズ、Gemini 2.5 Flash Thinkingといったモデル群によって実用化された、行動を起こす前に思考し、内省し、自己修正を行う「システム2推論(System 2 Reasoning)」の普及。そして第三に、これらの高度な認知アーキテクチャを物理的なロボットへと転移させ、「ロボティクス基盤モデル(Robotics Foundation Models)」を台頭させた「身体性知能(Embodied Intelligence)」の進化です 3

フロンティアモデルの技術的能力は指数関数的に拡大しており、コンテキストウィンドウは日常的に100万トークンを超え、推論ベンチマークはかつての上限を次々と突破しています。しかしながら、企業にとっての課題は「アクセス」から「統合」へとシフトしています。McKinseyの「State of AI 2025」レポートによれば、企業の92%がAI投資の増額を計画している一方で、AIを全社的にスケールさせている企業はいまだ全体の3分の1未満に留まっています 1。多くの組織は、パイロットプログラムからエンタープライズ規模のエージェント展開へと移行する際に生じる「死の谷」を越えることに苦慮しており、組織的な成熟度のギャップが浮き彫りになっています。

本報告書は、2025年のマルチモーダルAIランドスケープに関する包括的かつ徹底的な分析を提供するものです。技術的なブレークスルー、急成長する「エージェント経済」、激化する「ブラウザ戦争」、そして主要産業の変革と規制の最前線を、15,000ワード規模の記述で詳細に紐解きます。

第1章 2025年のマルチモーダルAI現状:市場ダイナミクスと投資構造

1.1 実験段階からエージェンティック・スケールへの移行

2025年のAI市場を貫く最大の物語は、知能をスケールさせる際に生じる「摩擦」の克服です。チャットボットと対話することの新規性は既に消失し、市場の需要は明確に「実行(Doing)」へと移行しています。組織は受動的なチャットボットの導入から、問題を自律的に認識し、解決策を推論し、適切なツールを使用して実行する「AIエージェント」への移行を模索しています。

McKinseyの調査によると、AIエージェントに対する企業の関心はかつてないほど高まっており、回答者の62%が自組織でAIエージェントの実験を行っていると報告しています。しかし、AIをワークフローに完全に統合し、実質的なビジネス成果を上げている「成熟」した組織は、リーダー層のわずか1%に過ぎません 1。この極端な乖離は、技術自体の進化に対し、組織の「結合組織」――すなわちガバナンス、データインフラストラクチャ、ワークフローの再設計――が追いついていないことを示唆しています。多くの企業において、生成AIはもはや目新しいものではありませんが、パイロット段階から脱却し、エージェント機能を製品化あるいは大規模なプラットフォームとして展開するには至っていないのが現状です 1

この「成熟度のギャップ」を埋める鍵として、2025年には「スーパーエージェンシー(Superagency)」という概念が注目されています。これは、AIを活用して人間の主体性(Agency)を拡張し、職場における創造性と生産性を新たなレベルへと引き上げるアプローチです。Reid Hoffmanらの著書『Superagency』に触発されたこの概念は、AIを単なる自動化ツールとしてではなく、人間の能力を増幅させるパートナーとして再定義する動きを加速させています 6

1.2 投資の「ゴールドラッシュ」と二極化

2025年の資本配分は、明確な戦略的二極化を反映しています。投資資金は、以下の2つの異なる領域へと集中的に流入しています。

  1. インフラストラクチャとフロンティアモデル: 1兆パラメータ級のモデルをトレーニングするために必要なハードウェアとエネルギーインフラへの巨額の資本支出(CAPEX)が継続しています。DeepSeek-V4(1兆パラメータのMoEモデル)やGrok 3のリリースは、フロンティアにおける計算資源の要件がいかに膨大であるかを物語っています 7。特に中国のDeepSeekやQwenといったプレイヤーが、推論とコーディングタスクにおいてOpenAIとの差を詰め、一部では凌駕する成果を上げている現状は、西側の研究所に対しさらなる投資競争を強いています 3
  2. アプリケーションと垂直統合型エージェント: ベンチャーキャピタルの関心は、汎用的なLLMラッパーから、ヘルスケア、法務、製造、小売といった特定の垂直市場(バーティカル)に特化したエージェントを構築するスタートアップへとピボットしました。この「ゴールドラッシュ」は、もはやツルハシの売り手(GPUプロバイダー)だけのものではなく、複雑なエンタープライズ環境を自律的にナビゲートできる「スーパーマイナー(Super-miners)」――すなわちエージェントアプリケーション――に向けられています 9

表1:マルチモーダルAI市場の成長予測(2025年-2034年)

指標2025年 推定値2034年/2035年 予測値CAGR(年平均成長率)主な推進要因
世界市場規模(Precedence Research)25.1億ドル423.8億ドル36.92%ヘルスケア診断、自動車への採用、小売の自動化 10
世界市場規模(Market Research Future)131.7億ドル5237億ドル44.52%自動化需要の増大、エージェント統合の加速 11
世界市場規模(Grand View Research)22.7億ドル108.9億ドル (2030年)36.8%マルチモーダルデータの統合分析需要 12
支配的地域北米北米N/ATier-1研究所と資本の集中 10
最高成長率地域アジア太平洋アジア太平洋>29%中国・インドにおける急速な産業適用 13

アナリスト間での市場規模推定の乖離(2025年時点で25億ドルから131億ドル)は、「マルチモーダルAI」の境界定義の難しさを反映しています。低い見積もりは純粋なマルチモーダルソフトウェアのみを対象としている可能性が高く、高い見積もりはハードウェアや組み込みサービス、広義の自動化市場を含むエコシステム全体を捉えていると考えられます。しかし、どのベースラインを採用するにせよ、その軌道はハイパーグロース(超急成長)を示しており、テキストのみのモデルではアクセスできなかった企業情報の大部分(動画、音声、センサーログなど)が、マルチモーダルAIによって処理可能になるという認識が成長を牽引しています 14

第2章 フロンティアモデルのランドスケープ:2025年の巨人と技術的特異点

2025年は、モデルリリースのケイデンス(頻度)がかつてないほど加速した年として記憶されるでしょう。競争環境は、一社によるモノリシックな支配から、Google、OpenAI、Anthropic、Meta、そしてますます影響力を強める中国の研究所群が、月単位でリーダーシップを奪い合う多極的なフィールドへと変貌しました。

2.1 Google: Gemini 2.5と「思考する」コンテキストの優位性

Googleは2025年半ばにリリースされた Gemini 2.5 シリーズによって、積極的な巻き返しを図り、トップティアの地位を奪還しました。Gemini 2.5のテクニカルレポートは、そのアーキテクチャを、マルチモーダルな理解において卓越した能力を発揮する「Thinking Model(思考するモデル)」として位置づけています 15

  • 圧倒的なパフォーマンスとネイティブ動画理解: Gemini 2.5 Proは、コーディングおよび推論のフロンティアベンチマークにおいてState-of-the-Art(SoTA)を達成しました。特筆すべきは、最大3時間の連続したビデオコンテンツを一度に処理できる能力です。これにより、映画一本分の文脈理解や、長時間の監視カメラ映像の解析といったタスクが可能になり、メディア分析のワークフローを根本から変革しました 15
  • アーキテクチャの革新: Gemini 2.5は、高度なMixture-of-Experts(MoE)アーキテクチャを採用し、高い能力と推論コストのバランスを最適化しています。さらに、「Flash」バリアントにも推論能力(Thinking)をもたらし、低レイテンシかつ低コストで高度な推論を必要とするリアルタイムエージェントアプリケーションの構築を可能にしました 17
  • 戦略的な堀(Moat): Googleの差別化要因は、依然として100万トークンを超える巨大なコンテキストウィンドウとネイティブなマルチモーダル能力の融合にあります。これにより、コードリポジトリ全体や長編映像をシングルパスでインジェストし、文脈を失うことなく処理することが可能となります 16

2.2 OpenAI: Atlas、GPT-5、そしてブラウザ戦争

OpenAIは、ChatGPTのモバイルユーザー数の伸び悩みと、ライバル企業によるベンチマークでの猛追という「ロッキー(多難な)」な局面に直面しました 18。これに対し、同社はユーザーのオペレーティング環境へのより深い統合へと戦略をピボットさせました。

  • ChatGPT Atlas: 2025年10月にローンチされた「Atlas」は、AIを組み込んだ単なる機能ではなく、AIそのものを基盤としたウェブブラウザです。これは、PerplexityやGoogle Chromeに対する直接的な挑戦状であり、「エージェントモード(Agent Mode)」を搭載しています。Atlasは、ユーザーに代わって自律的に多段階の調査を行い、フォームに入力し、複雑なウェブタスクを要約・実行することができます 19。ブラウジング体験そのものを再定義し、「検索」から「実行」へのシフトを具現化する製品です。
  • GPT-5 / GPT-5.1: 待望のGPT-5およびその改良版であるGPT-5.1のリリースは、推論能力における重要な飛躍を示しました。GPT-5.1は、GPQA Diamondベンチマークで88.1%というスコアを記録し、生物学、物理学、化学などの専門分野において、博士課程レベルの信頼性を証明しました 22。しかし、その高い推論コストについては一部で議論の的となっています。
  • Sora 2: 2025年9月末に一般公開されたSora 2は、動画生成における「GPT-3.5モーメント」と評されています。同期された音声、正確な物理シミュレーション、そしてソーシャルメディア向けの縦型動画生成能力を備え、クリエイターエコノミーを直接のターゲットとしています 23

2.3 Anthropic: Claude 3.7とClaude 4によるコーディング覇権

Anthropicは、コーディングおよび複雑なエンタープライズタスクにおけるプレミアプロバイダーとしての地位を確固たるものにしました。

  • Claude 3.7 Sonnet (2025年2月): 「ハイブリッド推論」モデルとして登場した3.7 Sonnetは、「拡張思考(Extended Thinking)」モードを導入しました。これにより、モデルはコードを生成する前に一時停止して計画を練ることが可能となり、2025年初頭においてソフトウェアエンジニアの実質的な標準ツールとなりました 24
  • Claude 4 (2025年5月): 続く Claude Opus 4 および Claude Sonnet 4 は、エージェンティックなコーディングの新たな基準を打ち立てました。SWE-bench Verified(実際のGitHubの課題解決能力を測定するベンチマーク)において72.7%というスコアを達成し、Gemini 2.5 Proを上回る実力を見せつけました 25
  • Computer Use(コンピュータ操作): Claude 4の最大の特徴は、ネイティブな「Computer Use」機能です。モデルがマウスとキーボードを操作し、デスクトップアプリケーションを横断してタスクを実行できる能力は、AIを単なるチャットボットから「デジタルリモートワーカー」へと進化させました 26

2.4 Meta: Llama 4とオープンウェイト革命

Metaは、オープンウェイト(モデルの重み公開)戦略による「焦土作戦」を継続し、2025年4月に Llama 4 ファミリーをリリースしました 27

  • ネイティブ・マルチモーダル: Llama 3とは異なり、Llama 4は最初からネイティブ・マルチモーダルとして設計されています。「Scout」や「Maverick」と名付けられたモデル群は、視覚とテキストを同時に処理する能力を持ち、オープンソースコミュニティに強力な基盤を提供しました 28
  • スケールとライセンス: 2兆パラメータ規模の「Behemoth」モデルのトレーニングも示唆されており、クローズドソースの巨人に追随する姿勢を崩していません。Metaは独自のライセンス下で商用利用可能な高性能モデルを無料で提供することで、「知能レイヤー」のコモディティ化を加速させ、競合他社に対し、モデル性能そのものではなく、ツーリング、インフラ、推論能力による差別化を強いています 28

2.5 中国の台頭:DeepSeek、Qwen、GLMの躍進

2025年は、中国のAI研究所が、特に推論能力と効率性において西側のフロンティアモデルとのギャップを決定的に埋めた年となりました。

  • DeepSeek: DeepSeek-R1 およびその後の DeepSeek-V4(1兆パラメータMoE)のリリースは、業界に衝撃を与えました。DeepSeek-R1は、強化学習(RL)を活用することで、OpenAIのo1に匹敵する推論性能を、70%低いトレーニングコストで実現したと報告されています 19。さらに、彼らの「蒸留(Distillation)」技術は、この高度な推論能力を消費者向けハードウェアで動作する小型モデル(1.5B〜70Bパラメータ)に圧縮することを可能にし、高度な推論へのアクセスを民主化しました 31
  • Qwen (Alibaba): Qwen2.5-VL は、「動的解像度処理(Dynamic Resolution Processing)」を導入しました。これにより、画像をリサイズすることなく、あらゆるアスペクト比で処理することが可能となり、ドキュメント理解(OCR)やユーザーインターフェース操作エージェントにおいて、微細なテキストや要素を認識する能力が飛躍的に向上しました 32
  • Zhipu AI: GLM-4.5V は、高度なMoEアーキテクチャと「Thinking Mode」を展開し、マルチモーダル推論タスクにおいてGPT-4oに匹敵、あるいは凌駕する性能を示しました 34

表2:フロンティアモデル能力比較(2025年後半)

モデル開発元コア・ストレングスベンチマーク・ハイライトアーキテクチャ
Gemini 2.5 ProGoogle超長文コンテキスト(2M+)、ネイティブ動画解析マルチモーダル推論でSoTAMoE「Thinking」モデル 15
GPT-5.1OpenAI汎用推論、エコシステム統合GPQA Diamond 88.1%Dense/MoE ハイブリッド 22
Claude 4 OpusAnthropicコーディング、Computer Use、エージェント計画SWE-bench Verified 72.7%ハイブリッド推論 25
Llama 4Metaオープンウェイト、アクセシビリティ高スループット / オープンアクセスDense & MoE バリアント 27
DeepSeek-R1DeepSeek効率的推論(RL)、コストパフォーマンスMATH-500 97.3%MoE + RL蒸留 31
Grok 3xAI数学/科学推論、リアルタイムデータ(X)AIME 2025 93.3%超大規模Dense (Colossus) 8
Qwen2.5-VLQwenドキュメント解析、動的解像度OCR/VQAでトップクラスNaive Dynamic Resolution ViT 32

第3章 エージェンティックAIの台頭とブラウザ戦争

2023年から2024年が「チャットボット」の時代であったとすれば、2025年は間違いなく「エージェント」の時代です。その違いは自律性にあります。チャットボットは「話し」、エージェントは「行動」します。

3.1 チャットからオーケストレーションへ:自律的ワークフローの確立

「エージェンティック」へのシフトは、デジタル従業員として機能するシステムの台頭を意味します。例えば、ウォルマートは2025年に「AIスーパーエージェント」を展開し、リアルタイムのサプライチェーンデータや気象データをインジェスト(取り込み)して、在庫予測を自律的に調整するシステムを稼働させました 36。チューリッヒ保険(Zurich Insurance)は、エージェンティックAIを使用して請求処理を自動化し、ポリシーデータと請求履歴を集約して顧客への回答案を作成することで、人間のタッチポイントを劇的に削減しました 36

このようなシステムは、単一のタスクを実行するのではなく、目標を達成するために複数のサブタスクを計画し、実行し、必要に応じて修正する能力を持っています。

3.2 フレームワーク・エコシステム:LangChain対LlamaIndex

これらのエージェントを構築する開発者の間では、専用のフレームワークへの依存が高まっており、特に LangChainLlamaIndex の間で激しい覇権争い、あるいは棲み分けが進んでいます。

  • LangChain: 2025年においても、汎用的なエージェントオーケストレーションのための「スイスアーミーナイフ」としての地位を維持しています。特に LangGraph のリリースにより、開発者はステートフル(状態保持型)なマルチエージェントワークフローを構築するための堅牢な手段を手に入れました。エージェントがループし、分岐し、長期的な記憶を維持しながら複雑なアプリケーションロジックを実行する場合に好まれています 37
  • LlamaIndex: 当初はデータ取り込み(RAG)に焦点を当てていたLlamaIndexは、データ中心型エージェント(Data-Centric Agents) のためのプレミアフレームワークへと進化しました。PDF、SQLデータベース、BIツールなどの大規模なデータセットを解析し、「データに対する推論」を行うワークフローにおいて卓越した性能を発揮します。2025年のベンチマークでは、その検索エンジンは一般的な代替手段よりも40%高速であることが示されました 39
  • 業界のコンセンサス: 多くの開発チームは、LlamaIndexを「知識レイヤー(検索・取得)」として、LangChain/LangGraphを「行動レイヤー(オーケストレーション)」として使用するハイブリッドアプローチに落ち着きつつあります 40

3.3 標準化の戦い:MCPとACP

2024年までの大きなボトルネックは、異なるベンダーのエージェント同士が通信できないという「バベルの塔」問題でした。2025年には、この問題を解決するための標準化プロトコルが台頭しました。

  • Model Context Protocol (MCP): Anthropicによって提唱され、主要なエンタープライズベンダーに採用されたMCPは、「AIのためのUSB-C」として機能します。これは、LLMが外部のデータソースやツールに接続するための標準的な方法を提供し、カスタム統合の必要性を排除します。2025年後半までに、エンタープライズベンダーの30%が独自のMCPサーバーを立ち上げ、自社アプリと外部エージェントのシームレスな連携を実現しました 41
  • Agent Communication Protocol (ACP): IBMによって提案されたACPは、エージェント対エージェント(Agent-to-Agent) の相互作用に焦点を当てています。例えば、ある企業の「購買エージェント」が別の企業の「販売エージェント」と交渉する際のハンドシェイク、交渉プロセス、エラー処理の構文を標準化します 43

これらのプロトコルは、2028年までに15兆ドルに達すると予測されるB2B取引の大部分が、自律的なソフトウェアによって媒介される「エージェント経済」の基盤となるものです 45

3.4 ブラウザ戦争の再燃:OpenAI Atlas vs Perplexity vs Chrome

エージェント機能の主戦場はブラウザへと拡大しています。OpenAIの Atlas は、従来の「検索して読む」というブラウジング体験を、「検索して実行させる」体験へと変えました。

Atlasの「エージェントモード」は、ユーザーが「来週のパシフィックノースウエスト旅行の計画を立てて」と入力するだけで、フライトの検索、ホテルの比較、旅程の作成、さらには予約フォームの入力までを自律的に行います 20。これに対抗し、PerplexityなどのAI検索エンジンもブラウザ機能を強化していますが、OpenAIはブラウザ自体をプラットフォーム化することで、OSに近いレイヤーでの主導権を握ろうとしています。一方で、Google ChromeもGemini Nanoを組み込み、ブラウザ内でのローカル推論能力を強化することで対抗しており、2025年は「AIネイティブブラウザ」の覇権争いが激化した年となりました 18。

第4章 生成ビデオと「合成現実(Synthetic Reality)」

2025年、ビデオ生成市場は実験的なクリップ作成から、プロダクショングレードのワークフローへと成熟しました。これはメディアの未来に対し、創造性の爆発と信頼性の危機という、相反する深遠な問いを投げかけています。

4.1 ビデオ生成モデル戦争:Sora 2 vs Veo 3 vs Runway Gen-4

主要なプレイヤーはそれぞれ異なるニッチと強みを確立し、市場は細分化と高度化を同時に進めています。

  • OpenAI Sora 2: 2025年9月にリリースされたSora 2は、前バージョンの主な欠点(物体のモーフィングや物理法則の無視、無音)を克服しました。「物理的に正確な」シミュレーションと、映像に同期した効果音生成機能を搭載し、実用性を飛躍的に高めました。特に、ソーシャルメディア向けの縦型動画をネイティブに生成できる機能は、TikTokやInstagramのリール動画制作を行うクリエイター層から熱狂的な支持を受けました 23
  • Google Veo 3.1: GoogleのVeo 3.1は、シネマティックな制御において優位性を発揮しています。「Ingredients(素材)」機能により、特定の視覚要素(キャラクターやオブジェクト)の一貫性を保ちながら生成することが可能です。また、「Creative Extend(創造的拡張)」や精密なカメラ制御機能は、プロの映像制作者にとって魅力的なツールセットとなっており、短尺の高品質クリップ(4K解像度)においてはSoraを凌ぐ評価を得ています 49
  • Runway Gen-4: テック巨人が基盤モデルに注力する中、Runwayは操作性と演出(Steerability) にニッチを見出しました。2025年にリリースされたGen-4は、「ディレクターモード(Director Mode)」を搭載し、カメラの動き、照明、キャラクターの演技指導に至るまで、粒度の高い制御を提供しています。これにより、インディーズ映画製作者や広告代理店など、独自の芸術的ビジョンを具現化したい層から支持されています 51

4.2 「AI俳優」の台頭とTilly Norwood現象

2025年、エンターテインメント業界を揺るがせた象徴的な出来事は、Particle6社によって作成された完全なAI生成「女優」、Tilly Norwood の登場です。従来のデジタルアバターとは異なり、Tillyは「ハイパーリアル」なパフォーマーとして設計されており、映画への出演、チャットボットインターフェースを通じたインタビュー対応、一貫した人格を持つソーシャルメディアでの活動を行っています 52。

彼女の存在は、タレント業界に破壊的な影響を与え始めています。このような「合成タレント」の制作コストは、人間の俳優を起用する場合と比較して50%も低いと報告されており、エキストラやバックグラウンド俳優のみならず、主要キャストの座さえもAIが脅かしうる現実を突きつけました。これは、SAG-AFTRAなどの組合に対し、AIの権利と人間の労働保護に関する新たな議論を強いています。

4.3 ディープフェイクの脅威とArup事件

技術の進歩は、同時にかつてないセキュリティリスクをもたらしました。2025年を象徴するサイバー犯罪事件が、エンジニアリング企業Arupを襲った「ディープフェイクCFO」事件です。

香港支社の従業員は、CFOおよび他の同僚が参加するビデオ会議に出席し、極秘の買収案件のために2,500万ドル(約37億円)の送金を承認しました。しかし、実際には、そのビデオ会議に参加していた被害者以外の全員が、リアルタイムで生成されたディープフェイクでした。彼らの顔、声、そして口調は、本物と区別がつかないレベルで再現されていました 53。

この事件は、企業コミュニケーションにおける「見れば信じられる(Seeing is believing)」という前提を完全に破壊しました。これを受け、金融機関や大企業では、従来のKYC(顧客確認)に加え、KYA(Know Your Agent:エージェント確認) や、生体認証と連動した継続的な本人確認プロトコルの導入が急務となっています。

第5章 身体性知能(Embodied AI):物理世界への進出

2025年の最も変革的な進展の一つは、デジタルな知能と物理的な行動の架け橋となる「身体性知能(Physical Intelligence)」の実用化です。研究室のデモに過ぎなかったロボット工学は、豊富な資金を得たスタートアップによって実社会への展開フェーズに入りました。

5.1 ロボティクス基盤モデルの確立

GPT-4がテキストタスクの基盤となるのと同様に、企業はあらゆるロボットの身体(アーム、ヒューマノイド、四足歩行ロボット)を制御できる普遍的な「脳」であるロボティクス基盤モデルを構築しています。

  • Skild AI: シリーズAで3億ドル、2025年6月のシリーズBでさらに1億ドルを調達したSkild AIは、ロボットインタラクションの巨大なデータセットでトレーニングされた汎用モデル「Skild Brain」を開発しています。彼らのモデルは、新しいハードウェアやタスク(複雑な操作など)に対してゼロショット学習で適応する能力を示し、従来のロボット工学を悩ませてきた「データの壁」を突破しました 56
  • Physical Intelligence (Pi): このスタートアップは、マルチモーダル入力から低レベルのモーターコマンドを直接ネイティブに出力するモデル π0 (Pi-Zero) をリリースしました。インターネット上のテキストだけでなく、ロボットが世界と相互作用する中で得られる「身体化された経験(Embodied Experience)」から学習することで、洗濯物を畳む、テーブルを片付けるといった高度な器用さを実現しました 5
  • Covariant: 物流セクターに特化した RFM-1 (Robotics Foundation Model 1) は、「フリートラーニング(Fleet Learning)」を実証しました。米国の施設にあるロボットが新しいアイテムのピッキング方法を学習すると、そのスキルが即座に世界中のロボット群(フリート)に共有され、全体の知能が向上するシステムです 59

5.2 ヒューマノイドのスケールアップ

これらの基盤モデルを搭載する理想的な「器」として、ヒューマノイドロボットへの注目が集まっています。

TeslaのOptimus Gen 3(2025年10月デモ公開)は、ビデオ観察から自律的にタスクを学習し、掃除や料理といった家事を行う能力を披露しました。Elon Muskは、ヒューマノイドが将来的にTeslaの企業価値の大部分を占めると予測しており、業界全体がこの技術に賭けていることを裏付けています 60。

競合する Figure AI (Figure 03) や Boston Dynamics (Electric Atlas) も、製造現場や物流ハブへの導入を急ピッチで進めており、2025年はヒューマノイドが「研究開発」から「実証実験(PoC)」、そして初期の「商用展開」へと移行した極めて重要な年となりました 61。

第6章 産業別の変革:マルチモーダルAIの実装

6.1 ヘルスケア:マルチモーダル診断による救命

ヘルスケア分野では、マルチモーダルAIが断片化されたデータを統合することで、診断精度を劇的に向上させています。

GoogleのMed-PaLM M のようなシステムは、X線画像、臨床メモ、ゲノムデータ、患者の病歴を同時に処理し、相互参照します。2025年の実証実験において、IQVIAと英国NHSは、これらのシステムを使用して心房細動患者の脳卒中リスクを予測し、人間の医師がデータ過多で見逃す可能性のある兆候を捉えることで、発症率を22%削減することに成功しました 63。トレンドは、AIが患者の健康状態を24時間365日監視し、包括的に理解する「ホリスティック・ペイシェント・モデリング」へと向かっています 65。

6.2 製造業:エージェンティック品質管理

製造業では、単なる欠陥検出を超えたエージェンティック品質管理が導入されています。従来のコンピュータビジョンは欠陥を「フラグ付け」するだけでしたが、エージェントシステムは欠陥の「原因」を推論し、生産ラインのパラメータを自律的に調整して修正します。ある電子機器メーカーでは、エージェントシステムの導入により、欠陥検出精度が人間の94%から99.97%に向上し、誤検知(False Positives)の大幅な削減と検査速度の100倍化(毎分12ユニットから1,200ユニットへ)を実現しました 66

6.3 エンタープライズ:自律的なバックオフィス

一般企業にとって、2025年は自律的な調達と人事(HR) の年です。SalesforceやMicrosoft、そして多くのスタートアップが、サプライヤー契約の交渉、従業員のオンボーディング、ITチケットの解決を人間なしで行うエージェントを展開しています。Gartnerは、2028年までにB2B購買の90%がエージェントによって仲介されると予測していますが、2025年にはその初期の波として、自律的な調達パイロットプログラムが多数開始されました 45。Snowflakeなどのデータプラットフォーム企業も、エージェントが企業のサイロ化されたデータを横断して意思決定を行えるよう、データ基盤の整備を急いでいます 68

6.4 教育:マルチモーダル個別指導

教育分野では、Duolingoなどのプラットフォームが、テキスト、音声、視覚的手がかりを組み合わせたマルチモーダルなアプローチを採用しています。AI家庭教師は、生徒の表情から理解度を推測し(視覚)、発音をリアルタイムで修正し(音声)、最適な教材を提示する(テキスト/画像)ことで、完全にパーソナライズされた学習体験を提供しています 64

第7章 規制、倫理、そして法的枠組み

AIの能力が拡大するにつれ、リスクも増大しました。2025年は、技術の暴走を防ぐための規制の枠組みが具体化し、法的闘争が一定の決着を見始めた年でもあります。

7.1 法的闘争と著作権の行方

AIトレーニングデータに関する著作権侵害訴訟は、2025年にいくつかの重要な転換点を迎えました。

  • Anthropicの和解: 集団訴訟において、Anthropicは作家側に対し15億ドル(約2,200億円)を支払うことで和解に合意しました。この和解は、過去に海賊版書籍データをトレーニングに使用したことに対する補償を含んでいますが、極めて重要な点として、将来のトレーニングに関するライセンススキームの確立は含まれていません。つまり、AIトレーニングにおける「フェアユース」の核心的な法的判断は部分的に先送りされた形となり、法的な不確実性は依然として残っています 69
  • Perplexity対ニュースメディア: シカゴ・トリビューン紙は2025年12月、Perplexity AIに対し、コンテンツの無断スクレイピングと要約による著作権侵害で訴訟を起こしました。検索エンジンがコンテンツを「表示」するのではなく「消化して回答」するモデルに対するこの挑戦は、AI検索の経済モデルを根底から揺るがす可能性があり、AI企業とメディアパブリッシャーの間での正式なライセンス契約への移行を加速させています 71
  • UDIOとUMGの和解: 音楽生成AI企業のUdioとUniversal Music Groupは、訴訟を取り下げ、ライセンス契約と共同での責任あるAI音楽サービスの立ち上げに合意しました。これは、対立から協調への移行を示す重要な事例です 72

7.2 規制ランドスケープの断片化

世界各国の規制当局は、AIのリスク管理に対して異なるアプローチを採用しており、グローバル企業は複雑なコンプライアンス対応を迫られています。

  • EU AI法(EU AI Act): 2025年後半に本格的な実装フェーズに入り、汎用AI(GPAI)モデルに対する厳格な透明性ルールと著作権遵守の義務付けが開始されました。特に米国企業は、欧州市場での展開において大幅な適応を余儀なくされています 73
  • 米国の断片化: 連邦レベルでの包括的なAI法はいまだ成立しておらず、米国AI安全研究所(US AI Safety Institute / NIST) が主導する自主的な安全基準が中心となっています。一方で、カリフォルニア州(SB-942:AI透明化法)やコロラド州(AI法)は独自の規制を施行しており、州ごとの規制パッチワークが形成されつつあります 75
  • 日本の「アジャイル・ガバナンス」: 日本はAI推進法(2025年5月)の下で、イノベーションを優先するアプローチを継続しています。厳格な禁止事項を設けるのではなく、ガイドラインベースの「ソフトロー」アプローチを採用し、AI研究開発のハブとしての地位を確立しようとしています 77

結論:エージェンティック・ホライズン(2026年-2030年への展望)

2025年の終わりを迎え、マルチモーダルAIの軌道は明確です。私たちは「コンテンツを生成する」時代から、「行動を生成する」時代へと移行しています。

1. エージェント経済の本格化:

MCPやACPといったプロトコルの確立は、2026年以降、インターネットトラフィックの相当部分がマシン・ツー・マシン(M2M)になることを示唆しています。エージェントが私たちの代わりに交渉し、購入し、調査を行うことで、巨大なソフトウェアによるシャドウエコノミーが形成されるでしょう 45。

2. 知能のコモディティ化とシステムの価値:

Llama 4のようなオープンウェイトモデルや、DeepSeek-R1のような効率的な推論モデルの登場により、フロンティアレベルの推論能力は低コストで利用可能になりつつあります。価値の源泉は、モデル単体から、オーケストレーション、メモリ管理、物理世界との統合といった「システム全体」へとシフトしています。

3. 「信頼」の再定義:

Arupのディープフェイク事件は、デジタル社会に対する深刻な警告です。AIが現実と区別がつかなくなるにつれ、検証(Verification) ――人であることの暗号学的証明やコンテンツの来歴証明(C2PAなど)――は、最も重要なデジタル資産となるでしょう。

企業にとって2025年の教訓は明白です。「実験」の時間は終わりました。これからの競争優位性は、これらの自律的なエージェントを、オペレーションの泥臭い現実の中にいかに統合できるか、そしてオーケストレーションの技術的複雑さと信頼の倫理的課題をいかに乗り越えられるかにかかっています。

引用文献

  1. The state of AI in 2025: Agents, innovation, and transformation – McKinsey https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
  2. AI Business Trends 2025 | Google Cloud https://cloud.google.com/resources/ai-trends-report
  3. Welcome to State of AI Report 2025 https://www.stateof.ai/
  4. Physical Intelligence (π) https://www.physicalintelligence.company/
  5. π 0 : Our First Generalist Policy – Physical Intelligence https://www.physicalintelligence.company/blog/pi0
  6. AI in the workplace: A report for 2025 – McKinsey https://www.mckinsey.com/capabilities/tech-and-ai/our-insights/superagency-in-the-workplace-empowering-people-to-unlock-ais-full-potential-at-work
  7. DeepSeek-V4 MoE: The 1-Trillion Parameter Breakthrough – Macaron AI https://macaron.im/es/blog/deepseek-v4-moe-1-trillion
  8. Grok 3 Beta — The Age of Reasoning Agents – xAI https://x.ai/news/grok-3/
  9. The Investment Landscape of Multimodal AI – TRENDS Research & Advisory https://trendsresearch.org/insight/the-investment-landscape-of-multimodal-ai/
  10. Multimodal AI Market Size to Hit USD 42.38 Billion by 2034 – Precedence Research https://www.precedenceresearch.com/multimodal-ai-market
  11. Multimodal AI Market Size | Industry Report, 2025-2035 https://www.marketresearchfuture.com/reports/multimodal-ai-market-22520
  12. Multimodal AI Market Size And Share | Industry Report, 2030 – Grand View Research https://www.grandviewresearch.com/industry-analysis/multimodal-artificial-intelligence-ai-market-report
  13. Multimodal AI Market Size, Analysis | Share & Growth Report 2030 – Mordor Intelligence https://www.mordorintelligence.com/industry-reports/multimodal-ai-market
  14. Multimodal AI Market Size & Share, Statistics Report 2025-2034 https://www.gminsights.com/industry-analysis/multimodal-ai-market
  15. [2507.06261] Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities – arXiv https://arxiv.org/abs/2507.06261
  16. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
  17. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. – arXiv https://arxiv.org/html/2507.06261v1
  18. ChatGPT started the AI race. Now its lead is looking shaky. https://www.washingtonpost.com/technology/2025/12/05/chatgpt-ai-gemini-competition/
  19. The Latest AI News and AI Breakthroughs that Matter Most: 2025 – Crescendo.ai https://www.crescendo.ai/news/latest-ai-news-and-updates
  20. ChatGPT Atlas Explained: OpenAI’s New Browser That Can Literally Browse for You! https://www.youtube.com/watch?v=2dANHPrNdsI
  21. OpenAI News https://openai.com/news/
  22. LLM Leaderboard 2025 – Vellum AI https://www.vellum.ai/llm-leaderboard
  23. Sora 2 is here | OpenAI https://openai.com/index/sora-2/
  24. Claude Sonnet 3.7 vs Claude Sonnet 4 – Eden AI https://www.edenai.co/post/claude-sonnet-3-7-vs-claude-sonnet-4
  25. Claude 4 vs Claude 3.7 Sonnet vs Gemini 2.5 Pro Coding Comparison – DEV Community https://dev.to/sweet_benzoic_acid/claude-4-vs-claude-37-sonnet-vs-gemini-25-pro-coding-comparison-59ap
  26. Introducing Claude 4 – Anthropic https://www.anthropic.com/news/claude-4
  27. Meta Launches Llama 4: Revolutionary Open-Source Multimodal AI Models – Medium https://medium.com/@generativeai.saif/meta-launches-llama-4-revolutionary-open-source-multimodal-ai-models-8a8bab605c54
  28. Llama 4, 2 Trillion Parameters & Open-Weight AI: The 2025 Builder’s Shift https://skywork.ai/blog/llama-4-open-weight-2025/
  29. Llama (language model) – Wikipedia https://en.wikipedia.org/wiki/Llama_(language_model)
  30. deepseek-ai/DeepSeek-R1 – Hugging Face https://huggingface.co/deepseek-ai/DeepSeek-R1
  31. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning – arXiv https://arxiv.org/pdf/2501.12948
  32. [2502.13923] Qwen2.5-VL Technical Report – arXiv https://arxiv.org/abs/2502.13923
  33. Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen https://qwenlm.github.io/blog/qwen2.5-vl/
  34. 12月 8, 2025にアクセス、 https://www.siliconflow.com/articles/en/best-multimodal-ai-models#:~:text=Our%20top%20three%20picks%20for,%2C%20and%20vision%2Dlanguage%20tasks.
  35. Ultimate Guide – The Best Multimodal AI Models in 2025 – SiliconFlow https://www.siliconflow.com/articles/en/best-multimodal-ai-models
  36. The Hottest Agentic AI Examples and Use Cases in 2025 – – Flobotics https://flobotics.io/uncategorized/hottest-agentic-ai-examples-and-use-cases-2025/
  37. Top AI Agent Frameworks in 2025 – Codecademy https://www.codecademy.com/article/top-ai-agent-frameworks-in-2025
  38. LangChain vs LangGraph vs LlamaIndex: Which LLM framework should you choose for multi-agent systems? – Xenoss https://xenoss.io/blog/langchain-langgraph-llamaindex-llm-frameworks
  39. LlamaIndex vs LangChain: Which Framework Is Best for Agentic AI Workflows? – ZenML https://www.zenml.io/blog/llamaindex-vs-langchain
  40. LangChain vs LlamaIndex (2025) – Which One is Better? – Database Mart https://www.databasemart.com/blog/langchain-vs-llamaindex
  41. The Push for Standard Protocols in the Age of AI Agents – Tech News – Bizety https://bizety.com/2025/09/30/the-push-for-standard-protocols-in-the-age-of-ai-agents/
  42. Predictions 2026: AI Agents, Changing Business Models, And Workplace Culture Impact Enterprise Software – Forrester https://www.forrester.com/blogs/predictions-2026-ai-agents-changing-business-models-and-workplace-culture-impact-enterprise-software/
  43. AI Agent Protocols: 10 Modern Standards Shaping the Agentic Era – SSON https://www.ssonetwork.com/intelligent-automation/columns/ai-agent-protocols-10-modern-standards-shaping-the-agentic-era
  44. Standardizing AI Communication: An Overview of Modern AI Agent Protocols | by Frank Morales Aguilera | AI Simplified in Plain English | Medium https://medium.com/ai-simplified-in-plain-english/standardizing-ai-communication-an-overview-of-modern-ai-agent-protocols-39626bf9d823
  45. Technology and media predictions 2026 https://www.taylorwessing.com/en/interface/2025/predictions-2026/technology-and-media-predictions-2026
  46. 10 Key OpenAI Atlas Features That Will Change Browsing (2025) – Skywork.ai https://skywork.ai/blog/ai-agent/openai-atlas-features-2025/
  47. OpenAI’s new browser feels familiar… https://www.youtube.com/watch?v=5uSboan45Zg
  48. OpenAI Sora 2 Review 2025: What Works, What Doesn’t, and Real Use – Skywork.ai https://skywork.ai/blog/openai-sora-2-review-2025-strengths-limits-scenarios/
  49. VEO 3.1 vs SORA 2 Pro Comparison (Who Wins?) https://www.youtube.com/watch?v=eVFSgMSCtCs
  50. Veo 3 vs. Sora by OpenAI: 2025 Comparison | Powtoon Blog https://www.powtoon.com/blog/veo-3-vs-sora/
  51. RunwayML Review 2025: Gen‑3/Gen‑4 AI Video, Controls & Cost – Skywork.ai https://skywork.ai/blog/runwayml-review-2025-ai-video-controls-cost-comparison/
  52. AI Actress Tilly Norwood Explained: What She Is, How She Was Built and Why Hollywood Is Alarmed https://www.ibtimes.co.uk/ai-actress-tilly-norwood-explained-what-she-how-she-was-built-why-hollywood-alarmed-1760899
  53. Cybercrime: Lessons learned from a $25m deepfake attack – The World Economic Forum https://www.weforum.org/stories/2025/02/deepfake-ai-cybercrime-arup/
  54. Generative AI is expected to magnify the risk of deepfakes and other fraud in banking – Deloitte https://www.deloitte.com/us/en/insights/industry/financial-services/deepfake-banking-fraud-risk-on-the-rise.html
  55. Detecting dangerous AI is essential in the deepfake era | World Economic Forum https://www.weforum.org/stories/2025/07/why-detecting-dangerous-ai-is-key-to-keeping-trust-alive/
  56. How Much Did Skild Raise? Headquarters, Funding & Key Investors – TexAu https://www.texau.com/profiles/skild
  57. Announcing our $300M Series A Funding – Skild AI https://www.skild.ai/blogs/announcing-our-300m-series-a
  58. A VLA that Learns from Experience – Physical Intelligence https://www.physicalintelligence.company/blog/pistar06
  59. Covariant AI: A Deep Dive into the Future of Robotic Automation – Skywork.ai https://skywork.ai/skypage/en/Covariant-AI-A-Deep-Dive-into-the-Future-of-Robotic-Automation/1976506268149018624
  60. Humanoids on the move: How 2025 became the breakthrough year for AI driven robotics https://techequity-ai.org/humanoids-on-the-move-how-2025-became-the-breakthrough-year-for-ai-driven-robotics/
  61. Top 12 Humanoid Robots of 2025 https://humanoidroboticstechnology.com/articles/top-12-humanoid-robots-of-2025/
  62. Figure 03: The Best Inventions of 2025 – Time Magazine https://time.com/collections/best-inventions-2025/7318493/figure-03/
  63. AI Driven Healthcare: Leveraging Multimodal Data for Precision Health – IQVIA https://www.iqvia.com/locations/middle-east-and-africa/blogs/2025/04/ai-driven-healthcare-leveraging-multimodal-data-for-precision-health
  64. Multimodal AI Examples and Applications | 2025 Edition https://www.crescendo.ai/blog/multimodal-ai-examples-and-applications
  65. Multimodal AI in Healthcare: Use Cases with Examples – Research AIMultiple https://research.aimultiple.com/multimodal-ai-in-healthcare/
  66. Top 7 Agentic AI Use Cases in Manufacturing Industry (2025 Guide) – Ampcome https://www.ampcome.com/post/top-7-agentic-ai-use-cases-in-manufacturing-industry
  67. Salesforce Lifts 2026 Forecast as Corporate Demand for AI Agents Intensifies, Fueling a New Phase of Enterprise Automation https://www.tekedia.com/salesforce-lifts-2026-forecast-as-corporate-demand-for-ai-agents-intensifies-fueling-a-new-phase-of-enterprise-automation/
  68. 2026 Predictions: Agents Will Drive Centralized Strategy, New Ways of Work https://www.snowflake.com/en/blog/data-ai-predictions-2026/
  69. The Bartz v. Anthropic Settlement: Understanding America’s Largest Copyright Settlement https://legalblogs.wolterskluwer.com/copyright-blog/the-bartz-v-anthropic-settlement-understanding-americas-largest-copyright-settlement/
  70. Bartz v. Anthropic Settlement: What Authors Need to Know – The Authors Guild https://authorsguild.org/advocacy/artificial-intelligence/what-authors-need-to-know-about-the-anthropic-settlement/
  71. Chicago Tribune Sues Perplexity AI for Copyright Infringement https://www.webpronews.com/chicago-tribune-sues-perplexity-ai-for-copyright-infringement/
  72. Top Noteworthy Copyright Stories from October 2025 https://copyrightalliance.org/copyright-news-october-2025/
  73. Implementation Timeline | EU Artificial Intelligence Act https://artificialintelligenceact.eu/implementation-timeline/
  74. The EU AI Act: Where Do We Stand in 2025? | Blog – BSR https://www.bsr.org/en/blog/the-eu-ai-act-where-do-we-stand-in-2025
  75. AI Regulations in the US: What You Need to Know in 2025 – GDPR Local https://gdprlocal.com/ai-regulations-in-the-us/
  76. Guidelines | NIST – National Institute of Standards and Technology https://www.nist.gov/aisi/guidelines
  77. AI Watch: Global regulatory tracker – Japan | White & Case LLP https://www.whitecase.com/insight-our-thinking/ai-watch-global-regulatory-tracker-japan
  78. Japan’s emerging framework for responsible AI: legislation, guidelines and guidance https://www.ibanet.org/japan-emerging-framework-ai-legislation-guidelines