
第1章 マルチモーダルパラダイムへの序論
人工知能(AI)の分野は、新たなパラダイムシフトの渦中にあります。それは、単一のデータストリームを超え、複数の情報源を統合的に理解する能力を持つ「マルチモーダルAI」の台頭です。この技術は、AIが世界を認識し、相互作用する方法を根本的に変革する可能性を秘めており、その影響は産業界から日常生活に至るまで、あらゆる側面に及びます。本章では、マルチモーダルAIの基本概念を定義し、その哲学的基盤を探り、先行するAIパラダイムとの決定的な違いを明らかにします。
1.1 マルチモーダリティの定義:シングルストリーム処理を超えて
マルチモーダルAIとは、テキスト、画像、音声、動画、さらには各種センサーデータといった、種類が異なる複数の情報(モダリティ)を同時に処理、理解、統合、生成する能力を持つAIシステムを指します 1。ここで中心となる「モダリティ」という用語は、データの種類や形式を指す重要な抽象概念です 2。この抽象化により、研究者は特定のデータ形式に固定されることなく、トークン化され数値的に表現できるあらゆる情報を扱える汎用的なフレームワークを開発することが可能になりました 8。
マルチモーダルAIの真の目的は、単に複数のデータストリームを並行して処理することではありません。それぞれのモダリティが持つ補完的な情報と、モダリティ間に存在する相関関係を活用することで、単一のモダリティだけでは到達不可能な、より包括的で、ニュアンスに富み、文脈を認識した理解を達成することにあります 5。これにより、より深い洞察と、より精度の高い予測が可能となるのです 7。
1.2 人間とのアナロジー:多感覚による知覚と認知の模倣
マルチモーダルAIの分野は、人間が視覚、聴覚、触覚といった複数の感覚からの情報をシームレスに統合し、世界についての一貫した理解を形成する認知プロセスから、根本的な着想を得ています 3。その目的は、この能力を機械において再現することにあります 3。
この人間とのアナロジーは、単に複雑な概念を説明するための比喩にとどまりません。それは、この分野の根源的な研究の方向性と究極的な目標を定義しています。目標は、特定のベンチマークの精度を向上させるためにデータチャネルを追加することではなく、人間の知覚を模倣し、一貫性があり、統合され、文脈化された世界の理解を形成できるシステムを構築することです 3。これは、個別のタスクに特化した知能ではなく、より汎用的な人工知能(AGI)への道筋を示唆しています。会話を理解する場面を考えてみましょう。言葉(テキスト/音声)だけでなく、話者の表情(視覚)や声のトーン(聴覚的手がかり)も同時に処理することで、初めてその真意を深く理解することができます 1。この「人間のような判断力」2こそが、マルチモーダルAIが目指す能力の質的な転換点なのです。
1.3 ユニモーダルAIとマルチモーダルAI:比較分析
マルチモーダルAIの特性を明確にするためには、先行するパラダイムであるユニモーダルAIとの比較が不可欠です。両者は、扱うデータの範囲、アーキテクチャの複雑さ、文脈理解能力、そして性能特性において根本的な違いがあります 11。
ユニモーダルAIモデルは、単一のデータタイプに特化して設計されています。例えば、畳み込みニューラルネットワーク(CNN)は画像に、再帰型ニューラルネットワーク(RNN)や大規模言語モデル(LLM)はテキストに特化しています 20。この専門化は、限定的なタスクにおいては高い効率性を発揮しますが、現実世界の複雑な状況に対応する能力には限界があります 4。
これに対し、マルチモーダルAIは設計上、異種のデータソースを扱います 17。ユニモーダルモデルは、より広い文脈を欠くため、曖昧さが生じやすく、エラー率が高くなる傾向にあります 17。例えば、映像のみに依存する防犯カメラは、激しい口論を親密な会話と誤認する可能性がありますが、音声情報を加えることで状況は明確になります 1。マルチモーダルシステムは、モダリティ間で情報を相互参照することでこのような曖昧さを軽減し、堅牢性を向上させます 11。
一方で、この能力は代償を伴います。マルチモーダルシステムは本質的に複雑であり、異なるデータストリームを整列させ、融合し、それらに基づいて推論するための高度なアーキテクチャを必要とします 17。その結果、ユニモーダルAIに比べて技術的な課題が多く、計算コストも高くなります 20。
表1:ユニモーダルAIとマルチモーダルAIの比較分析
| 属性 | ユニモーダルAI | マルチモーダルAI |
| データ範囲 | 単一のデータタイプ(テキスト、画像など) | 複数の異種データタイプ |
| アーキテクチャの複雑さ | 比較的単純で特化型(例:標準的なCNN、RNN) | 複雑で統合型、融合メカニズムを必要とする |
| 文脈理解 | 文脈が限定的で、曖昧さを生じやすい | より豊かな文脈理解、相互検証による曖昧さの解消 |
| 性能 | 限定的で特化されたタスクで高性能 | 複雑な現実世界のタスクでより高い精度と堅牢性 |
| データ要件 | 単一データタイプの大規模データ | 複数のモダリティにわたる多様で整列されたデータセット |
| 代表的なモデル | GPT-3(テキストのみ)、ResNet(画像のみ) | GPT-4o、Google Gemini、CLIP |
| 主要な課題 | 単一タスクの最適化 | 効果的なデータのアライメントと融合 |
第2章 マルチモーダルAIのアーキテクチャ基盤
マルチモーダルAIの能力は、多様なデータを統合するために設計された、高度な技術基盤の上に成り立っています。本章では、この分野を支える中核技術を詳細に分析し、モデル、メカニズム、そして理論がどのようにして異種データの統合を可能にしているのかを解き明かします。
2.1 Transformerの中心的役割:自己注意機構による統一メカニズム
元々は自然言語処理(NLP)のために開発されたTransformerアーキテクチャは、今やマルチモーダルシステムの事実上の標準となっています 9。その核となる自己注意機構(Self-Attention)は、元のモダリティに関わらず、トークン化されたデータのシーケンスを処理するのに非常に適しています 9。
このアーキテクチャの真価は、一種の「ユニバーサル・データ・キャンバス」として機能する能力にあります。テキストをサブワードに 9、画像をパッチに 9、音声をスペクトログラムに 30 といった形で、あらゆるモダリティを「トークン」という共通の数値形式に抽象化することで、中核となる推論エンジンを入力データの特性から切り離します。自己注意機構は、トークンが単語由来か画像パッチ由来かを問わず、シーケンス内のトークン間の関係性のみに注目します。この抽象化こそがマルチモーダルAIの爆発的な成長とスケーラビリティを可能にし、単一のアーキテクチャを無限のモダリティの組み合わせに適用する道を開いたのです。これにより、問題は「視覚と言語のためのカスタムモデルをどう構築するか」から、「新しいモダリティをTransformerに入力するためにどう効果的にトークン化するか」へとパラダイムシフトしました。
さらに、高度なアーキテクチャでは相互注意機構(Cross-Attention)が用いられます。これにより、モデルはモダリティ間の情報を明示的に関連付けることができます。例えば、文中の「犬」という単語と、犬を含む特定の画像パッチを結びつけることが可能になり、これが深い相互モーダル理解を実現する鍵となります 11。
2.2 コアコンポーネント:入力、融合、出力モジュールの詳細
典型的なマルチモーダルAIシステムは、入力モジュール、融合モジュール、出力モジュールの3つの主要コンポーネントで構成されています 4。
- 入力モジュール: このモジュールは、複数のユニモーダル・ニューラルネットワーク(エンコーダ)で構成され、それぞれが特定のデータタイプ(例:画像用のCNNやVision Transformer、テキスト用のTransformer)に特化しています 4。その役割は、生データから関連する特徴を抽出し、それらを数値表現(埋め込みベクトル)に変換することです 8。
- 融合モジュール: マルチモーダルシステムの心臓部であり、モダリティ固有のエンコーダからの情報が結合・統合される場所です 4。異種データを整列させ、調和させるという中核的な課題はここで対処されます 11。
- 出力モジュール: この最終コンポーネントが、分類、予測、あるいは一つ以上のモダリティ(テキスト、画像、音声など)での生成的コンテンツといった結果を生成します 4。
2.3 統合の技術:データ融合戦略の技術的レビュー
データ融合とは、モデルのアーキテクチャ内で異なるモダリティを統合するために使用される技術を指します 11。融合戦略の選択は、性能、複雑さ、堅牢性に影響を与える重要な設計上の決定です。
- 早期融合(特徴レベル): モダリティは、モデル本体に入力される前の生の特徴レベルで結合されます。多くの場合、埋め込みベクトルを連結することで実現されます 11。このアプローチでは、モデルは初期段階からモダリティ間の相互作用を学習できますが、厳密に同期・整列されたデータを必要とします 33。
- 後期融合(決定レベル): 各モダリティは個別のモデルによって独立して処理され、最終的な予測が後段で(例えば、投票や加重平均によって)結合されます 11。この方法は柔軟性があり、欠損モダリティにも強いですが、データストリーム間の微細な低レベルの相互作用を見逃す可能性があります 33。
- 中間(ハイブリッド)融合: この戦略は両者の中間に位置し、ネットワークの様々な中間層で特徴を結合します 11。特にTransformer内の相互注意機構を利用する現代的なアーキテクチャは、この中間融合の洗練された形態と見なすことができます 11。
2.4 共通言語の創出:マルチモーダル埋め込み空間の理論と実践
マルチモーダル学習における中心的な技術の一つが、異なるモダリティを「マルチモーダル埋め込み空間」として知られる共通の高次元ベクトル空間にマッピングすることです 11。
この共有空間内では、意味的に類似した概念は、元のモダリティに関わらず、互いに近接したベクトルとして表現されます 32。例えば、「犬」という単語のベクトルは、犬の画像のベクトルと近くなるように学習されます 4。
この共有表現こそが、強力なクロスモーダル能力を可能にする基盤です。テキストクエリを用いた画像検索(あるいはその逆)のようなタスクは、この共有埋め込み空間内で最近傍のベクトルを見つけることによって実行されます 16。この空間の次元数は、レイテンシと精度のバランスを取るための重要なハイパーパラメータとなります 40。
第3章 画期的なモデルと生成技術
本章では、この分野を定義し、発展させてきた画期的なモデルの詳細なケーススタディを通じて、マルチモーダルAIの進化の軌跡をたどります。さらに、現在の最先端システムを技術的に分析し、その能力とアーキテクチャの変遷を明らかにします。
3.1 ケーススタディ:OpenAIのCLIPと対照的言語-画像事前学習
CLIP(Contrastive Language-Image Pre-training)は、大規模な自然言語の監視情報から直接視覚概念を学習するというアプローチで、大きなブレークスルーをもたらしました 41。このモデルは、インターネットから収集された4億組の画像とテキストのペアで学習されています 42。
CLIPは、画像エンコーダ(Vision Transformerなど)とテキストエンコーダ(Transformer)からなるデュアルエンコーダアーキテクチャを採用し、これらを共同で学習させます 39。その中核的な革新は、対照的学習と呼ばれる学習目的にあります。N個の画像-テキストペアのバッチが与えられた場合、モデルはN組の正しいペアのコサイン類似度を最大化し、同時に
N2−N組の不正解なペアの類似度を最小化するように学習します 39。このプロセスにより、2つのモダリティが効果的に共通の埋め込み空間に整列されます 42。
この事前学習は、強力なゼロショット分類能力を可能にします。画像を分類する際、特定の分類タスクについて明示的に学習することなく、画像と一連のテキストプロンプト(例:「犬の写真」「猫の写真」)を埋め込み、コサイン類似度が最も高いプロンプトを選択することで分類が可能です 41。
3.2 ケーススタディ:拡散モデル革命とDALL-E 2
DALL-E 2は、高忠実度なテキストから画像への生成モデルの画期的な例です 45。そのアーキテクチャは、主に3つの部分から構成されています。
- CLIPエンコーダ: 事前学習済みのCLIPテキストエンコーダを使用して、入力されたテキストプロンプトをテキスト埋め込みに変換します 46。
- 事前モデル(Prior Model): 「事前モデル」(多くはTransformerベースの拡散モデル)が、テキスト埋め込みを受け取り、それに対応するCLIPの画像埋め込みを生成します 46。このステップで、テキスト記述と視覚的概念の間の意味的な関連性が学習されます。
- デコーダ/生成器: 拡散デコーダ(GLIDEやU-Netアーキテクチャなど)が、生成された画像埋め込みを受け取り、逆拡散プロセスを通じて最終的な高解像度画像を合成します 45。このプロセスは、ランダムノイズから始まり、埋め込みベクトルに導かれながら反復的に画像を精緻化していきます 45。
このアーキテクチャは、単純な画像生成にとどまらず、インペインティング(テキストで画像の一部を編集)、アウトペインティング(画像を拡張)、既存画像のバリエーション生成といった高度な機能を実現します 47。
3.3 現在の最先端:Google Gemini 2.5 ProとOpenAI GPT-4oの技術分析
CLIPやDALL-E 2のような初期のモデルが、しばしば個別の事前学習済みエンコーダを「接続」するアプローチを取っていたのに対し、GeminiやGPT-4oのような最新モデルは「ネイティブにマルチモーダル」であるか、複数のモダリティにまたがって「エンドツーエンド」で学習されるように設計されています 51。このアーキテクチャの進化は、AIの知能における根本的な変化を反映しています。「接続」アプローチは、マルチモーダリティを専門的なユニモーダルエキスパート間の統合問題として扱います。一方、「ネイティブ」アプローチは、マルチモーダリティを知能そのものの基本的な特性として捉えます。ネイティブなマルチモーダルモデルは、2つの別々に学習された空間を整列させようとするのではなく、最初からより深く統合された統一的な内部表現空間を学習します。このアーキテクチャ上の選択が、特にモダリティを横断する複雑でニュアンスに富んだ推論を必要とするタスクにおいて、最新世代のモデルが優れた性能を発揮する理由であると考えられます。
- Google Gemini 2.5 Pro:
- アーキテクチャ: 「思考モデル」として設計されており、強化されたベースモデルと、強化学習や思考の連鎖(Chain-of-Thought)プロンプティングなどの改良された事後学習技術を組み合わせることで、応答前の推論能力を向上させています 51。
- 能力: テキスト、画像、音声、動画入力をサポートし、100万から200万トークンという巨大なコンテキストウィンドウを備えています 51。GPQA、AIME、SWE-Benchといった複雑な推論、数学、コーディングのベンチマークで最先端の性能を示しており、特にMMMUのようなマルチモーダル理解ベンチマークでの性能は際立っています 51。
- OpenAI GPT-4o:
- アーキテクチャ: テキスト、音声、視覚にまたがってエンドツーエンドで学習された単一のニューラルネットワークであり、これらのモダリティの任意の組み合わせを処理・生成できます 52。多言語性能を向上させるための改良されたトークナイザを特徴としています 52。視覚ファインチューニング機能は、小規模なデータセットからの効率的な転移学習のために、洗練された相互注意機構を活用しています 58。
- 能力: GPT-4レベルの知能を、大幅に高速かつ低コストで提供します 52。リアルタイムの対話に優れ、音声入力を処理し、ニュアンスのある感情やトーンを持つ音声出力を生成できます。MMLUやIFEvalなどのベンチマークで高い性能を示しています 60。
- 性能比較: ベンチマークは熾烈な競争を示しています。Gemini 2.5 Proは長文コンテキストや複雑な推論タスク(例:GPQA、MMMU)で優位に立つ傾向がありますが、GPT-4oやClaude 4のようなモデルもコーディングなどの分野で非常に高い性能を発揮しています 56。モデルの選択は、特定のタスクやコストパフォーマンスのトレードオフに大きく依存します 56。
表2:最先端マルチモーダルモデルの概要(2024-2025年)
| モデル(開発元) | 主要なアーキテクチャ特徴 | サポートモダリティ(入力/出力) | コンテキストウィンドウ | 主要ベンチマーク性能ハイライト | ライセンス/利用可能性 |
| Google Gemini 2.5 Pro | ネイティブマルチモーダル、「思考モデル」、強化学習 | 入力:テキスト、画像、音声、動画 / 出力:テキスト | 100万~200万トークン | MMMU、GPQA、AIMEで最先端 | 商用API(Vertex AI) |
| OpenAI GPT-4o | エンドツーエンドの単一オムニモデル、高速化 | 入力:テキスト、画像、音声 / 出力:テキスト、画像、音声 | 128,000トークン | MMLU、IFEvalで高性能 | 商用API、ChatGPT |
| Meta Llama 3.2 Vision | オープンソース、Transformerベース、MoEアーキテクチャ | 入力:テキスト、画像 / 出力:テキスト | 128,000トークン | 画像-テキストタスクで高性能 | Llama 3.2 コミュニティライセンス |
| Anthropic Claude 4 | 安全性重視の設計、憲法AI | 入力:テキスト、画像 / 出力:テキスト | 200,000トークン | SWE-Bench、Terminal-benchで高性能 | 商用API |
| Mistral Pixtral | オープンウェイト、12Bパラメータ | 入力:テキスト、画像 / 出力:テキスト | 128,000トークン | 効率的なマルチモーダル処理 | Apache 2.0 |
| Alibaba Qwen 2.5 VL | 長時間動画理解、構造化出力生成 | 入力:テキスト、画像、動画 / 出力:テキスト | 不明 | 文書解析、動画理解に強み | 商用利用可能 |
| NVIDIA NVLM 1.0 | GPUアクセラレーションに最適化 | 入力:テキスト、画像 / 出力:テキスト | 不明 | 複雑な視覚-テキストタスクで高性能 | オープンソース |
第4章 産業横断的な応用と能力の概観
マルチモーダルAIの実用的な影響は、学術研究の領域をはるかに超えて広がっています。本章では、その応用範囲を広げ、様々な産業で活用されている中核的な能力別に事例を分類し、具体的なインパクトを示します。
4.1 クロスモーダル生成と翻訳
- テキストから画像へ: テキスト記述から画像を生成する技術は、クリエイティブAIの中核をなしています。DALL-E 3、Midjourney、Stable Diffusionなどのモデルがこの分野を牽引しています 4。
- 画像からテキストへ(画像キャプション生成): 画像に対して自動的に説明文を生成します。これは、視覚障害者向けの代替テキスト、コンテンツのインデックス化、検索機能の向上など、アクセシビリティにとって極めて重要です 24。
- 動画からテキストへ(動画要約): 動画コンテンツの簡潔なテキスト要約を生成し、メディア、教育、企業コミュニケーションの分野で時間節約と重要情報の抽出に貢献しています 69。
- クロスモーダル音声/動画: 無音のクリップに効果音を合成する(動画から音声へ)、あるいは音楽の視覚化を作成する(音声から動画へ)といった応用も進んでいます 73。
4.2 自律システムの高度な知覚
- 自動運転車: マルチモーダルAIは自動運転車にとって不可欠です。カメラ(視覚)、LiDAR/レーダー(深度/距離)、GPS(位置)、マイク(サイレンなどの音声キュー)からのデータを融合し、安全なナビゲーションのために環境の包括的なリアルタイムモデルを構築します 1。
- ロボティクス: ロボットは、タオルの折りたたみのような繊細な物体操作から、製造・物流現場での人間との協働作業に至るまで、視覚、触覚センサー、音声コマンドといったマルチモーダルな入力を活用しています 7。
4.3 ヘルスケアと生命科学の変革
- 診断支援: 医療画像(X線、MRI)を電子カルテ(EHR、テキスト)、患者の病歴、さらには声のバイオマーカーと組み合わせることで、がんなどの疾患の診断精度と速度を向上させます 13。
- 個別化医療: ゲノムやプロテオームのデータと臨床情報を統合し、個々の患者の独自の生物学的プロファイルに合わせた治療計画を策定します 84。
- 創薬: AIモデルを用いてプロテオームや古代ゲノムを探索し、新たな抗生物質の候補を発見することで、創薬プロセスを加速させています 91。GoogleのMedGemmaモデルは、複雑な医療テキストや画像タスクを扱う医療AI開発に特化して設計されています 92。
4.4 ヒューマン・コンピュータ・インタラクションとメディアの革命
- 対話型AIと仮想アシスタント: Google Geminiのような高度なアシスタントは、テキスト、音声、視覚入力を処理して応答することができ、対話をより自然で文脈に応じたものにします 93。これには、表情、声のトーン、テキストを同時に分析してユーザーの感情を理解することも含まれます 19。
- エンターテインメントとコンテンツ制作: AIは、画像、動画、音楽、さらにはゲームや映画用のインタラクティブな物語を含むマルチメディアコンテンツの生成に利用され、創造的なワークフローを変革しています 7。
- 教育: テキスト、動画、音声にわたる生徒のインタラクションを分析して、個別化された学習経路を作成します。これには、インテリジェントなチュータリングシステムや、リアルタイムのキャプション生成・翻訳といったアクセシビリティ向上ツールも含まれます 13。
これらの多様な応用事例全体に共通するテーマは、AIが受動的なコマンドベースのシステムから、能動的で文脈を認識するシステムへと移行していることです。この移行は、ほぼ例外なくマルチモーダリティによって可能になっています。ユニモーダル(例:テキストのみ)のシステムは、与えられた明示的な情報にしか反応できません。一方、マルチモーダルシステムは、複数のチャネルを通じて世界を知覚することで、暗黙的な文脈を推測できます。それは、ユーザーが何を言ったかだけでなく、どのように言ったか(トーン)、何を見ていたか(視覚)、そして周囲で何が起こっていたか(環境音、センサーデータ)を理解します。この豊かな文脈理解こそが、AIが単に質問に答えるだけでなく、ニーズを予測し、明言されていない問題を特定し、複雑な環境で判断を下すための前提条件となります。マルチモーダリティは、能動的な知能に必要とされる感覚的な完全性を提供する技術的な架け橋なのです。
第5章 強みと体系的課題に関する批判的評価
本章では、マルチモーダルAIが持つ二面性、すなわちその強力な利点と、開発・展開を制約する formidable な課題について、バランスの取れた分析を行います。
5.1 価値提案:精度、堅牢性、推論能力における利益の定量化
- 精度の向上と深い洞察: 補完的な情報を統合することで、マルチモーダルシステムは曖昧さを減らし、ユニモーダルモデルよりも高い精度を達成できます 7。データの融合により、単一モダリティでは見過ごされがちな領域横断的な相関関係の発見が可能になります 5。
- 堅牢性と回復力の向上: あるモダリティがノイズが多い、破損している、または欠損している場合でも、他の利用可能なチャネルからの情報に依存することで性能を維持できます 11。これは、データが不完全であることが多い現実世界のアプリケーションにとって極めて重要です。
- 豊かな文脈理解: 複数のデータタイプを同時に処理する能力は、複雑な状況に対するより全体的で人間らしい理解を提供し、よりニュアンスに富んだ適切な応答を可能にします 12。
5.2 技術的障壁:データのアライメント、モデルの複雑さ、計算コスト
- データの表現とアライメント: 異種データをどのように表現し、異なるモダリティの要素間の関連性を特定するかは、中核的な技術的課題です 11。時間的・空間的解像度が異なるデータ(例:特定のビデオフレームと音声を同期させる)を整列させることは、些細な問題ではなく、性能に不可欠です 24。
- アーキテクチャの複雑さ: モダリティを横断して効果的に融合し推論できるモデルの設計と学習は、ユニモーダルシステムの構築よりもはるかに複雑です 4。これには、高度なアーキテクチャとデータ融合技術が必要です 11。
- 計算コスト: マルチモーダルモデル、特に大規模な基盤モデルは、リソースを大量に消費します。学習と推論の両方で、相当な計算能力(GPU/TPU)、メモリ、エネルギーが必要です 25。数十億の画像の埋め込みを生成するコストは数十万ドルに達し、月々のサービス提供コストは数百万ドルに及ぶ可能性があります 109。
5.3 データボトルネック:調達、アノテーション、品質
- 高品質データセットの希少性: ユニモーダルデータ(例:ウェブ上のテキスト)は豊富に存在しますが、大規模で高品質、かつ適切にアノテーションされたマルチモーダルデータセットははるかに希少で、作成コストも高くなります 3。
- データの品質とノイズ: 現実世界のマルチモーダルデータは、しばしば不完全(モダリティの欠損)、ノイズが多い(例:音声の背景雑音、不鮮明な画像)、一貫性がないといった問題があり、モデルの学習にとって大きな課題となっています 107。
- アノテーションの複雑さ: モダリティ間の関係性にアノテーションを付与する作業は、単一モダリティのデータにラベルを付けるよりもはるかに複雑で手間がかかり、教師あり学習用のデータセット作成を妨げています 3。
5.4 評価の危機:現行ベンチマークの限界
- 人工的な設定: 多くの現行ベンチマークは、MMBenchやVQA-v2のように、多肢選択式の質問応答形式に依存しています。これは現実世界の自由形式の対話を反映しておらず、モデルの弱点を覆い隠す可能性があります 113。
- 言語プライヤーへの過度な依存: 研究によれば、多くのMLLMは、一部のベンチマークにおいて視覚情報を無視し、テキストプロンプトのみでタスクを「解決」できてしまうことが示されています。これは、真のマルチモーダル推論能力を評価できていないことを意味します 116。エラーの最大50%は、マルチモーダル融合の失敗ではなく、LLMバックボーンの世界知識の不足に起因する可能性があります 116。
- 重要能力の軽視: 既存のベンチマークは、現実世界での展開に不可欠な、精密な空間推論、曖昧さへの耐性、因果関係の理解といった能力を十分にテストできていないことが多くあります 113。現在のベンチマーク性能と、人間レベルの真のマルチモーダル理解との間には、依然として大きな隔たりが存在します 120。
この分野は、モデルの能力が展開の実現可能性を上回るという壁に突き当たっています。最先端のマルチモーダルモデルの複雑さの増大 107 と、特にエッジデバイスでの実世界展開における制約 122 との間には、明らかな緊張関係が存在します。これは悪循環を生み出します。現実世界の複雑なタスクを処理するためにはモデルがより複雑になる必要がありますが、その複雑さが計算要件とデータ要件を増大させ 109、展開を困難かつ高価にし、クラウドに限定させます。これがレイテンシやプライバシーの問題を引き起こし 123、モデルをさらに改善するために必要な多様な実世界インタラクションデータの収集を妨げます。この問題認識から、「展開中心(deployment-centric)」のアプローチが提唱されています 126。これは、レイテンシ、消費電力、プライバシーといった制約を、後付けではなく設計プロセスの初期段階から考慮するものであり、純粋に性能を追求する「モデル中心」のアプローチから、全体的で実用的なアプローチへの必要なパラダイムシフトです。
表3:マルチモーダルAIの課題と対応戦略
| 課題カテゴリ | 具体的な課題 | 説明 | 緩和戦略 / 研究の方向性 |
| データ関連 | データのアライメント/同期 | 時間的・空間的特性が異なるデータストリームを相関させることの困難さ。 | 相互注意機構、時間的アライメント技術、後期融合アーキテクチャ。 |
| データセットの希少性とコスト | 大規模で高品質なアノテーション付きマルチモーダルデータセットの不足。 | 自己教師あり学習(例:CLIP)、合成データ生成、転移学習。 | |
| モデル関連 | 計算の複雑性とコスト | 学習と推論に高いリソース要件。 | モデルの量子化、知識蒸留、効率的なアーキテクチャ(例:MoE)、ハードウェアアクセラレーション(NPU/TPU)。 |
| 評価とベンチマーキング | 既存のベンチマークが人工的で、真の推論能力をテストしていない。 | 空間的・因果的推論のための新しいベンチマーク開発、自由形式評価、人間参加型評価。 | |
| 倫理/社会関連 | バイアスの増幅 | 融合されたモデルがユニモーダルデータに存在するバイアスを悪化させる可能性。 | キュレーションされた/バランスの取れたデータセット、敵対的デバイアシング、事後的な埋め込み調整、公平性を考慮した損失関数。 |
| プライバシーとセキュリティ | 複数の機密データタイプを扱うことによるリスクの増大。 | 連合学習、データ匿名化、差分プライバシー、厳格なアクセス制御、規制(GDPR/HIPAA)の遵守。 | |
| 透明性の欠如(ブラックボックス問題) | モデルの意思決定を説明することの困難さ。 | ニューロシンボリックAIの研究、解釈可能なアーキテクチャの開発、注意の可視化技術。 |
第6章 倫理的要請と社会的危害の緩和
本章では、マルチモーダルAIの重要な倫理的側面に焦点を当てます。特に、複数のデータソースの統合が、いかにして社会的なバイアスを導入・増幅し、新たなプライバシーリスクを生み出すかについて詳述します。
6.1 バイアスの増幅:モダリティの組み合わせがいかにして社会的ステレオタイプを悪化させるか
マルチモーダルモデルは、しばしばフィルタリングされていないインターネットから収集された学習データに存在するバイアスを継承します 4。決定的に重要なのは、モダリティを組み合わせることが
バイアスの増幅につながる可能性があるという点です。これは、マルチモーダルな出力におけるバイアスが、個々のユニモーダル入力のどのバイアスよりも大きくなる現象を指します 128。
- バイアスのケーススタディ:
- 性別-職業バイアス: DALL-E 2やStable Diffusionのようなテキストから画像への生成モデルは、「CEO」を男性と、「看護師」を女性と関連付けるステレオタイプ的な画像を生成することが示されており、学習データに存在するバイアスを増幅しています 127。
- 人種的バイアス: LLaVAモデルが黒人男性をゴリラと誤認した事例が報告されており、これは学習データから学んだ有害な人種的バイアスが原因であると考えられます 131。
- 採用におけるバイアス: 自動化されたビデオ面接において、言語的、準言語的、視覚的な手がかりを組み合わせると、慎重な緩和策を講じない限り、言語情報のみを使用する場合と比較して特定の性別に対するバイアスが増加する可能性があります 132。
この現象は、マルチモーダリティが持つ「公平性のパラドックス」を浮き彫りにします。理論的には、マルチモーダリティはより多くの文脈を提供し、情報を相互参照することでバイアスを低減する可能性があります 25。しかし、実証研究では、最良のユニモーダル予測器と比較してバイアスを
増加させ、増幅させることが示されています 129。この矛盾は、バイアス低減の理論がモダリティ間のバイアスが独立しており互いに相殺し合うという仮定に依存していることに起因します。しかし現実には、社会的なバイアスは遍在し、モダリティ間で相関していることが多いのです(例:ウェブ上のテキストと画像の両方に存在するステレオタイプ)。これらの相関したバイアスが融合されると、モデルはバイアスのかかった予測に対して
より確信を深め、結果として増幅につながります。したがって、公平性の達成は、単にデータを追加することによる自動的な恩恵ではなく、精度だけでなくバイアスと公平性も考慮した、意図的な介入と全体的な最適化アプローチを必要とする、積極的なエンジニアリングおよび倫理的な課題なのです。
6.2 公平性のためのフレームワーク:バイアス検出と緩和技術のレビュー
- バイアス検出: バイアスの測定には専門的なフレームワークが必要です。単語/画像埋め込み連合テスト(WEAT/iEAT)やマルチモーダル複合連合スコア(MCAS)は、埋め込み空間におけるステレオタイプ的な関連性を定量化するために使用される手法です 128。
- 緩和戦略:
- データキュレーション: 最も基本的なアプローチは、多様で代表的、かつバランスの取れた学習データセットをキュレーションし、内在するバイアスを最初から低減することです 135。
- データ拡張と再サンプリング: 学習データにおける過小評価されているグループの表現を合成的に増加させる技術です 135。
- 敵対的デバイアシング: モデルの表現から機密属性(例:性別)を予測する二次的な分類器を学習させます。そして、主モデルがこの敵対者を「騙す」ように学習させることで、機密属性に不変な表現を学習させます 135。
- ファインチューニング不要な手法: コストのかかる再学習なしに埋め込みを調整してバイアスを除去する後処理技術。例えば、埋め込みをバイアス方向と直交する部分空間に射影したり、選択的特徴ベースの介入(SFID)を用いたりします 140。
6.3 マルチモーダル世界におけるプライバシーとセキュリティ:新たなリスクと責任
- 攻撃対象領域の増大: 複数の、しばしば機密性の高いデータタイプ(生体情報、位置情報、私的な会話)を扱うことは、プライバシーリスクとデータ漏洩の可能性を著しく増大させます 4。
- 侵襲的なデータ収集: スマートホームデバイスやニューロテクノロジーなどを介した、継続的かつ受動的なマルチモーダルデータの収集は、非常に侵襲的であると認識される可能性があり、監視や個人のプライバシー侵害に関する懸念を引き起こします 112。
- 意図しない情報の推論: 異なるモダリティからの無害に見えるデータを組み合わせることで、AIがユーザーによって明示的に共有されていない非常に機密性の高い情報を推論できてしまう可能性があります 142。
- 悪意のある利用: 現実的な合成音声、動画、画像(ディープフェイク)を生成する能力は、詐欺、なりすまし、偽情報のための強力なツールを生み出します 79。
6.4 信頼できるAIに向けて:透明性、説明責任、ガバナンス
- 説明可能性(XAI): マルチモーダルモデルの複雑さは、それらを「ブラックボックス」化し、透明性を妨げ、なぜその決定が下されたのかを理解することを困難にします。これは、特にヘルスケアのようなハイステークスな領域において、信頼を構築する上での大きな障壁となります 105。
- 説明責任: マルチモーダルシステムが失敗したり損害を引き起こしたりした場合に、明確な責任の所在を確立することは、重大な法的・倫理的課題です 142。
- 規制フレームワーク: これらのシステムの開発と展開は、GDPRやHIPAAのような進化し続けるデータ保護規制を遵守し、AI権利章典のような倫理的フレームワークに導かれる必要があります 106。
第7章 マルチモーダル研究の最前線と将来展望
最終章では、マルチモーダルAI研究の最先端を探求し、新たなアーキテクチャ、斬新なデータタイプ、そしてそれらを動かすためのハードウェアを検証します。これらのトレンドを統合し、この分野の将来の軌道を予測することで本レポートを締めくくります。
7.1 エージェントAIの台頭:視覚-言語-行動(VLA)と身体性知能
AI研究の最前線は、プロンプトに応答する受動的なモデルから、物理的または仮想的な環境で知覚、推論、計画、そして行動を起こすことができる能動的なエージェントAIシステムへと移行しています 149。この進化は、エージェント(自律的に行動するシステム)、身体性(物理世界に存在する身体)、そしてワールドモデル(環境の内部予測モデル)という3つの相互接続された概念によって推進されています。これらは別々の分野ではなく、AIの未来に対する単一の統一されたビジョンの3つの柱です。エージェントが世界で行動するためには
身体(身体性)が必要であり、その行動の結果を理解し効果的に計画するためには内部のワールドモデルが必要です。マルチモーダリティは、この三位一体を養う感覚神経系として機能し、エージェントが正確なワールドモデルを構築し、行動するために環境を知覚するために必要な、豊かで多チャネルのデータを提供します。
- 視覚-言語-行動(VLA)モデル: VLAは、身体性AIのために特別に設計されたモデルクラスであり、視覚と言語の入力を処理してロボットの行動を生成します 155。これらは、高レベルの理解(VLMから)と低レベルの制御との間の架け橋となります 156。
- ロボティクスのための基盤モデル: 研究者たちは、人間のインタラクションビデオの膨大なデータセットで事前学習し、その後ロボット固有のデータでファインチューニングすることにより、異なるタスクやロボット形態に汎化できる身体性AIのための基盤モデルを構築しています 160。
- 因果ワールドモデル: 重要な研究方向として、因果関係を理解するワールドモデルの開発が挙げられます。これにより、エージェントは自らの行動の結果を予測し、より効果的に計画を立てることができ、これは堅牢な身体性AIに不可欠であると見なされています 156。
7.2 感覚の拡張:新規かつ複雑なモダリティの統合
- 触覚データ: 触覚の統合はロボティクスにとって極めて重要であり、精密な組み立てや物体の皮むきといった、視覚だけでは不可能な接触集約型の操作タスクをロボットが実行できるようにします 168。
- 神経・生体データ(EEG/BCI): AIは脳信号(例:EEGから)を解読し、ブレイン・コンピュータ・インターフェース(BCI)を作成するために使用されています。これにより、脳から外部デバイスへの直接的な通信が可能になり、支援技術や感情コンピューティングに応用されています 174。
- ゲノミクスとプロテオミクス: ヘルスケア分野では、マルチモーダルモデルがマルチオミクスデータ(ゲノミクス、プロテオミクス、トランスクリプトミクス)と臨床記録を統合し、患者の包括的な生物学的理解を創出し、超個別化医療への道を開いています 84。
- ニューロシンボリックAI: このハイブリッドアプローチは、ニューラルネットワークのパターン認識能力と、シンボリックAI(論理、ルール)の構造化された推論能力を組み合わせます。複雑なマルチモーダルタスクにおける推論、透明性、汎化能力を向上させる有望な方向性です 146。
7.3 ハードウェアの必須要件:効率的な推論のための専用アーキテクチャ
- アクセラレーションの必要性: 大規模マルチモーダルモデルの膨大な計算需要は、特にエッジデバイスでのリアルタイムアプリケーションにおいて、学習と推論を実現可能にするための専用ハードウェアアクセラレータを必要とします 123。
- TPUとNPU: Googleが開発したテンソル・プロセッシング・ユニット(TPU)は、データセンターでの大規模ディープラーニングワークロードに最適化されたASICです 183。ニューラル・プロセッシング・ユニット(NPU)は、スマートフォンやIoTハードウェアなどのエッジデバイスで効率的かつ低消費電力な推論を行うために設計されています 183。AppleのNeural EngineやQualcommのAI Engineがその代表例です 188。
- オンデバイス展開の課題: 大規模VLMをモバイルデバイスに展開することは、メモリ、計算能力、熱/エネルギー予算の制約から大きな課題です。現在のフレームワークはしばしばCPUでボトルネックとなり、GPUやNPUのような専用アクセラレータを十分に活用できておらず、性能低下やデバイスの不安定化を招いています 124。
- 最適化技術: 効率的なオンデバイス推論を可能にするため、量子化(モデルの重みの数値精度を低減、例:32ビット浮動小数点数から8ビット整数へ)や知識蒸留(大規模な「教師」モデルを模倣する小規模な「生徒」モデルを学習)といった技術が不可欠です 194。
7.4 研究コミュニティからのハイライト(NeurIPS, ICML, CVPR, MLSys)
トップAIカンファレンスの最近の論文をレビューすると、2025年以降の主要な研究トレンドが明らかになります。スケーラブルで効率的な視覚-言語モデル 200、マルチモーダルな推論と評価 204、身体性AIのためのマルチモーダルシステム 155、そしてこれらの大規模システムを効率的に構築・提供するための課題 208 が挙げられます。
- NeurIPS 2025: NeuroAI(神経科学とAIを橋渡しし、安全性とアライメントを追求)、マルチモーダル検索拡張生成(MMU-RAG)のための新しいベンチマーク、身体性エージェントにおけるLLMの課題に焦点が当てられています 205。
- ICML 2025: マルチモーダルモデルのための強化学習のスケーリング、より良いマルチモーダル理解のためのModular Duplex Attention(MODA)のような新しいアーキテクチャ、視覚的記憶を持つ柔軟な知覚の研究などがハイライトされています 206。
- CVPR 2025: VLMのための効率的な視覚エンコーダ(FastVLM)、3Dシーン生成(FirePlace)、動画から音声への合成(AV-Link)、空間推論能力のギャップを明らかにする新しいベンチマークなどが注目されています 73。
7.5 結論的統合:AGIへの軌跡の予測
本レポートで特定されたトレンドを統合すると、一つの明確な方向性が見えてきます。エージェント的で身体性を持つ知能への追求、より多様で複雑な感覚データの統合、専用ハードウェアの共進化、そして因果的推論と堅牢な評価への集中はすべて、より汎用的で、適応性があり、有能なAIシステムを創造するという単一の目標を指し示しています。
AIの未来は、疑いなくマルチモーダルです。ユニモーダルな専門化から、統合された多感覚的理解への道のりは、汎用人工知能(AGI)への道程において、重要かつ不可欠なステップです。課題は依然として大きいものの、アルゴリズム、ハードウェア、アプリケーションにわたるイノベーションの急速なペースは、AIがますます人間自身の方法と区別がつかない形で世界を知覚し、推論し、相互作用する未来を示唆しています。
引用文献
- マルチモーダルAIとは? – 産総研 https://www.aist.go.jp/aist_j/magazine/20231129.html
- マルチモーダルAIとは?生成AIや各業界での活用事例、課題について解説 – SHIFT サービスサイト https://service.shiftinc.jp/column/10753/
- Multimodal artificial intelligence | European Data Protection Supervisor https://www.edps.europa.eu/data-protection/technology-monitoring/techsonar/multimodal-artificial-intelligence_en
- What is multimodal AI: Complete overview 2025 | SuperAnnotate https://www.superannotate.com/blog/multimodal-ai
- What Is Multimodal AI? A Complete Introduction – Splunk https://www.splunk.com/en_us/blog/learn/multimodal-ai.html
- Multimodal AI Examples: How It Works, Real-World Applications, and Future Trends https://smartdev.com/multimodal-ai-examples-how-it-works-real-world-applications-and-future-trends/
- マルチモーダルAIとは?事例から見る活用方法や今後の展望を解説 – モンスター・ラボ https://monstar-lab.com/dx/technology/about-multimodal-ai/
- What Is Multimodal AI? | Built In https://builtin.com/articles/multimodal-ai
- Transformer (deep learning architecture) – Wikipedia https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
- マルチモーダルAIとは何? 意味やシングルモーダルAIとの違い、活用法をわかりやすく解説 https://www.skygroup.jp/media/article/4196/
- What is Multimodal AI? | IBM https://www.ibm.com/think/topics/multimodal-ai
- Multimodal AI: The Next Evolution in Artificial Intelligence – Guru https://www.getguru.com/reference/multimodal-ai
- マルチモーダルAIとは?定義・仕組み・利点・課題・活用事例 – Appen https://appen.co.jp/blogs/multimodal-ai-challenges-and-requirements
- マルチモーダルAI|AI用語集|法人向け – ソフトバンク https://www.softbank.jp/biz/solutions/generative-ai/ai-glossary/multimodal-ai/
- 【マルチモーダルAIとは】概要から特徴や活用事例まで詳しく紹介 – SMSデータテック https://www.sms-datatech.co.jp/column/consulting_multimodal-ai/
- マルチモーダルAIの発展:テキスト、画像、音声、動画を横断する次世代技術 https://triggermind.com/ai-basic/multimodal-ai/
- Multimodal AI and Unimodal AI – EITC http://www.eitc.org/research-opportunities/new-media-and-new-digital-economy/ai-machine-learning-deep-learning-and-neural-networks/ai-research-and-applications/multimodal-ai-and-unimodal-ai
- (PDF) Multimodal Deep Learning – ResearchGate https://www.researchgate.net/publication/367088484_Multimodal_Deep_Learning
- Multimodal Emotion Recognition | Blog MorphCast https://www.morphcast.com/blog/multimodal-emotion-recognition/
- Unimodal vs. Multimodal AI: Key Differences Explained – Index.dev https://www.index.dev/blog/comparing-unimodal-vs-multimodal-models
- Unimodal vs Bimodal vs Multimodal Machine Learning: Key Differences – Vegavid Technology https://vegavid.com/blog/unimodal-bimodal-multimodal-learning-which-is-right/
- Multimodal AI Vs. Unimodal AI: Key Differences Explained – Tekki Web Solutions https://www.tekkiwebsolutions.com/blog/multimodal-vs-unimodal/
- AI Solutions for Your Business – Futureweb AI https://futurewebai.com/blogs/unimodal-multimodal-ai
- マルチモーダルAIモデル:AI能力の拡大|ウルトラリティクス https://www.ultralytics.com/ja/blog/multi-modal-models-and-multi-modal-learning-expanding-ais-capabilities
- What is Multimodal AI? [10 Pros & Cons] [2025] – DigitalDefynd https://digitaldefynd.com/IQ/multimodal-ai-pros-cons/
- Chapter 3 Multimodal architectures | Multimodal Deep Learning – GitHub Pages https://slds-lmu.github.io/seminar_multimodal_dl/c02-00-multimodal.html
- Multimodal Transformers: AI Foundation Models, Part 1 – The SAS Data Science Blog https://blogs.sas.com/content/subconsciousmusings/2025/03/21/multimodal-transformers-ai-foundation-models-part-1/
- Revolutionizing Online Education with Multimodal AI: Transformers and Attention Mechanisms – Learning Guild https://www.learningguild.com/articles/revolutionizing-online-education-with-multimodal-ai-transformers-and-attention-mechanisms
- What are multimodal transformers and how do they work? – Milvus https://milvus.io/ai-quick-reference/what-are-multimodal-transformers-and-how-do-they-work
- Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities – arXiv https://arxiv.org/html/2406.05496v1
- Multimodal AI: The Next Frontier in Artificial Intelligence – Shakudo https://www.shakudo.io/blog/multimodal-the-next-frontier-in-ai
- 大規模マルチモーダルモデル (LMM) とは? 用途、機能、利点 – Shaip https://ja.shaip.com/blog/what-are-large-multimodal-models-lmms/
- Multimodal Data Fusion: Key Techniques, Challenges & Solutions – Sapien https://www.sapien.io/blog/mastering-multimodal-data-fusion
- Mastering Multimodal Fusion Techniques – Number Analytics https://www.numberanalytics.com/blog/mastering-multimodal-fusion-techniques
- Multimodal Models and Fusion – A Complete Guide – Medium https://medium.com/@raj.pulapakura/multimodal-models-and-fusion-a-complete-guide-225ca91f6861
- (PDF) Multimodal Data Fusion Techniques – ResearchGate https://www.researchgate.net/publication/383887675_Multimodal_Data_Fusion_Techniques
- マルチモーダル埋め込み行列(Multimodal Embedding Matrix) | インディ・パ | 生成AI教育・研修・コンサルティング https://indepa.net/archives/5688
- Imagen にてマルチモーダルな埋め込みモデルが一般提供になりました – Zenn https://zenn.dev/cloud_ace/articles/fa5f4a0374f27f
- Understanding OpenAI’s CLIP model | by Szymon Palucha – Medium https://medium.com/@paluchasz/understanding-openais-clip-model-6b52bade3fa3
- マルチモーダル エンベディングを取得する | Generative AI on Vertex AI – Google Cloud https://cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-multimodal-embeddings?hl=ja
- CLIP: Contrastive Language-Image Pre-Training – Viso Suite https://viso.ai/deep-learning/clip-machine-learning/
- A Comprehensive Guide to OpenAI’s CLIP Model – TiDB https://www.pingcap.com/article/a-comprehensive-guide-to-openais-clip-model/
- Contrastive Language-Image Pre-training – Wikipedia https://en.wikipedia.org/wiki/Contrastive_Language-Image_Pre-training
- CLIP (Contrastive Language-Image Pretraining) – GeeksforGeeks https://www.geeksforgeeks.org/deep-learning/clip-contrastive-language-image-pretraining/
- Dall-E 2 : Will AI replace Architects? – Snaptrude https://www.snaptrude.com/blog/dall-e-2-will-ai-replace-architects
- DALLE 2 Architecture – GeeksforGeeks https://www.geeksforgeeks.org/deep-learning/dalle-2-architecture/
- How Does DALL·E 2 Work?. Diffusion, and more diffusion. | by Aditya Singh | Augmented AI https://medium.com/augmented-startups/how-does-dall-e-2-work-e6d492a2667f
- Mastering DALL·E 2: A Breakthrough in AI Art Generation – LearnOpenCV https://learnopencv.com/mastering-dall-e-2/
- How does Dall-E 2 Work? Concepts, Examples – Analytics Yogi https://vitalflux.com/how-does-dall-e-2-work-concepts-examples/
- How DALL·E 2 works – adityaramesh.com http://adityaramesh.com/posts/dalle2/dalle2.html
- Gemini 2.5: Our newest Gemini model with thinking – Google Blog https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
- What is GPT-4o? OpenAI’s new multimodal AI model family – Zapier https://zapier.com/blog/gpt-4o/
- Gemini 2.5 Pro: All you need to know – GoCodeo https://www.gocodeo.com/post/gemini-2-5-all-you-need-to-know
- Gemini 2.5 Pro: Features, Tests, Access, Benchmarks & More … https://www.datacamp.com/blog/gemini-2-5-pro
- Gemini 2.5 Pro | Generative AI on Vertex AI – Google Cloud https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro
- Gemini 2.5 Pro vs GPT-4o mini – LLM Stats https://llm-stats.com/models/compare/gemini-2.5-pro-vs-gpt-4o-mini-2024-07-18
- Claude 4 vs GPT-4o vs Gemini 2.5 Pro: Which AI Codes Best in 2025? – Analytics Vidhya https://www.analyticsvidhya.com/blog/2025/05/best-ai-for-coding/
- Unlocking New Dimensions: A Deep Dive into OpenAI’s Vision Fine-Tuning with GPT-4o https://lablab.ai/blog/unlocking-new-dimensions-a-deep-dive-into-openais-vision-fine-tuning-with-gpt-4o
- Model – OpenAI API https://platform.openai.com/docs/models/gpt-4o
- GPT-4.1 vs Claude 3.7 vs Gemini 2.5 Pro vs Grok 3: The Four Horsemen of the AI Revolution | by Cogni Down Under | Medium https://medium.com/@cognidownunder/gpt-4-1-vs-claude-3-7-vs-gemini-2-5-pro-vs-grok-3-the-four-horsemen-of-the-ai-revolution-4fbcef192b11
- The 8 best AI image generators in 2025 – Zapier https://zapier.com/blog/best-ai-image-generator/
- Best AI Image Generators of 2025 1H: Top 5 Models Revealed | by 302.AI – Medium https://medium.com/@302.AI/best-ai-image-generators-of-2025-1h-top-5-models-revealed-a0e25c5e133d
- Imagen – Google DeepMind https://deepmind.google/models/imagen/
- Image Captioning with Keras | Paperspace Blog https://blog.paperspace.com/image-captioning-with-ai/
- Image captioning – Hugging Face https://huggingface.co/docs/transformers/tasks/image_captioning
- What is Image Captioning and How to use Python to Generate Caption from an Image? | by Jim Wang | Medium https://medium.com/@jimwang3589/what-is-image-captioning-and-how-to-use-python-to-generate-caption-from-an-image-98a9eb6be06d
- txtai/examples/25_Generate_image_captions_and_detect_objects.ipynb at master – GitHub https://github.com/neuml/txtai/blob/master/examples/25_Generate_image_captions_and_detect_objects.ipynb
- Applications of Image Captioning in AI: Enhancing User Experience – Akridata https://akridata.ai/blog/ai-image-captioning-applications/
- 6 Best AI Video Summarizers That Boost Productivity – Vimeo https://vimeo.com/blog/post/best-ai-video-summarizers
- Eightify – AI YouTube Video Summarizer https://eightify.app/
- Video Summarizer – ScreenApp https://screenapp.io/features/ai-summarizer
- AI Text & Video Summarizer | Wordtune https://www.wordtune.com/summarizer
- AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation – arXiv https://arxiv.org/html/2412.15191v2
- Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising – arXiv https://arxiv.org/html/2503.20782v1
- [2503.11190] Cross-Modal Learning for Music-to-Music-Video Description Generation – arXiv https://arxiv.org/abs/2503.11190
- GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions – arXiv https://arxiv.org/html/2501.09972v1
- Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment – arXiv https://arxiv.org/html/2412.06209v1
- [2303.17490] Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment – arXiv https://arxiv.org/abs/2303.17490
- 生成AIにも関連するマルチモーダルAI―人のように複数の情報・データを統合して処理を可能とするAI | 村田製作所 技術記事 – Murata Manufacturing https://article.murata.com/ja-jp/article/multimodal-ai-related-to-generative-ai
- Multimodal AI – How it Works, Use Cases, & Examples – Tekrevol https://www.tekrevol.com/blogs/multimodal-ai-how-it-works-use-cases-examples/
- How is multimodal AI used in robotics? – Milvus https://milvus.io/ai-quick-reference/how-is-multimodal-ai-used-in-robotics
- How does multimodal AI support human-robot collaboration? – Milvus https://milvus.io/ai-quick-reference/how-does-multimodal-ai-support-humanrobot-collaboration
- Multimodal AI in Robotics: Simplifying Automation Complexity – Akira AI https://www.akira.ai/blog/multimodal-ai-in-robotics
- How Multimodal AI Is Impacting Healthcare – Forbes https://www.forbes.com/councils/forbestechcouncil/2025/04/29/how-multimodal-ai-is-impacting-healthcare/
- Multimodal AI in Healthcare: The Definitive Guide – Binariks https://binariks.com/blog/multimodal-ai-for-healthcare/
- The Future of Healthcare: Multimodal AI for Precision Medicine – Akira AI https://www.akira.ai/blog/multi-modal-in-healthcare
- How Multimodal AI Transforms Precision Healthcare – Bluebash https://www.bluebash.co/blog/how-multimodal-ai-is-transforming-precision-healthcare/
- Using AI to unlock new insights – UHN Foundation https://uhnfoundation.ca/stories/using-ai-to-unlock-new-insights/
- Harnessing AI in Multi-Modal Omics Data Integration: Paving the Path for the Next Frontier in Precision Medicine – PubMed Central https://pmc.ncbi.nlm.nih.gov/articles/PMC11972123/
- AI in Proteomics Data Analysis: Revolutionizing Protein Research https://communities.springernature.com/posts/ai-in-proteomics-data-analysis-revolutionizing-protein-research
- Finding New Antibiotics From Ancient Genomes With AI | Technology Networks https://www.technologynetworks.com/drug-discovery/articles/resurrecting-ancient-antibiotics-with-ai-402310
- MedGemma: Our most capable open models for health AI development – Google Research https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/
- マルチモーダル AI | Google Cloud https://cloud.google.com/use-cases/multimodal-ai?hl=ja
- Multimodal AI | Google Cloud https://cloud.google.com/use-cases/multimodal-ai
- Integrating Senses: Advancing Multimodal Conversational AI – ConfX Global https://www.confxglobal.com/post/integrating-senses-advancing-multimodal-conversational-ai
- What is Multimodal Conversational AI? – Uniphore https://www.uniphore.com/glossary/multimodal-conversational-ai/
- Multimodal Emotion Recognition Based on Facial Expressions, Speech, and EEG – PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC11186647/
- Multimodal driver emotion recognition using motor activity and facial expressions – Frontiers https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2024.1467051/full
- Understanding Multimodal Emotion Analysis with Imentiv AI https://imentiv.ai/blog/understanding-multimodal-emotion-analysis-with-imentiv-ai/
- A Survey of Deep Learning-Based Multimodal Emotion Recognition: Speech, Text, and Face https://pmc.ncbi.nlm.nih.gov/articles/PMC10606253/
- 【マルチモーダルAIとは】身近な事例から見る活用方法や今後の展望を解説! https://vnext.co.jp/v-blog/what-is-multimodal-ai.html
- How AI is Shaping Media & Entertainment in 2025 – VideoNuze https://www.videonuze.com/perspective/how-ai-is-shaping-media-entertainment-in-2025
- Multimodal AI for Media and Entertainment: Transforming Creativity and Engagement https://aii.et/multimodal-ai-for-media-and-entertainment-transforming-creativity-and-engagement/
- The Multimodal Future of Education: Stefania Druga – YouTube https://www.youtube.com/watch?v=qpmZID27t98
- Unlocking the Future: How Multimodal Learning is Revolutionizing AI to See, Hear, and Read | Udacity https://www.udacity.com/blog/2025/04/unlocking-the-future-how-multimodal-learning-is-revolutionizing-ai-to-see-hear-and-read.html
- What is Multimodal AI? Exploring Its Uses, Benefits, and Challenges – Mindbowser https://generativeai.mindbowser.com/what-is-multimodal-ai/
- What are the challenges in building multimodal AI systems? – Milvus https://milvus.io/ai-quick-reference/what-are-the-challenges-in-building-multimodal-ai-systems
- Multimodal AI: Bridging Technologies, Challenges, and Future – Stellarix https://stellarix.com/insights/articles/multimodal-ai-bridging-technologies-challenges-and-future/
- AI In Production: A Deep Dive Into The Costs Of Multimodal Embedding Search Over 3 Billion Images – The GDELT Project https://blog.gdeltproject.org/ai-in-production-a-deep-dive-into-the-costs-of-multimodal-embedding-search-over-3-billion-images/
- What are the limitations of current multimodal AI models? – Zilliz Vector Database https://zilliz.com/ai-faq/what-are-the-limitations-of-current-multimodal-ai-models
- MultiBench: Multiscale Benchmarks for Multimodal Representation Learning – PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC11106632/
- Navigating the Challenges of Multimodal AI Data Integration – Cogito Tech https://www.cogitotech.com/blog/navigating-the-challenges-of-multimodal-ai-data-integration/
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs – arXiv https://arxiv.org/html/2411.15296v2
- MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs – arXiv https://arxiv.org/html/2407.01509v2
- Evaluating Multimodal Models: Are Our Benchmarks Enough? | by Jeremy Barnes | Medium https://medium.com/@jeremy.barnes.nlp/evaluating-multimodal-models-are-our-benchmarks-enough-900d4b891bee
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks – OpenReview https://openreview.net/forum?id=skHPtDnYGa¬eId=q7gvla4p2X
- MMBench: Is Your Multi-modal Model an All-Around Player? | Request PDF – ResearchGate https://www.researchgate.net/publication/386223525_MMBench_Is_Your_Multi-modal_Model_an_All-Around_Player
- What are the limitations of current multimodal AI models? – Milvus https://milvus.io/ai-quick-reference/what-are-the-limitations-of-current-multimodal-ai-models
- Multi-Image Spatial Reasoning Benchmark Reveals Gaps In AI Understanding https://quantumzeitgeist.com/multi-image-spatial-reasoning-benchmark-reveals-gaps-in-ai-understanding/
- MathVista: Evaluating Math Reasoning in Visual Contexts https://mathvista.github.io/
- MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts https://openreview.net/forum?id=KUNzEQMWU7
- Efficient deep learning inference on edge devices – Amazon Science https://www.amazon.science/publications/efficient-deep-learning-inference-on-edge-devices
- Transformers At The Edge: Efficient LLM Deployment – Semiconductor Engineering https://semiengineering.com/transformers-at-the-edge-efficient-llm-deployment/
- Efficient Deployment of Vision-Language Models on Mobile Devices: A Case Study on OnePlus 13R – arXiv https://arxiv.org/html/2507.08505v2
- What are the challenges in using Vision-Language Models for real-time applications? https://milvus.io/ai-quick-reference/what-are-the-challenges-in-using-visionlanguage-models-for-realtime-applications
- (PDF) Towards deployment-centric multimodal AI beyond vision and language https://www.researchgate.net/publication/390545359_Towards_deployment-centric_multimodal_AI_beyond_vision_and_language
- The Bias Amplification Paradox in Text-to-Image Generation – ACL Anthology https://aclanthology.org/2024.naacl-long.353.pdf
- Measuring Bias in Multimodal Models: Multimodal Composite Association Score – DORAS | DCU Research Repository https://doras.dcu.ie/28902/7/Pages%20from%20978-3-031-37249-0-2.pdf
- More is Less? A Simulation-Based Approach to Dynamic Interactions between Biases in Multimodal Models – arXiv https://arxiv.org/html/2412.17505v1
- More is Less? A Simulation-Based Approach to Dynamic Interactions between Biases in Multimodal Models – ResearchGate https://www.researchgate.net/publication/387350293_More_is_Less_A_Simulation-Based_Approach_to_Dynamic_Interactions_between_Biases_in_Multimodal_Models
- Multimodal LLMs: Fairness and Transparency Concerns | MeVer https://mever.gr/post/fairness-and-transparency-concerns-in-multimodal-llms/
- Bias and Fairness in Multimodal Machine Learning: A Case Study of Automated Video Interviews – University of Memphis Digital Commons https://digitalcommons.memphis.edu/facpubs/20115/
- Bias and Fairness in Multimodal Machine Learning: A Case Study of Automated Video Interviews – NSF Public Access Repository https://par.nsf.gov/servlets/purl/10381212
- Bias and Fairness in Multimodal Machine Learning: A Case Study of Automated Video Interviews | OpenReview https://openreview.net/forum?id=BC11z7GxDM
- Bias Mitigation in Generative AI – Analytics Vidhya https://www.analyticsvidhya.com/blog/2023/09/bias-mitigation-in-generative-ai/
- Dynamic Bias Mitigation for Multimodal AI in Recruitment Ensuring Fairness and Equity in Hiring Practices – ResearchGate https://www.researchgate.net/publication/387937583_Dynamic_Bias_Mitigation_for_Multimodal_AI_in_Recruitment_Ensuring_Fairness_and_Equity_in_Hiring_Practices
- Bias in artificial intelligence algorithms and recommendations for mitigation – PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC10287014/
- A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning – ACL Anthology https://aclanthology.org/2022.aacl-main.61/
- oxai/debias-vision-lang: A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning [AACL 2022] – GitHub https://github.com/oxai/debias-vision-lang
- NeurIPS Poster BendVLM: Test-Time Debiasing of Vision-Language Embeddings https://neurips.cc/virtual/2024/poster/93242
- A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks – NIPS https://proceedings.neurips.cc/paper_files/paper/2024/file/254404d551f6ce17bb7407b4d6b3c87b-Paper-Conference.pdf
- What are some ethical concerns in multimodal AI systems? – Milvus https://milvus.io/ai-quick-reference/what-are-some-ethical-concerns-in-multimodal-ai-systems
- Ethical considerations for integrating multimodal computer perception and neurotechnology https://pmc.ncbi.nlm.nih.gov/articles/PMC10904467/
- Today’s Most Disruptive Technologies: Spotlight on Multimodal AI | Perkins Coie https://perkinscoie.com/insights/blog/todays-most-disruptive-technologies-spotlight-multimodal-ai
- AI Ethics: What Is It and Why It Matters for Your Business – IMD Business School https://www.imd.org/blog/digital-transformation/ai-ethics/
- Unlocking the Potential of Generative AI through Neuro-Symbolic Architectures – Benefits and Limitations – arXiv https://arxiv.org/html/2502.11269v1
- What is multimodal AI? – McKinsey https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-is-multimodal-ai
- Towards Ethical Multimodal Systems – arXiv https://arxiv.org/html/2304.13765v3
- The AI Revolution: What Top Universities Are Building in 2024 (quick research paper analysis) – Jeff (Startup Whisperer) https://jeffreypaine.com/the-ai-revolution-what-top-universities-are-building-in-2024-quick-research-paper-analysis
- Multimodal AI Trends 2025: Agentic & Embodied AI Future https://futureagi.com/blogs/multimodal-ai-2025
- [2401.03568] Agent AI: Surveying the Horizons of Multimodal Interaction – arXiv https://arxiv.org/abs/2401.03568
- Multi-Agent Collaboration Mechanisms: A Survey of LLMs – arXiv https://arxiv.org/html/2501.06322v1
- Generative to Agentic AI: Survey, Conceptualization, and Challenges – arXiv https://arxiv.org/html/2504.18875v1
- Agentic Large Language Models, a survey – arXiv https://arxiv.org/html/2503.23037v1
- Vision-Language-Action Models: Concepts, Progress, Applications and Challenges – arXiv https://arxiv.org/abs/2505.04769
- A Survey on Vision-Language-Action Models for Embodied AI – arXiv https://arxiv.org/pdf/2405.14093
- [2507.10672] Vision Language Action Models in Robotic Manipulation: A Systematic Review https://www.arxiv.org/abs/2507.10672
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge – arXiv https://arxiv.org/html/2507.04447v2
- OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction – arXiv https://arxiv.org/html/2503.03734v1
- [2505.20503] Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review – arXiv https://arxiv.org/abs/2505.20503
- [Literature Review] A Survey on Robotics with Foundation Models: toward Embodied AI https://www.themoonlight.io/en/review/a-survey-on-robotics-with-foundation-models-toward-embodied-ai
- Building Foundation Models for Embodied Artificial Intelligence – Communications of the ACM https://cacm.acm.org/blogcacm/building-foundation-models-for-embodied-artificial-intelligence/
- arXiv:2402.02385v1 [cs.RO] 4 Feb 2024 https://arxiv.org/pdf/2402.02385
- IGOR: Image-GOal Representations Atomic Control Units for Foundation Models in Embodied AI – arXiv https://arxiv.org/html/2411.00785v1
- AdaWorld: Learning Adaptable World Models with Latent Actions – arXiv https://arxiv.org/html/2503.18938v1
- The Essential Role of Causality in Foundation World Models for Embodied AI – arXiv https://arxiv.org/html/2402.06665v1
- [2402.06665] The Essential Role of Causality in Foundation World Models for Embodied AI https://arxiv.org/abs/2402.06665
- What is Multimodal AI? A Comprehensive Guide – Cohere https://cohere.com/blog/multimodal-ai
- Multi-Modal Haptic Rendering Based on Genetic Algorithm – MDPI https://www.mdpi.com/2079-9292/11/23/3878
- VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation – arXiv https://arxiv.org/html/2505.09577v1
- TLA: Tactile-Language-Action Model for Contact-Rich Manipulation – arXiv https://arxiv.org/pdf/2503.08548?
- Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation – arXiv https://arxiv.org/html/2503.02881v1
- Towards Forceful Robotic Foundation Models: a Literature Survey – arXiv https://arxiv.org/pdf/2504.11827
- Multimodal Brain-Computer Interfaces: AI-powered Decoding Methodologies – arXiv https://arxiv.org/html/2502.02830v1
- On using AI for EEG-based BCI applications: problems, current challenges and future trends https://arxiv.org/html/2506.16168v1
- (PDF) Multimodal Brain-Computer Interfaces: AI-powered Decoding Methodologies https://www.researchgate.net/publication/388754539_Multimodal_Brain-Computer_Interfaces_AI-powered_Decoding_Methodologies
- [Literature Review] Multimodal Brain-Computer Interfaces: AI-powered Decoding Methodologies – Moonlight https://www.themoonlight.io/en/review/multimodal-brain-computer-interfaces-ai-powered-decoding-methodologies
- [2401.09334] Large Language Models Are Neurosymbolic Reasoners – arXiv https://arxiv.org/abs/2401.09334
- Neuro-Symbolic Video Search – arXiv https://arxiv.org/html/2403.11021v1
- Large Language Models Are Neurosymbolic Reasoners | Proceedings of the AAAI Conference on Artificial Intelligence https://ojs.aaai.org/index.php/AAAI/article/view/29754
- Neuro-Symbolic Visual Reasoning – Microsoft https://www.microsoft.com/en-us/research/wp-content/uploads/2020/07/Amizadeh-VQA.pdf
- Neuro-Symbolic AI in 2024: A Systematic Review – arXiv https://arxiv.org/pdf/2501.05435
- NPU vs TPU: Understanding the Key Differences in AI Hardware Accelerators – Wevolver https://www.wevolver.com/article/npu-vs-tpu
- Powering Intelligence The Future of AI Hardware for Training, Inference, and Innovation https://www.researchgate.net/publication/388454770_Powering_Intelligence_The_Future_of_AI_Hardware_for_Training_Inference_and_Innovation
- AI Hardware Innovations: Exploring GPUs, TPUs, Neuromorphic, and Photonic Chips in Machine Learning – Ajith’s AI Pulse https://ajithp.com/2025/01/01/ai-hardware-innovations-gpus-tpus-and-emerging-neuromorphic-and-photonic-chips-driving-machine-learning/
- NPU Acceleration For Multimodal LLMs – Semiconductor Engineering https://semiengineering.com/npu-acceleration-for-multimodal-llms/
- Fast On-device LLM Inference with NPUs – arXiv https://arxiv.org/html/2407.05858v2
- MM1: Apple’s Multimodal Large Language Models (MLLMs) – Encord https://encord.com/blog/apple-mm1-multimodal-llm/
- Apple Reveals a Multi-Mode Planar Engine for a Neural Processor that could be used in A-Series & screamingly fast M1 Processors https://www.patentlyapple.com/2021/04/apple-reveals-a-multi-mode-planar-engine-for-a-neural-processor-that-could-be-used-in-a-series-screa.html
- Mobile AI Solutions | On-Device AI Benefits – Qualcomm https://www.qualcomm.com/products/mobile/snapdragon/smartphones/mobile-ai
- [2507.08505] Efficient Deployment of Vision-Language Models on Mobile Devices: A Case Study on OnePlus 13R – arXiv https://arxiv.org/abs/2507.08505
- What are the limitations of current Vision-Language Models? – Milvus https://milvus.io/ai-quick-reference/what-are-the-limitations-of-current-visionlanguage-models
- Deploying an Efficient Vision-Language Model on Mobile Devices https://www.edge-ai-vision.com/2025/05/deploying-an-efficient-vision-language-model-on-mobile-devices/
- Efficient Deep Learning Inference on Edge Devices – MLSys conference https://mlsys.org/Conferences/doc/2018/29.pdf
- Unlocking Efficiency in AI : Quantization & Distillation – Think Boundless AI https://thinkboundlessai.hashnode.dev/quantization-distillation
- TernaryCLIP: Efficient Multimodal Distillation with Ternary Quantization | OpenReview https://openreview.net/forum?id=w8HEx4tkVt
- Can someone explain, how Distill Models work and if it’s at all related/connected with Quantizing? : r/LocalLLaMA – Reddit https://www.reddit.com/r/LocalLLaMA/comments/1iit4jh/can_someone_explain_how_distill_models_work_and/
- Multimodal model quantization support through LLM Compressor – Red Hat Developer https://developers.redhat.com/articles/2025/02/19/multimodal-model-quantization-support-through-llm-compressor
- Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices – arXiv https://arxiv.org/html/2412.09289v1
- AAAI-25 New Faculty Highlights Program https://aaai.org/conference/aaai/aaai-25/new-faculty-highlights-program/
- Apple Machine Learning Research at CVPR 2025 https://machinelearning.apple.com/research/cvpr-2025
- [2412.13303] FastVLM: Efficient Vision Encoding for Vision Language Models – arXiv https://arxiv.org/abs/2412.13303
- A Survey on Efficient Vision-Language Models – arXiv https://arxiv.org/html/2504.09724v3
- NeurIPS 2025 E2LM Competition : Early Training Evaluation of Language Models – arXiv https://arxiv.org/html/2506.07731v1
- Overview – NeuroAI: Fusing Neuroscience and AI for Intelligent Solutions Workshop https://neuroai-workshop.github.io/overview/
- MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding – ICML 2025 https://icml.cc/virtual/2025/poster/46210
- Rethinking How We Evaluate Multimodal AI – Voxel51 https://voxel51.com/blog/rethinking-how-we-evaluate-multimodal-ai
- MLSys Proceedings https://proceedings.mlsys.org/
- MLSys 2025 Papers https://mlsys.org/virtual/2025/papers.html
- Systems for LLMs Are Old News: Multimodality Is Redefining Everything We Know – EuroSys 2025 https://2025.eurosys.org/posters/eurosys25posters-paper96.pdf
- 2025 Conference – NeurIPS Blog https://blog.neurips.cc/category/2025-conference/
- NeurIPS 2025 https://neurips.cc/
- MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding – arXiv https://arxiv.org/html/2507.04635v1
- [2507.04635] MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding – arXiv https://arxiv.org/abs/2507.04635
- ICML 2025 Papers https://icml.cc/virtual/2025/papers.html
- ICML Conference Highlights AI Talent Wars and Reinforcement Learning Advancements https://www.ainvest.com/news/icml-conference-highlights-ai-talent-wars-reinforcement-learning-advancements-2507/
- Research That Scales, Adapts, and Creates: Spotlighting Sony AI at CVPR 2025 https://ai.sony/blog/Research-That-Scales-Adapts-and-Creates-Spotlighting-Sony-AI-at-CVPR-2025/
- AI and computer vision insights at CVPR 2025 – Qualcomm https://www.qualcomm.com/news/onq/2025/06/ai-and-computer-vision-insights-cvpr-2025
- CVPR 2025 Awards https://cvpr.thecvf.com/virtual/2025/awards_detail
- Ultralytics at CVPR 2025: Key Highlights https://www.ultralytics.com/blog/key-highlights-from-ultralytics-at-cvpr-2025


