大規模概念モデル (Large Concept Model, LCM)

大規模概念モデル (Large Concept Model, LCM):
- 定義: トークンレベルではなく、より高レベルの**意味的表現である「概念」**レベルで動作する新しいタイプの言語モデル。
- 目的: 人間の情報分析や創造的なコンテンツ生成のプロセスを模倣し、より抽象的で普遍的な知識の獲得と応用を目指す。
- 概念: 言語やモダリティに依存せず、高レベルのアイデアや行動を表す抽象的な単位。この研究では、概念は文に対応すると仮定されている。
- 特徴:
  - 言語・モダリティ非依存: 特定の言語やモダリティに依存せず、抽象的な埋め込み空間で推論を行う。
  - 明示的な階層構造: 長文の一貫性と可読性を向上させ、ユーザーによるインタラクティブな編集を容易にする。
  - 長いコンテキストの処理: バニラトランスフォーマーモデルと比較して、より効率的に長いコンテキストを処理できる。
  - 優れたゼロショット汎化: 学習に使用した言語やモダリティに関わらず、SONARエンコーダーがサポートする任意の言語やモダリティに適用可能。
  - モジュール性と拡張性: 概念エンコーダーとデコーダーは独立して開発・最適化できるため、モダリティ間の競合を回避できる。
SONAR:
- 定義: LCMが概念を表現するために使用する文埋め込み空間。
- 特徴:
  - 多言語対応: 最大200の言語をテキストと音声の両方でサポート。
  - マルチモーダル: テキストだけでなく、音声やアメリカ手話（ASL）もサポート。
自己回帰的な文予測:
- 定義: LCMが学習する際の主要なタスクであり、先行する文（概念）の埋め込みに基づいて、次の文（概念）の埋め込みを予測する。
- 手法: MSE回帰、拡散ベース生成、量子化されたSONAR空間でのモデル化など、複数のアプローチが用いられる。
Base-LCM:
- 定義: 次の概念予測のためのベースラインアーキテクチャであり、標準的なデコーダー専用トランスフォーマーを使用。
- 特徴: 入力のSONAR埋め込みを正規化し、モデルの隠れ次元にマッピングするPreNetと、逆変換を行うPostNetを備える。
拡散ベースLCM (Diffusion-based LCM):
- 定義: 拡散モデルをベースにしたLCMのアーキテクチャであり、ノイズ除去プロセスを通じて文（概念）を生成する。
- 種類: One-Tower LCMとTwo-Tower LCMがある。
- 特徴:
  - より多様な文生成が可能。
  - Classifier-free diffusion guidanceにより、条件付き生成と非条件付き生成を組み合わせることで、生成の品質と多様性のバランスを取ることが可能。
One-Tower Diffusion LCM:
- 定義: 単一のトランスフォーマーバックボーンを使用し、ノイズの多い入力からクリーンな次の文の埋め込みを予測する拡散ベースLCM。
- 特徴: 自己注意層を確率的にドロップすることにより、無条件学習を可能にし、推論時にclassifier-free guidanceを適用できる。
Two-Tower Diffusion LCM:
- 定義: コンテキストを処理するコンテキストタワーと、ノイズ除去を行うデノイザーの2つのトランスフォーマーを使用する拡散ベースLCM。
- 特徴: 並列で複数の埋め込みのノイズ除去が可能。
量子化LCM (Quantized LCM, Quant-LCM):
- 定義: SONAR表現を量子化し、離散的な単位に基づいてモデル化を行うLCM。
- 目的: テキストの離散的な性質に対処しつつ、言語やモダリティ間で共有される意味的単位をモデル化。
- 特徴:
  - 残差ベクトル量子化 (RVQ) を使用して、SONAR空間を粗く量子化。
  - Quant-LCM-d は、離散的なコードブック単位を予測するように学習。
  - Quant-LCM-c は、連続的なターゲットSONARベクトルを予測するように学習。
LPCM (Large Planning Concept Model):
- 定義: LCMに計画能力を追加したモデルであり、より一貫性のある長文生成を目指す。
- 特徴:
  - 計画概念を予測することにより、生成する内容の高レベルな概要を把握。
  - LCMは、先行する概念と計画の両方に基づいて出力を生成する。
- アプローチ: LCMをマルチタスク設定で学習させ、ブレーク概念と計画概念の両方を予測させる。