大規模概念モデル (Large Concept Model, LCM)

  • 大規模概念モデル (Large Concept Model, LCM):
    • 定義: トークンレベルではなく、より高レベルの**意味的表現である「概念」**レベルで動作する新しいタイプの言語モデル。
    • 目的: 人間の情報分析や創造的なコンテンツ生成のプロセスを模倣し、より抽象的で普遍的な知識の獲得と応用を目指す。
    • 概念: 言語やモダリティに依存せず、高レベルのアイデアや行動を表す抽象的な単位。この研究では、概念は文に対応すると仮定されている。
    • 特徴:
      • 言語・モダリティ非依存: 特定の言語やモダリティに依存せず、抽象的な埋め込み空間で推論を行う。
      • 明示的な階層構造: 長文の一貫性と可読性を向上させ、ユーザーによるインタラクティブな編集を容易にする。
      • 長いコンテキストの処理: バニラトランスフォーマーモデルと比較して、より効率的に長いコンテキストを処理できる。
      • 優れたゼロショット汎化: 学習に使用した言語やモダリティに関わらず、SONARエンコーダーがサポートする任意の言語やモダリティに適用可能。
      • モジュール性と拡張性: 概念エンコーダーとデコーダーは独立して開発・最適化できるため、モダリティ間の競合を回避できる。
  • SONAR:
    • 定義: LCMが概念を表現するために使用する文埋め込み空間
    • 特徴:
      • 多言語対応: 最大200の言語をテキストと音声の両方でサポート。
      • マルチモーダル: テキストだけでなく、音声やアメリカ手話(ASL)もサポート。
  • 自己回帰的な文予測:
    • 定義: LCMが学習する際の主要なタスクであり、先行する文(概念)の埋め込みに基づいて、次の文(概念)の埋め込みを予測する
    • 手法: MSE回帰、拡散ベース生成、量子化されたSONAR空間でのモデル化など、複数のアプローチが用いられる。
  • Base-LCM:
    • 定義: 次の概念予測のためのベースラインアーキテクチャであり、標準的なデコーダー専用トランスフォーマーを使用。
    • 特徴: 入力のSONAR埋め込みを正規化し、モデルの隠れ次元にマッピングするPreNetと、逆変換を行うPostNetを備える。
  • 拡散ベースLCM (Diffusion-based LCM):
    • 定義: 拡散モデルをベースにしたLCMのアーキテクチャであり、ノイズ除去プロセスを通じて文(概念)を生成する。
    • 種類: One-Tower LCMとTwo-Tower LCMがある。
    • 特徴:
      • より多様な文生成が可能。
      • Classifier-free diffusion guidanceにより、条件付き生成と非条件付き生成を組み合わせることで、生成の品質と多様性のバランスを取ることが可能。
  • One-Tower Diffusion LCM:
    • 定義: 単一のトランスフォーマーバックボーンを使用し、ノイズの多い入力からクリーンな次の文の埋め込みを予測する拡散ベースLCM。
    • 特徴: 自己注意層を確率的にドロップすることにより、無条件学習を可能にし、推論時にclassifier-free guidanceを適用できる。
  • Two-Tower Diffusion LCM:
    • 定義: コンテキストを処理するコンテキストタワーと、ノイズ除去を行うデノイザーの2つのトランスフォーマーを使用する拡散ベースLCM。
    • 特徴: 並列で複数の埋め込みのノイズ除去が可能。
  • 量子化LCM (Quantized LCM, Quant-LCM):
    • 定義: SONAR表現を量子化し、離散的な単位に基づいてモデル化を行うLCM。
    • 目的: テキストの離散的な性質に対処しつつ、言語やモダリティ間で共有される意味的単位をモデル化。
    • 特徴:
      • 残差ベクトル量子化 (RVQ) を使用して、SONAR空間を粗く量子化。
      • Quant-LCM-d は、離散的なコードブック単位を予測するように学習。
      • Quant-LCM-c は、連続的なターゲットSONARベクトルを予測するように学習。
  • LPCM (Large Planning Concept Model):
    • 定義: LCMに計画能力を追加したモデルであり、より一貫性のある長文生成を目指す。
    • 特徴:
      • 計画概念を予測することにより、生成する内容の高レベルな概要を把握。
      • LCMは、先行する概念と計画の両方に基づいて出力を生成する。
    • アプローチ: LCMをマルチタスク設定で学習させ、ブレーク概念と計画概念の両方を予測させる。