大規模概念モデル (Large Concept Model, LCM)
- 大規模概念モデル (Large Concept Model, LCM):
- 定義: トークンレベルではなく、より高レベルの**意味的表現である「概念」**レベルで動作する新しいタイプの言語モデル。
- 目的: 人間の情報分析や創造的なコンテンツ生成のプロセスを模倣し、より抽象的で普遍的な知識の獲得と応用を目指す。
- 概念: 言語やモダリティに依存せず、高レベルのアイデアや行動を表す抽象的な単位。この研究では、概念は文に対応すると仮定されている。
- 特徴:
- 言語・モダリティ非依存: 特定の言語やモダリティに依存せず、抽象的な埋め込み空間で推論を行う。
- 明示的な階層構造: 長文の一貫性と可読性を向上させ、ユーザーによるインタラクティブな編集を容易にする。
- 長いコンテキストの処理: バニラトランスフォーマーモデルと比較して、より効率的に長いコンテキストを処理できる。
- 優れたゼロショット汎化: 学習に使用した言語やモダリティに関わらず、SONARエンコーダーがサポートする任意の言語やモダリティに適用可能。
- モジュール性と拡張性: 概念エンコーダーとデコーダーは独立して開発・最適化できるため、モダリティ間の競合を回避できる。
- SONAR:
- 定義: LCMが概念を表現するために使用する文埋め込み空間。
- 特徴:
- 多言語対応: 最大200の言語をテキストと音声の両方でサポート。
- マルチモーダル: テキストだけでなく、音声やアメリカ手話(ASL)もサポート。
- 自己回帰的な文予測:
- 定義: LCMが学習する際の主要なタスクであり、先行する文(概念)の埋め込みに基づいて、次の文(概念)の埋め込みを予測する。
- 手法: MSE回帰、拡散ベース生成、量子化されたSONAR空間でのモデル化など、複数のアプローチが用いられる。
- Base-LCM:
- 定義: 次の概念予測のためのベースラインアーキテクチャであり、標準的なデコーダー専用トランスフォーマーを使用。
- 特徴: 入力のSONAR埋め込みを正規化し、モデルの隠れ次元にマッピングするPreNetと、逆変換を行うPostNetを備える。
- 拡散ベースLCM (Diffusion-based LCM):
- 定義: 拡散モデルをベースにしたLCMのアーキテクチャであり、ノイズ除去プロセスを通じて文(概念)を生成する。
- 種類: One-Tower LCMとTwo-Tower LCMがある。
- 特徴:
- より多様な文生成が可能。
- Classifier-free diffusion guidanceにより、条件付き生成と非条件付き生成を組み合わせることで、生成の品質と多様性のバランスを取ることが可能。
- One-Tower Diffusion LCM:
- 定義: 単一のトランスフォーマーバックボーンを使用し、ノイズの多い入力からクリーンな次の文の埋め込みを予測する拡散ベースLCM。
- 特徴: 自己注意層を確率的にドロップすることにより、無条件学習を可能にし、推論時にclassifier-free guidanceを適用できる。
- Two-Tower Diffusion LCM:
- 定義: コンテキストを処理するコンテキストタワーと、ノイズ除去を行うデノイザーの2つのトランスフォーマーを使用する拡散ベースLCM。
- 特徴: 並列で複数の埋め込みのノイズ除去が可能。
- 量子化LCM (Quantized LCM, Quant-LCM):
- 定義: SONAR表現を量子化し、離散的な単位に基づいてモデル化を行うLCM。
- 目的: テキストの離散的な性質に対処しつつ、言語やモダリティ間で共有される意味的単位をモデル化。
- 特徴:
- 残差ベクトル量子化 (RVQ) を使用して、SONAR空間を粗く量子化。
- Quant-LCM-d は、離散的なコードブック単位を予測するように学習。
- Quant-LCM-c は、連続的なターゲットSONARベクトルを予測するように学習。
- LPCM (Large Planning Concept Model):
- 定義: LCMに計画能力を追加したモデルであり、より一貫性のある長文生成を目指す。
- 特徴:
- 計画概念を予測することにより、生成する内容の高レベルな概要を把握。
- LCMは、先行する概念と計画の両方に基づいて出力を生成する。
- アプローチ: LCMをマルチタスク設定で学習させ、ブレーク概念と計画概念の両方を予測させる。