拡散型大規模言語モデル (dLLM) の代表モデル比較分析(LLaDA、Mercuryなど)

以下の観点を分析します。

  1. 代表的な拡散型LLMの概要(LLaDA、Mercury、その他の最新モデル)
  2. 各モデルの技術詳細(アーキテクチャ、アルゴリズム、学習プロセス)
  3. 性能比較(生成品質、速度、スケーラビリティ、応用分野)
  4. 長所と短所の分析(自己回帰型LLMとの比較、実用上の課題)
  5. 今後の発展可能性(商業展開、学習方法の改良、スケールアップの可能性)

1. 代表的な拡散型LLMの概要

拡散型LLMとは何か – 背景とコンセプト

拡散型大規模言語モデル(diffusion Large Language Model, dLLM)は、近年登場した新しいタイプの言語モデルです。これは拡散確率モデル(diffusion model)の手法をテキスト生成に応用したもので、画像生成で成功を収めた拡散モデルを言語領域に持ち込む試みとして注目されています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。従来主流であった自己回帰型の言語モデル(autoregressive model, ARモデル)は、テキストを左から右へ逐次トークン生成する仕組みですが、拡散型LLMは並列的かつ粗から細への洗練(coarse-to-fine)によってテキストを生成します (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。具体的には、一旦ノイズまみれ(あるいはマスクだらけ)のテキストからスタートし、それを徐々にデノising(復元)する過程で目的の文章を得るというものです (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。このアプローチでは全トークンを同時並行で予測・更新できるため、長文生成でも高速化が期待できます。一方、自己回帰モデルではトークンを一つずつ順に生成するため速度面でボトルネックがあり、長い文章では推論に時間がかかるという課題がありました (Promises, Outlooks and Challenges of Diffusion Language Modeling)。また、自己回帰モデルは露出バイアス(exposure bias:学習時と生成時で入力分布が異なることによるエラー累積問題)などの弱点も指摘されています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。拡散型LLMはこうした課題に対処しうる新たな生成パラダイムとして提案され、2023年頃から研究が加速しています。

拡散型LLMの基本原理は、正方向のプロセスとしてテキストに徐々にノイズ(例:トークンのマスキングや攪乱)を加えていき、続く逆方向のプロセスでそのノイズを取り除きながら元のテキスト分布を復元する、というものです (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。この逆方向プロセスは複数ステップに分かれ、各ステップで部分的にテキストを再構成します。モデルは確率的生成の原理に基づき逐次のデノisingステップを経て文を組み立てるため、最終的な出力は「はじめは意味不明な文字列が徐々にまとまりのある文章に収束していく」イメージになります (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。この手法では、生成過程全体を対数尤度の下限(ELBO)の最大化として定式化し、学習時には従来の自己回帰モデルと同様に大量のコーパスで真の言語分布を近似するよう訓練します (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。

こうした拡散型LLMのコンセプトに基づき、2023年以降にいくつかの代表的モデルが発表・実装されています。以下では特に重要なモデルである LLaDA, Mercury, Score Entropy LLM(SEDD)およびその他最新のモデルについて、その概要を紹介します。

LLaDA(Large Language Diffusion Model with Masking)

LLaDAは、Renmin大学(中国人民大学)とAnt Groupの研究者らによって開発された大規模拡散型言語モデルです (Large Language Diffusion Models)。2025年2月にプレプリントが公開され、パラメータ数80億規模 (8B) という前例のない大規模拡散モデルとして注目を集めました (Large Language Diffusion Models)。LLaDAはゼロから学習されたモデルで、同程度規模の自己回帰型モデル(例えばLLaMA系の8Bモデル)に匹敵する性能を達成したと報告されています (Large Language Diffusion Models)。このモデル名の由来は Large Language Diffusion with mAsking の略で、その名の通りマスキングを用いた拡散モデルという特徴があります。開発チームは、大規模言語モデル(LLM)の知能(スケーラビリティ、命令追従、コンテキスト内学習、対話能力など)は自己回帰という生成様式そのものに由来するのではなく、「真の言語分布を最大化する生成モデリングの原理**」に基づくものであり、自己回帰でなくとも実現可能だ**】との主張を掲げています (Large Language Diffusion Models)。この仮説のもと、LLaDAによって自己回帰以外の手法でもLLMの高度な能力が発現しうることを示そうとしています。

LLaDAの大きな成果は、8Bという大規模での拡散モデルの成立を示したことと、その性能面での競争力です。論文によれば、LLaDA 8Bは同規模の強力なLLM(例えばLLaMA3 8Bモデル)に匹敵する自然言語処理能力を示し、様々なベンチマークで自己回帰型のベースラインを上回るスケーラビリティ(モデルサイズ拡大による性能向上傾向)を示しました (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。特にコンテキスト内学習(Few-shotプロンプトからの推論能力)や指示追従の能力において、LLaDA 8BはLLaMA3 8Bと同等の競争力を持つことが確認されています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。また、教師ありの微調整(SFT: Supervised Fine-Tuning)を行うことで多ターンの対話においても優れた応答生成が可能となり、実用的な対話型LLMとして振る舞えることが示されています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。興味深い点として、LLaDAは**「逆順の呪い (reversal curse)」と呼ばれる自己回帰モデル特有の問題に対処できる可能性も示唆しています。例えば、単語や文章を逆順に出力するような特殊なお題では、GPT-4などの最先端自己回帰モデルでも失敗しがちですが、LLaDAは逆順の詩の補完課題でGPT-4o(GPT-4のオープン版?)を上回る性能**を発揮したと報告されています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。これらの結果は、「大規模LLMの知能は自己回帰に内在する」という従来の前提に一石を投じ、拡散モデルが自己回帰モデルに代わりうる有力な選択肢であることを示しています ([2502.09992] Large Language Diffusion Models)。

Mercury(Inception Labs)

Mercuryは、スタートアップ企業Inception Labsによって2024年後半に発表された世界初の商用グレード拡散LLMとされるモデル群です (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。2024年10月にInception Labsが「Mercuryシリーズ」として公開テストを開始し、第一弾としてMercury Coderというコード生成特化モデルが登場しました (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。Mercuryは従来の自己回帰型LLMと比較して圧倒的な高速性をセールスポイントとしており、NVIDIA H100 GPU上で毎秒1000トークン以上という生成速度を達成したと報告されています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。これは同規模の従来モデルの5~10倍の速度であり、従来は専用ハードウェアでなければ難しかった水準の高速性です (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。Mercury Coderはコード補完・生成タスクに注力したモデルで、いくつかのプログラミングベンチマークにおいて、GPT-4o MiniやClaude 3.5 Haikuなど既存の高速モデルを凌駕する性能を示しつつ、速度面でも約10倍近い高速化を実現しました (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。開発元によれば、テスト参加した開発者からもMercuryのコード自動補完が高く評価され、GitHub Copilotの評価環境(Copilot Arena)においても上位の品質とトップクラスの生成速度を記録したとのことです (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。

Mercuryの意義は、拡散型LLMを商用利用に耐えうるスケールで実装した初の事例である点です。それまで拡散モデルのテキスト生成は研究段階に留まり、大規模モデルかつ実アプリケーションでの展開例はありませんでした。Mercuryは「コード生成」というニッチではありますが実用性の高いドメインにフォーカスすることで、この技術を実際にユーザに体験させる段階に踏み出しました。Mercuryシリーズでは今後、対話アプリケーション向けの言語モデル(チャットボット用途)も投入予定とされており、さらに多様なシナリオで拡散LLMを展開していく計画が示されています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。特に、拡散モデルの高速性・効率性を活かしてスマートフォンやノートPCといったリソース制限のある端末上でも円滑に動作することを目指している点は注目に値します (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。これは、従来の大規模モデルがクラウド上の高性能GPUに依存しがちだったのに対し、拡散LLMならば軽量なデバイスでも十分な性能を発揮できる可能性を示唆しています。

技術的にはMercuryも他の拡散LLMと同様、自己回帰ではなくノイズから段階的に目的のテキストを生成するアプローチを採っています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。開発元は「coarse-to-fine(粗から細への逐次洗練)」と表現しており、初期状態では完全にランダムなトークン列から出発し、複数のデノisingステップを通じて徐々に整合性のある出力に仕上げる方式です (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。これにより複数トークンを並列に処理できるため、自己回帰的に1トークンずつ出力する従来法に比べ大幅な速度向上が得られます (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。また、逐次的に出力を練り直すプロセスのおかげで、論理的な一貫性や文構造の整合性(structured response)の面でもメリットがあると謳われています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。Mercury Coderで得られた知見は、今後のチャット向けモデルなどにも活かされる見込みで、拡散LLMが対話エージェントの高度なプランニングや長文生成にも適用される予定です (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。

Score Entropy LLM(SEDD)

Score Entropy LLMとは、2023年にスタンフォード大学らのグループ(Aaron Lou氏ら)によって提案された拡散型言語モデルの新しい学習アプローチです ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。正式な名称はScore-Entropy Discrete Diffusion (SEDD) モデルと言い、2024年のICMLでオーラル発表された研究成果です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。このモデル自体はGPT-2程度の中小規模(1~数億パラメータ)の実験ですが、「スコアエントロピー」という新たな損失関数を導入することで離散空間での拡散モデル学習を安定化し、大幅な性能向上を達成した点が画期的でした ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。

拡散モデルは本来連続データ(画像や音声など)の生成で顕著な成功を収めてきましたが、テキストのような離散データへの応用では課題がありました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。特に既存の拡散モデル理論を離散トークン列に直接適用しようとすると、スコア関数(データ対数密度勾配)の推定が不安定になり、十分な性能が出ない問題があったのです ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。Louらの提案したSEDDでは、score entropyという新しい損失を定義し、これによって連続領域で確立されたスコアマッチング手法を離散空間へ自然に拡張することに成功しました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。この損失関数はデータ分布とノイズ分布の比を推定する形で定式化されており、既存手法に比べ安定してモデルを訓練できるといいます (Discrete Diffusion Modeling by Estimating the Ratios of the Data …) ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。SEDDモデルでは、通常の変分推論に基づく拡散モデルの学習枠組みにscore entropy損失を組み込むことで、テキスト生成タスクで大きな飛躍が見られました。

実際、標準的な言語建模タスクにおいて、同程度のモデル規模なら既存の離散拡散モデルよりもパープレキシティを25~75%も削減し、自己回帰モデルにも匹敵する性能を達成したと報告されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。例えば、GPT-2とほぼ同程度のパラメータ数のSEDDモデルを訓練したところ、テストデータの困惑度(パープレキシティ)でGPT-2を上回り、テキスト生成の品質でもGPT-2を凌駕したとされています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。さらに興味深い点として、SEDDが生成するテキストは、自己回帰モデルのように温度パラメータで確率分布を調整しなくても一貫した文章になる傾向があり、いわゆるモード崩壊が少ない(未調整のGPT-2より6~8倍も良い生成パープレキシティを記録)とも述べられています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。また、同じ品質を維持したまま必要なデノisingステップ数を大幅に削減(32倍少ない反復で同等品質)できること、さらには途中のトークンを固定して穴埋め生成(インフィル)が可能になるなど、自己回帰モデルにはない柔軟な生成制御が可能である点も実証されました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。これらの成果により、SEDDは拡散モデルによる言語生成が実用的にARモデルに迫ることを示す重要な一歩となりました。

その後、EPFLの研究者ら(Justin Deschenaux氏ら)が2024年に発表した検証研究では、SEDDの長所と短所がさらに詳しく評価されています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。彼らの報告によれば、小~中規模モデルでの比較においてSEDDはGPT-2とほぼ同等の言語モデリング性能(テスト困惑度やHellaSwag・ARC・WinoGrandeといったベンチマーク精度)を示したとのことです (Promises, Outlooks and Challenges of Diffusion Language Modeling)。また推論レイテンシ(単語生成あたりの時間)はGPT-2の最大4.5倍の効率を発揮し、生成速度の面でも有利であることが確認されました (Promises, Outlooks and Challenges of Diffusion Language Modeling)。一方で、プロンプトを与えた条件付き生成ではGPT-2にやや劣るケースも見られ、特に短い文脈からの生成では自己回帰モデルの方が適切に続きが書ける場面もあったと報告されています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。このように、Score Entropy LLM (SEDD)は拡散型LLMの可能性と課題を示す代表的な研究成果であり、その手法は後発のLLaDAなど他のモデルにも影響を与えています。

その他の最新モデル・研究動向

上記の他にも、拡散モデルを用いた言語生成の研究はいくつか展開されています。Microsoftの研究チームはGENIEと呼ばれる大規模拡散言語モデルの事前学習手法を提案しました (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。GENIEはエンコーダ-デコーダ構造を採用し、エンコーダで入力文脈を読み込んだ上で拡散型のデコーダがランダムノイズから徐々にテキストを生成するアプローチです (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。大規模コーパスでの事前学習には連続的パラグラフデノisingという目的関数を工夫して用い、ノイズの乗った文章から元の一貫した文章を復元するようモデルを訓練しました (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。GENIEは要約やテキスト生成のベンチマーク(XSum, CNN/DailyMail, Gigaword, CommonGenなど)で評価され、最新の自己回帰モデルと同等の性能を達成しつつ、より多様なテキストサンプルを生成できることが示されています (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。これは、拡散モデルがもつ多様性(モードカバレッジ)の強みが実証された例と言えます。

そのほかAppleの研究者らは、段落レベルの潜在拡散モデル(PLANNERと呼ばれる手法)を提案し、まず変分オートエンコーダで文章全体の潜在表現を得てから、その潜在空間上で拡散モデルにより詳細な文章を生成する2段階方式で高品質な段落生成を実現しています (Enhancing Paragraph Generation with a Latent Language Diffusion …) (Diffusion language models – Sander Dieleman)。また、拡散モデルの推論プロセスに思考の連鎖(Chain-of-Thought)の拡散を組み込んで推論力を高める「Diffusion-of-Thought (DoT)」というアプローチも議論され始めています (Diffusion Language Models: The Future of LLMs? : r/singularity)。これにより拡散LLMが論理的な思考ステップを内包して展開できる可能性が模索されています。さらに、拡散モデルと既存の事前学習言語モデル(PLM)を統合する研究も提案されており、例えば自己回帰モデルで学習した知識や表現力を拡散モデルに組み込むことも将来的な課題とされています ( Diffusion models in text generation: a survey – PMC )。総じて、2023年以降の動向としては拡散型LLMの実用可能性を示すモデルが次々登場している状況であり、LLaDAやMercuryのように大規模かつ実践的なモデルから、SEDDやGENIEのように学習アルゴリズムを工夫した研究まで、幅広いアプローチが展開されています。

2. 各モデルの技術詳細(アーキテクチャ・アルゴリズム・学習プロセス)

それぞれの代表的拡散型LLMについて、技術的な仕組みや学習方法の詳細を掘り下げます。全般的に、拡散型LLMはTransformerアーキテクチャを基盤として用いる点は自己回帰型と共通しています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。違いは生成アルゴリズム学習目標にあり、自己回帰モデルが次の単語予測(クロスエントロピー損失最小化)で学習するのに対し、拡散モデルはノイズ付加と除去によるデータ再構成(変分下限の最大化)を学習します (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。以下、個別モデルの工夫を見ていきます。

LLaDAのアーキテクチャと学習プロセス

LLaDAはTransformerデコーダを中心とした構造ですが、自己回帰的な因果マスクは用いず、非因果的なマスキング拡散を実現しています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。学習プロセスは大きく事前学習 (pre-training)教師あり微調整 (SFT) の2段階からなります (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。事前学習では、大規模テキストコーパスに対して以下のようなマスク付加拡散手順でモデルを訓練します (Large Language Diffusion Models):

  • 各学習サンプル(テキスト)に対し、まずランダムに一定割合のトークンをマスクする。マスク率は0~1の一様分布からサンプル毎に値$t$を取り、その割合だけトークンを[MASK]記号に置換する (Large Language Diffusion Models)。$t=1$なら全単語をマスク、$t=0$ならマスクなしです。これが拡散の正方向(逐次ノイズ付加)の終点に相当します。
  • モデル(Transformer)は、このマスクされた不完全なテキストを入力として受け取り、元の文を復元するようマスク部分のトークンを予測します (Large Language Diffusion Models)。ここでポイントは、自己回帰モデルと異なり全てのマスク位置を一度に予測することです (Large Language Diffusion Models)。すなわち出力も入力と同じ長さのトークン列(マスクされた箇所は予測された単語に置き換わる)となります。
  • このマスク→予測の操作を複数ステップ繰り返します。ただし、一度の予測で完全に元文が復元できるわけではないため、部分的に予測が当たった箇所は固定し、外れた箇所には再度マスクをかけ直す(flexible re-masking)ことで、徐々にマスク率を下げながら反復を行います (Large Language Diffusion Models)。
  • 初期状態(時刻$t=1$)では全文がマスクされていますが、ステップを重ねるごとにマスク率$t$が下がり、最終ステップでは$t \approx 0$に近づきます。最終的に全マスクが元単語に置き換われば復元成功です。この一連の過程が拡散の逆方向(デノising過程)に対応しています。

この方法により、LLaDAは任意のマスク率で欠損したテキストを元に戻すことを学習します。これはちょうど画像のDiffusionモデルで「ノイズまみれの画像から元画像を復元する」のと類似した学習タスクになっています。損失関数は各ステップでの予測誤差に基づく変分下限(厳密には拡散過程の負対数尤度の上限)であり、最終的にモデルはテキスト分布の生成確率を最大化するよう訓練されます。

微調整(SFT)段階では、人間の指示に従った応答生成ができるよう、対話データや命令応答データで教師あり訓練を行います ([2502.09992] Large Language Diffusion Models)。この際、LLaDAの生成方式を活かし、ユーザからの指示文は固定して応答部分のみマスク・生成するような設定で学習します (Large Language Diffusion Models)。こうすることで、指示文という文脈を壊さずにモデルが応答を埋められるようになり、自己回帰モデルで言うところの「プロンプト条件付き生成」と同じことを実現します。SFT後のモデル(通称 LLaDA-Instruct)は、具体的な質問に答えたり指示に従った文章を生成したりする能力が大幅に向上します ([2502.09992] Large Language Diffusion Models)。LLaDA-Instructは実験で対話応答や算数問題の説明などに応用され、その出力例も公開されています (Large Language Diffusion Models) (Large Language Diffusion Models)。以上がLLaDAの学習プロセスで、要するに**「BERTのマスク言語モデル + 拡散的ステップ反復 + GPT的事前学習と微調整」**を組み合わせたようなアーキテクチャになっています。

Mercuryのアーキテクチャとアルゴリズム

Mercuryも基本的にはTransformerを用いた拡散モデルですが、その生成アルゴリズムはより実用志向に最適化されています。Inception Labsの発表によれば、Mercuryは**“並列復元”によるテキスト生成を行うとのことです (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。すなわち、まず「純粋なノイズ」状態からテキスト生成を開始し、そこから段階的にノイズを取り除きながら精緻な文章にしていくという手順です (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。このプロセスでは、各ステップで出力シーケンス全体を更新するため、一度に多数のトークンを並列に処理できます (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。自己回帰モデルが持つ「1トークンずつしか生成できない」という制約を取り払い、一種のマルチトークン同時予測**を実現している点が特徴です (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。

Mercuryの具体的なステップ数(何段階のデノisingを行っているか)は公表されていませんが、報道からは極めて少ないステップ数で高品質な生成を達成していることが推測されます。毎秒1000トークン以上という速度 (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)から逆算すると、例えば従来の自己回帰LLMが100トークン/秒程度であるのに対し (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)、Mercuryは10倍速いので10トークン/ステップを並列生成しつつステップ数も少なく抑えている可能性があります。モデルが単一ステップで一文を生成できるわけではないでしょうから、仮に数ステップ(例えば10ステップ未満)程度で文章全体を出力する設計であれば、この速度向上は十分現実的です。拡散モデルでは通常、ステップ数を減らすと出力品質が下がりますが、Mercuryではコーパスや目的領域(コード)の工夫、およびモデルサイズ・構造の最適化で少ない反復でも筋の通った出力が得られるよう調整していると考えられます (Promises, Outlooks and Challenges of Diffusion Language Modeling)。

Mercury Coderの場合、学習データとしては主にソースコード(GitHubなどから収集された大規模コードコーパス)を用い、そこから拡散的にコードを生成するよう訓練されたものと思われます。コード生成では文法や構造といった制約がありますが、Mercuryの構造化出力能力 (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)がそれに適していた可能性があります。また、コード補完では途中まで書かれたコード(プロンプト)が与えられ、その続きを生成することが多いですが、Mercuryはそのような部分条件付き生成にも対応できるとされています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。おそらく内部的にはLLaDA同様、与えられた文脈は固定して欠損部分のみ埋める手法で条件付き生成を実現しているものと思われます。Mercuryのアーキテクチャ詳細(例えばTransformerの層数や注意機構の工夫など)は非公開ですが、商用モデルらしく推論時の最適化(例えば演算の並列化や量子化など)も施されている可能性があります。結果として、大規模モデルでありながらスマホ上でも動作可能とうたわれるほど高効率な実装になっています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。総じてMercuryは実用上許容できるステップ数で拡散生成を完了させる技術を確立したモデルといえます。

Score Entropy LLM(SEDD)の技術的特徴

Score Entropy Discrete Diffusion (SEDD) は、その名の通り離散拡散モデルにおけるスコアマッチングの改良が核となる技術です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。アーキテクチャそのものは、公開されている実装コードなどから推測するにGPT-2相当のTransformerデコーダを用いています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。特殊なのは学習アルゴリズムで、通常の拡散モデルが逐次ノイズ付加(マスキングやランダム置換など)逐次ノイズ除去というプロセスを変分学習するのに対し、SEDDでは**「スコアエントロピー損失」**という新規則を採用しています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。

簡単に原理を説明すると、通常の連続データ用拡散モデルではスコア関数 $\nabla_x \log p(x)$(データ分布の勾配)をニューラルネットで近似し、逐次的にデータを生成します。しかしテキストのような離散データではこの手法がうまく機能しません。そこでLouらは、データ分布とノイズ分布の比を直接推定するような枠組みを導入しました (Discrete Diffusion Modeling by Estimating the Ratios of the Data …)。拡散過程で得られる各時刻のノイズ混入データを$y_t$、元のデータを$x$とすると、score entropy lossはざっくり言えば**$\nabla_{y_t} \log \frac{p(x|y_t)}{q(y_t)}$を最小化するよう設計されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)(詳細な数式は省略します)。これにより、モデルは離散状態空間における「データ分布対ノイズ分布の対数密度比」の勾配**を学習することになり、結果としてノイズを取り除いてデータを再構成する能力を獲得します。

この学習方式の利点は、既存の離散拡散よりも安定して高精度なモデルが得られることです。実際、SEDDでは学習中にマスクされたトークンのみ損失を計算する設定(non-maskedトークンに対しては損失0にする)を取るなどのテクニックも駆使し、効率よく訓練を行っています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。生成時には、所定のステップ数だけ拡散デコーダを適用することでテキストを一括生成します。Louらの論文では、32段のステップで従来の自己回帰モデルに匹敵するテキスト品質が得られたと報告されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。ステップ数を増やせばさらに高品質になりますが、その分遅くなるため、必要に応じて品質と速度をトレードオフ調整できる点も特徴です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。また、モデルが任意の位置のトークンを条件に生成できる(途中から文章を生成したり、穴埋めしたりできる)ため、たとえば文章の一部を固定して残りを補完するといった高度な編集操作にも対応可能です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。これはSEDDが非因果的注意を用いて全トークン間の関係をモデル化しているためで、左から右の順序に縛られません。

SEDDの欠点としては、出力長が固定になりやすいことが挙げられます。自己回帰モデルなら特殊トークン(など)で生成を途中で止めることで可変長出力ができますが、拡散モデルでは最初から配列長を決めてマスクを掛けるため、基本的に固定長の出力となります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。もちろん、最大長を長めに取っておき途中で打ち切る戦術も考えられますが、それを上手く管理する仕組みがまだ確立途上です (Promises, Outlooks and Challenges of Diffusion Language Modeling)。この点については後述する弱点・課題の項で詳述します。いずれにせよ、SEDDは離散データ用拡散モデルの訓練手法として革新的であり、LLaDAのような後発のマスク拡散モデルにも理論的基盤を提供しています(実際、LLaDAの参考文献にもLouらの論文が引用されています)。

GENIEとその他の手法の技術特徴

GENIEはMicrosoftによるエンコーダ・デコーダ型の拡散LLMであり、そのテクニカルな特徴は「文章全体をエンコードした上で連続ベクトル空間で拡散しテキストを再構成する」点です (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。具体的には、Transformerエンコーダ(T5など既存モデルを利用)で入力文脈をベクトル表現に変換し、それを条件にTransformerデコーダでノイズベクトル列をテキストに変換していきます (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。このデコーダが拡散過程を担い、例えばまず全てのベクトルがランダム値の列から始まり、エンコーダ出力も参照しつつ何段階かにわたりベクトル列を洗練させていきます。最終的なベクトル列を再び離散の単語にデコードして出力します。GENIEの学習では、文脈とセットで文書を連続的に攪乱する工夫(continuous paragraph denoise)がされています (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。すなわち、本来は文章$X$が与えられたときモデルが$X$を生成するよう訓練したいところを、$X$に連続ノイズを加えたベクトル列$\tilde{X}$から$X$を復元するタスクにして学習するのです (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。これにより、モデルは意味・文法的な一貫性を保ちながらノイズを除去することを習得し、推論時には純粋なノイズから一貫性のある文章を生成できるようになります。GENIEのこのアプローチは潜在拡散モデルとも言え、テキストを直接扱うのではなくその埋め込み空間で拡散操作を行う点が他のモデル(LLaDAやSEDDはトークン列上で直接拡散)とは異なります。

他にも、AppleのPLANNERではVAE + 拡散の2段方式で、まず入力から粗い潜在表現(段落ベクトル)を引き出し、それを微細な文章へとデノisingしていく手法を採りました (Enhancing Paragraph Generation with a Latent Language Diffusion …)。これにより、大域的な文章テーマと局所的な単語選択を分離して扱うことができます。また、一部の研究では自己回帰モデルと組み合わせたハイブリッドも模索されています。例えば生成過程を前半・後半に分け、前半は拡散モデルで大まかな素案を作り、後半は自己回帰モデルで細部を詰める、といったアイデアも考えられます(現在明確な研究例は少ないですが、拡散モデルのステップ途中に自己回帰モデルの出力を組み合わせるような方向は議論されています)。

以上、代表モデル毎に技術的ポイントを述べました。共通して言えるのは、拡散型LLMはいずれもTransformerベースでありながら、非逐次的な生成を可能にする工夫を凝らしている点です。それぞれマスキング戦略や損失関数設計、モデル構造の拡張などアプローチは異なりますが、目的とするところは「自己回帰以外の方法で言語生成を実現し、高速化や新機能を獲得する」ことにあります。

3. 性能比較(生成品質、速度、スケーラビリティ、応用分野)

次に、拡散型LLM各モデルの性能を様々な観点で比較します。重要な指標は生成品質(言語理解・生成タスクでの精度や出力の一貫性)、生成速度(特に長文生成時の効率)、スケーラビリティ(モデル規模拡大による性能向上の度合い)、そして応用適性(どのような分野に向いているか)です。

生成品質の比較

基本的な言語生成性能に関して、拡散型LLMは既に同等規模の自己回帰型LLMに匹敵する水準に達しつつあります。例えばLLaDA 8Bは、オープンソースのLLaMAファミリ(自己回帰モデル)8B版と比較して、各種ベンチマークでほぼ同等のスコアを示しました (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。特にFew-shotリーディングコンプリヘンションや常識推論などのタスクで有意差のない性能を発揮しており、「自己回帰でなければ達成できないと思われていたLLMの能力は拡散モデルでも再現可能である」ことを裏付けています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。またLLaDA-Instructは対話応答の質でも優れ、ChatGPT等と直接比較した評価はありませんが、ケーススタディではユーザ質問に対し一貫した論理で答えを導く様子が示されています (Large Language Diffusion Models)。一方、Score Entropy LLM (SEDD) の中規模モデルはGPT-2相当と比較され、零ショットの言語モデル困惑度で互角~若干優位という結果でした (Promises, Outlooks and Challenges of Diffusion Language Modeling)。EPFLの評価では、いくつかのNLPベンチマーク(LAMBADAやHellaSwag等)の正解率でGPT-2と同程度のスコアを記録しており、質的にも大きな遜色はないことが確認されています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。原著論文で報告されたように、SEDD自体はGPT-2をパープレキシティで上回るともされており ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)、テキスト生成の根幹指標である困惑度・多様性の面では既にARモデルに肩を並べるレベルにあると言えます。

高度なタスク適応という観点では、拡散LLMはまだ研究初期段階のため限定的です。例えば、多言語対応や専門知識問答といった領域では、大規模自己回帰モデル(GPT-4やPaLM2等)がリードしています。しかし一部の特殊タスクでの強みも報告されています。前述のようにLLaDAは逆順テキスト生成といった自己回帰が苦手とするタスクで良好な結果を示しました (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。またテキストの穴埋め(infilling)能力は、拡散モデルの得意分野です。SEDDはプロンプト中間への挿入生成など任意位置条件付き生成ができ、自己回帰モデル+サンプリング手法と同等の品質で多様な挿入が可能とされています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。自己回帰モデルでもFill-in-the-Middleの微調整によって穴埋めは可能ですが、拡散モデルは生来そのメカニズムを備えているため、文章編集や補完タスクには非常に適性が高いです。

出力の多様性については、拡散LLMに軍配が上がる可能性があります。自己回帰モデルは確率の高い順に逐次出力するため、デフォルトでは最もありふれたフレーズに収束しやすい(=無調整だと画一的な回答になる)傾向があります。対して拡散モデルはノイズからのサンプリング過程で多様なモードを表現できるため、GENIEの実験でも自己回帰モデルより多様な生成が得られたと報告されています (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。またSEDDも温度パラメータなしで多様性の高いテキストを出力できると述べられています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。このため、創造的な文章生成(物語生成や広告文など)では拡散モデルの方がユニークな結果を生む余地があります。ただし多様性が高すぎると一貫性や質が低下する恐れもあり、そのバランス調整は課題です。

生成速度・効率の比較

生成速度は拡散LLM最大の強みの一つです。自己回帰LLMでは長さ$N$の文章を生成するのに基本$N$回のステップ(各ステップで1トークン生成)が必要ですが、拡散LLMでは定められたステップ数$T$で全長$N$の文章を一括生成します。$T$は$N$に比べ格段に小さい値に抑えられることが多く、例えばSEDDの報告では**$T=32$ステップでかなり良好な性能を示しました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。Mercuryでは具体的なステップ数は不明なものの、前述の推測通り10程度かそれ以下と考えられ、$T \ll N$が成立しています。この結果、1秒間に生成できるトークン数(スループット)は自己回帰モデルを大きく上回ります。Inception LabsはMercuryの生成速度を1000トークン/秒超と発表しており (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)、これは従来の高速LLM(例えばGPT-3系で数十~100トークン/秒程度 (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon))に比べ桁違いです。ハードウェアが同じGPUであることを考慮すると、5~10倍の高速化が実現したことになります (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。EPFLの比較実験でも、SEDDは同規模GPT-2より最大4.5倍高速であると確認されました (Promises, Outlooks and Challenges of Diffusion Language Modeling)。この高速化は、特に長文生成やリアルタイム対話**で大きな利点となります。例えばチャットボットがユーザに長い回答を返す際、自己回帰モデルだとトークンが一つずつ出てくるため待ち時間がありますが、拡散モデルなら一括生成に近い形で短時間で回答を提示できる可能性があります。

計算効率の面でも、拡散LLMは有望です。自己回帰モデルではKVキャッシング等で重複計算を省く工夫がされていますが、それでも長文では計算量が増大線形オーダーで増えます。拡散モデルは固定ステップ回数で済むため、理論上は出力長に対してサブ線形の計算増で済むことになります(ただし1ステップで扱うトークン数は出力長に比例するので、完全な長さ非依存ではありません)。Mercury開発元は計算コストが10分の1になるとも主張しており (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)、これはすなわち同じ算力で10倍長い文章を生成できるか、あるいは同じ長さの文章を1/10の時間で生成できることを意味します。実際そのような理想的スケーリングが常に達成できるかは別としても、拡散LLMには高い並列性によるスループット向上が期待できます。特に、バッチ生成(複数のプロンプトを並列処理)との親和性も高く、GPUのような並列計算資源をフルに活用しやすい点で効率的です。

一方で注意すべきは、初期の拡散モデルではステップ数$T$が大きかったため速度面の優位性が出にくかったという経緯です。例えばある研究では、自己回帰モデル(GPT-2 + nucleus sampling)の品質に拡散モデルが追いつくには数百~千ステップが必要で、結果として自己回帰+キャッシュより遅くなったという指摘もあります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。しかし最新のLLaDAやMercuryではそのようなステップ数の多さは克服されつつあり、わずか数十ステップ以下で自己回帰並の品質を確保しています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。今後、拡散モデルのサンプリング手法改良やモデル改良で$T$がさらに減れば、速度・効率面の優位は一層盤石になるでしょう。

スケーラビリティ(モデル拡大時の挙動)

スケーラビリティとは、モデルサイズや学習データ量を増やした際に性能が向上するか、そのスケール則が良好かという点です。自己回帰LLMでは「モデルを大きくすればするほど性能が上がる」という現象が広く知られていますが、拡散LLMでもそれが当てはまるかは重要な検証点でした。LLaDAの研究はまさにこの問いに答えるもので、彼らはモデルサイズを段階的に増やし(例えば1億→7億→80億パラメータ等)、各サイズでのベンチマーク性能を測定しています。その結果、自己回帰モデルとほぼ同じ傾向で性能が向上していくことが確認されました (Large Language Diffusion Models)。例えばMMLUやARCといった知識問題ベンチマークの正解率が、モデルサイズの対数に対して直線的に伸びていくグラフが示されており、拡散LLMも「大きいほど賢い」傾向があるといえます (Large Language Diffusion Models)。驚くべきは、8B規模のLLaDAで7B規模のLLaMAに肩を並べた点で、両者のパラメータ数は近いとはいえアーキテクチャの違いを考えると、拡散モデル側が遅れを取らずについてきていることが示唆されます (Large Language Diffusion Models) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。一方、EPFLの検証では500M未満の小型モデルのみ対象でしたが、「今後もし10億~1000億規模の拡散LLMが登場した場合、どこまで性能が伸びるかは未知数だ」と述べています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。つまり理論的には伸びるはずだが、現時点では十分大きなモデルが存在しないため検証できていない、という慎重な見解です (Promises, Outlooks and Challenges of Diffusion Language Modeling)。しかし2024年末時点でLLaDA 8BやMercuryの成功があることから、10億~数百億パラメータ級にも今後チャレンジしていくことは十分考えられます。もし拡散LLMが数千億パラメータ級で現在のGPT-4並の性能を示すようになれば、スケーラビリティについても自己回帰モデルと同等かそれ以上だと証明されるでしょう。

学習データに関してもスケールは重要です。現状、拡散LLMはARモデルほど巨量のデータで訓練された例は少ないです。LLaDAは詳細なデータ規模は不明ですが、おそらく数百億トークン程度のWebデータで学習されたと推測されます。一方GPT-3は5000億トークン、PaLMは数兆トークンと桁違いです。したがって、拡散LLMがデータスケールで追いついたときに性能曲線がどうなるかは今後の課題です。現在のところ、小規模データでも拡散モデルは効率よく学習できているように見受けられます。例えばGENIEは要約データなど比較的限られたタスクデータで事前学習しSOTA級性能を出しています (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)。これは特定タスクにフォーカスした拡散モデルはデータ効率が良い可能性を示しています。ただし汎用的大規模知識を詰め込むにはやはり巨量データが必要になるでしょう。

応用分野・用途適性

拡散型LLMの応用可能性も比較しておきます。現時点で明らかに適性が高い分野としては、以下が挙げられます:

  • コード生成・補完: Mercury Coderが示した通り、プログラミング支援は拡散LLMの重要なユースケースです。コードは文法や構造に厳格なルールがありますが、拡散モデルの段階的洗練によって論理整合性を保ちやすいという利点があります。また複数箇所の同時生成が可能なため、一度に関数全体の骨子を出力するといった使い方も考えられます。Mercuryは既にCopilotのようなコード補完ツールとして有望視されています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。
  • 対話システム: まだ試作段階ですが、LLaDA-Instructのように対話データでチューニングした拡散LLMはチャットボットに応用できます (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。実際にユーザとやりとりする際は、応答生成を高速に行える点が大きな強みです。ユーザ発話を入力文脈として固定し、応答部分を短時間で並列生成できれば、リアルタイム性が要求される対話サービスに適しています。Inception Labsも次の製品としてチャット向けLLMを計画しており、拡散LLMが会話エージェントに進出する可能性が高まっています (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。
  • 文章編集・補完ツール: 拡散モデルのインフィル能力を活かし、文書中の穴埋めやリライトを行うツールも考えられます。例えばユーザが文章の一部を指定して「ここをもう少し詳しく書いて」といった指示を出したとき、該当箇所だけをマスクして拡散モデルで補完する、といった応用です。これは自己回帰モデルでも一度文章全体を生成し直してから差し替える等すれば可能ですが、拡散モデルなら直接部分編集ができ効率的です。このような文書編集支援システムは将来的にライター向けツールなどとして実用化が期待できます。
  • クリエイティブ生成(詩や物語): 拡散モデルの多様性を活かし、詩的な文章や創造的ストーリー生成にも適性があります。例えば与えられたテーマから様々な作風の詩を生成したり、物語のプロットを何通りも提案したりする場面です。自己回帰モデルでも温度を上げれば多様化しますが、拡散モデルはノイズのランダム性により自然に異なる展開を生みやすいと考えられます。さらに、一度出力した結果に対し再度少しノイズを加えて別バリエーションを生成する、といった反復的アイデア創出もやりやすいでしょう。
  • 制約条件付き生成: 特定の単語を含めて文章を作る、あるスタイルを厳守する、といった条件付き生成にも拡散モデルは向いています。なぜなら、条件を満たさない出力が出た場合でも途中ステップで修正が効くからです。自己回帰モデルでは一度生成した単語列を後から変更しにくいですが、拡散モデルは生成中に全体を見渡して調整できるため、例えば不適切語が混入しそうになったら次ステップで除去するといったフィードバック制御が可能かもしれません。この特性は将来的に安全なテキスト生成(有害表現の抑制)などにも活かせる可能性があります。

以上のように、拡散型LLMは高速性と柔軟性を武器に新たな応用領域を切り拓きつつあります。ただし現時点では、例えば高度な専門知識の厳密な問答や、長大なドキュメントの精確な要約といったタスクでは、最先端自己回帰モデル(GPT-4クラス)の方が勝っている場面も多いと推察されます。拡散LLMはまだ発展途上のため、応用例も限定的ですが、コード補完やリアルタイムチャットなどニーズの高い領域から順に実用化が進んでいくと思われます。

4. 長所と短所の分析(自己回帰型LLMとの比較・実用上の課題)

拡散型LLMと自己回帰型LLMを比較したとき、それぞれにメリット・デメリットが存在します。ここでは技術的観点と実用上の観点から長所短所を整理します。

拡散型LLMの長所・優位点

  • 圧倒的な生成速度と低遅延: 前述した通り、拡散モデルは並列生成により高速です。長文を一括生成できるため、特に出力長が長い場合の優位性が顕著です。例えば1000トークン規模の文章も数秒以内で出力可能であり (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)、チャットボットや対話AIでユーザを待たせにくい利点があります。自己回帰モデルではトークンごとの待ちが発生し、応答全文が出揃うまで時間がかかりますが、拡散LLMなら応答全体をほぼ同時に生成できるためインタラクティブ性が向上します。
  • 高い計算効率とスケーラビリティ: 拡散モデルは計算資源を効率よく活用できます。GPUの並列計算能力をフル動員してまとめて処理するため、単位時間あたりの生成トークン数が多く、結果として同じハードウェアでより多くのリクエストをさばける可能性があります (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。また、モデルを大きくしても自己回帰ほど応答時間が悪化しにくい(キャッシュが使えない弱点はあるがステップ数が小さいため規模に対する感度が低い)ため、大規模化による知能向上と実用速度の両立が期待できます。この点はサービスのスケールアウトにも有利です。
  • 柔軟な生成(任意位置の編集・制御): 拡散LLMはシーケンス全体を扱うため、途中から文章を生成したり、一部を固定して他を再生成したりといった柔軟な操作ができます ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。例えば文章の先頭と末尾は固定し、中間部分だけ別の言い回しに変える…といった編集も、拡散モデルなら自然に実現可能です。自己回帰モデルでこれをやるには、固定部分を条件に中間を穴埋めする特別な訓練が必要ですが、拡散モデルなら統一的な枠組みでインフィルやリライトをこなせます。この柔軟性は将来、ユーザがAI生成文をインタラクティブに編集するような人間との共創シナリオで大きな強みになります。
  • エラー訂正・再検討が可能: 拡散モデルの生成過程は多段階なので、途中で出力を洗練し直す機会があります。これは直前のステップでやや不整合な文になっていても、次のステップでそれを修正できることを意味します (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)。言わば自分の出力を見直して推敲するような挙動ができるわけです。自己回帰モデルは一度出力したトークンは確定してしまい変更できません(後で訂正するには全体を生成し直すしかない)が、拡散LLMなら生成中に自己修正が可能です。この性質上、文法ミスや齟齬の少ない洗練された文章を出力しやすいと考えられます。また、推論誘導として一部にヒントを与えて残りを補完させることも容易なので、開発者側で意図した方向に生成をガイドしやすいというメリットもあります。
  • 露出バイアスが小さい: 拡散LLMは学習時に部分的に欠損した文から元文を復元する訓練をしています。そのため、生成時に多少不自然な状態(文脈)になってもそれを立て直す耐性が付きやすいです (Promises, Outlooks and Challenges of Diffusion Language Modeling)。自己回帰モデルはゴールドデータの次単語予測のみ訓練しているため、生成時に一度軌道を外れるとどんどんおかしくなる露出バイアス問題が指摘されます。拡散モデルは不完全な文から元に戻す訓練のおかげで、露出バイアスの影響を緩和できると期待されます (Promises, Outlooks and Challenges of Diffusion Language Modeling)。実際、SEDDのテキストは温度0(確率最大選択)でも破綻しにくく、GPT-2より“らしい”文章になると報告されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。これはモデルが多様なノイズ付き状態で訓練されロバストになっているためと考えられます。
  • 多様性と創造性: こちらも前述のように、拡散モデルは多峰な分布を表現しやすいです。自己回帰モデルではビームサーチなどを使うと画一化が進む一方、拡散モデルは自然にゆらぎを持った出力を生成します。これにより、例えばアイデア出しランダムさが求められる対話(ゲームNPCの台詞生成など)で面白みのある出力を生成できます。モンテカルロ木探索と組み合わせて多様な展開を試すといった用途でも、拡散モデルの方が幅広い候補を出せるかもしれません。

以上が拡散LLMの主要な長所です。まとめると、「速く・柔軟で・賢い」生成が可能になるポテンシャルを秘めており、初期の懸念だった「自己回帰でないと高度な言語能力は出ないのでは」という点もLLaDAの成果が払拭しつつあります ([2502.09992] Large Language Diffusion Models)。

拡散型LLMの短所・課題

  • 複数ステップ推論の複雑さ: 拡散モデルは推論に複数回のモデル適用が必要です。自己回帰モデルも長さ分だけ適用が必要なので一概には言えませんが、拡散モデルの場合各ステップ間の相互依存が強いため工夫した最適化が難しい側面があります。例えば自己回帰モデルではKVキャッシュ(前トークンの計算結果メモリ)が使えますが、拡散モデルは全トークン同時更新ゆえにキャッシュがそのまま使えない問題があります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。新しいトークンを一つ生成すると全体の注意重みが変わってしまうため、毎ステップ計算をやり直す必要があり、逐次ステップ間での効率化が非自明なのです (Promises, Outlooks and Challenges of Diffusion Language Modeling)。Mercuryのようにステップ数自体を極小にするアプローチで対応している例もありますが、一般にはこの推論の複雑性は実装のハードルになります。
  • マスクトークンの計算浪費: 拡散モデル(特に離散マスク方式)では、生成過程で多数のマスクトークンを扱います。例えばLLaDAでは初期状態で全文マスクなので、モデル計算の多くが「空欄」を相手に行われます (Promises, Outlooks and Challenges of Diffusion Language Modeling)。学習時も推論時も、実際には使われないマスクに計算リソースを割いている点は非効率です (Promises, Outlooks and Challenges of Diffusion Language Modeling)。この問題はモデルや訓練の工夫でマスクを減らす(例えばmaskトークン専用の軽量モジュールに処理させる等)ことが考えられますが、まだ解決策は確立されていません。将来的にマスクなしで離散拡散を行う新機構が発明されれば、大幅な効率化につながるでしょう (Promises, Outlooks and Challenges of Diffusion Language Modeling)。
  • 可変長出力の扱い: 現状の拡散LLMは固定長の出力シーケンスを前提としているものが多いです (Promises, Outlooks and Challenges of Diffusion Language Modeling)。SEDDもLLaDAも、一度決めた長さ内でマスクを解いていく形なので、文章が途中で終わってしまっても残りのマスクは何らかのトークンで埋めねばならず、不自然な余りが生じる可能性があります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。自己回帰モデルなら<end>トークンを出せば即終了できますが、拡散モデルでそれをするのは容易ではありません。このため、オープンエンドな生成(いつ終わるか分からない対話など)は苦手という課題があります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。一応、最大長を長めにとり、終わった後は特殊トークンで埋め尽くすなどの方策はありますが、それも効率的とは言えません (Promises, Outlooks and Challenges of Diffusion Language Modeling)。可変長への対応は今後の研究課題で、例えば逐次的にマスクを増減させる仕組みや、拡散過程とテキスト長モデルを同時に学習するなどのアプローチが必要になるでしょう。この問題は上述のマスクの無駄とも関連しており、包括的な解決策が望まれます (Promises, Outlooks and Challenges of Diffusion Language Modeling)。
  • 大規模モデルでの未知の挙動: まだ拡散LLMは最大でも10B未満規模であり、100B規模の領域では未知数です (Promises, Outlooks and Challenges of Diffusion Language Modeling)。もしかするとパラメータが非常に大きくなると、拡散過程の安定性に新たな問題が出る可能性もあります。例えば極めて知識量の多いモデルだと、一度のデノisingで様々な知識が衝突して収拾がつかなくなる、といったことも考えられなくはありません(これは推測ですが)。また、事前学習に要する計算コストも課題です。自己回帰モデルは学習時は単方向なので効率よくバッチ処理できますが、拡散モデルは学習時もマスク操作が絡むため実効的なバッチサイズを上げにくいかもしれません。こうしたスケールに関する不確実性は依然残っています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。
  • チューニング・対話への適用: 2023時点で成熟している自己回帰LLMのエコシステムには、**指示調整(Instruct tuning)人間フィードバックによる強化学習(RLHF)**などの技法が確立されています。一方、拡散LLMでこれらを行った例はまだ限られます。LLaDAは教師あり微調整を行いましたが、人間評価者との対話的な調整(ChatGPTのようなRLHF訓練)は実施していません ([2502.09992] Large Language Diffusion Models)。拡散モデルでも理論上RLHFは可能ですが、複数ステップ生成ゆえの報酬割当(どのステップの出力をどう強化するか)など考えることが増えます。今後、拡散LLMを高度に対話最適化するプロセスが確立される必要があります。さもないと、生成能力は高くてもユーザの細かなニュアンスに沿った調整が難しいかもしれません。
  • 既存環境との互換性: 実用上、現在広く使われているLLMは自己回帰型であり、それに合わせたツールや最適化が豊富です。拡散LLMを導入するには新たなインフラ整備が求められます。例えばモデルの推論サーバを自作する場合、自己回帰なら各種最適化ライブラリがあるが、拡散だと自前で実装が必要、などの差があります。また、トークナイザの扱いや出力長管理なども変わってくるため、既存パイプラインを流用できない点はハードルです。ただしこれらは時間とともに解決する工学的問題とも言えます。
  • 品質の課題: 現時点でも指摘されているように、短いプロンプトからの条件付き生成では拡散モデルはやや不得手との報告があります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。ユーザが一文だけ入力して続きを生成させる場合など、自己回帰モデルは訓練でさんざん次文予測をしているため得意ですが、拡散モデルは「文章全体を復元する」訓練が主なので、極端に短い文脈だと望ましい出力を見つけにくい可能性があります。これはプロンプト依存の挙動であり、学習データに多様な長さのプロンプトを含めるなど工夫で解決できるかもしれませんが、現状では弱点の一つです。また、長大な文脈を条件に入れた場合の処理も課題です。自己回帰モデルはトークン数上限まではそのまま順次処理できますが、拡散モデルで長大なコンテキストを扱う場合、エンコーダのような機構を用意しないとメモリ負荷が大きくなります。GENIEのようにエンコーダを導入する手もありますが、LLaDAやSEDDの純粋デコーダ型では長大コンテキストに対処する追加工夫が必要でしょう。

以上、拡散LLMの弱点をまとめると、「未成熟ゆえの実装上の難しさ」と「アルゴリズム固有の課題(可変長やキャッシュ不可など)」があります。ただ、これらは研究が進めば克服可能と考えられます。実際、専門家も「拡散LLMは将来有望だが、すぐに自己回帰を打ち負かすと断言するには時期尚早」と述べています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。当面は両者の手法が並行して改良競争を続けるでしょう。

5. 今後の発展可能性(商業展開、学習方法の改良、スケールアップの可能性)

拡散型LLMの今後について、いくつかの観点から展望します。

商業展開の見通し

Inception LabsのMercuryが先鞭をつけたことで、商用利用への道が開けたと言えます。速度と効率の利点から、企業にとってはコスト削減ユーザ体験向上に繋がる技術として注目されるでしょう。例えば、大規模言語モデルをクラウド提供するサービスでは、同じ計算資源でより多くのユーザに対応できる拡散LLMは経済的メリットがあります。また、モバイルデバイス上で動作可能となれば、新興国などインフラが限られた環境でも高性能LLMを提供できるようになります。Mercuryの成功を受けて、今後他のスタートアップや大手企業も独自の拡散LLMを開発・提供してくる可能性があります。特に、既に自己回帰LLMで実績のある企業(OpenAIやGoogleなど)が、この技術に関心を示すかが注目されます。実際、OpenAIのAndrej Karpathy氏やDeepLearning.AIのAndrew Ng氏など著名研究者もMercury登場に言及し、その意義に期待を寄せています (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)。拡散LLMがさらに成熟し、チャットボットや検索エンジン、文書制作支援といった幅広いアプリケーションに導入されれば、AI業界の勢力図にも影響する可能性があります。とはいえ、直ちに自己回帰モデルが市場から置き換わるわけではなく、しばらくは共存する形になるでしょう。ある専門家の見解では「拡散LLMがすぐにARモデルの王座を奪うとは限らないが、有力な代替となることは確か」であり、当面は両者のハイブリッド運用なども模索されるかもしれません (Promises, Outlooks and Challenges of Diffusion Language Modeling)。

モデル学習手法の改良

研究面では、さらに効率の良い学習方法生成手法の改良が進むでしょう。具体的には以下のような方向性が考えられます:

  • サンプリング効率の向上: 現在でもMercuryのように高速ですが、理論上は1ステップで文章生成する究極の拡散モデルも夢ではありません。ステップ数を極限まで減らすために、拡散過程の近似モデルの蒸留が検討されるでしょう。例えば、複数ステップで得られる出力を知識蒸留で1回の推論で再現させる手法などです。また学習時にステップを間引くカリキュラムでモデルに直接少ステップ生成を学習させることも考えられます。このようにして、より少ない反復で高品質な生成を達成できれば、速度面の優位は決定的になります (Promises, Outlooks and Challenges of Diffusion Language Modeling)。
  • 前処理・後処理の工夫: 拡散モデル単体で難しいことは、他の方法と組み合わせるアプローチも増えるでしょう。例えば自己回帰モデルを使って拡散モデルの初期状態をウォームスタートする(粗い文章をまずARで作り、それを拡散モデルで洗練する)などのハイブリッドが考案されるかもしれません。また、生成結果を検証する外部モジュール(例えば文法チェッカやファクトチェッカ)と連携し、問題があれば追加のデノisingを行うようなフィードバックループを構築する可能性もあります。このように、単体性能だけでなく他手法との組み合わせで実用性能を高める研究が進むでしょう。
  • 新しい拡散プロセス: 現在主流の「全マスク→徐々にアンマスク」というプロセス以外にも、工夫次第で様々な拡散過程が設計できます。EPFLの論文ではforward過程(ノイズ付加過程)の別定義が推論力に影響を与えると示唆しています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。例えば意味的に徐々に具体化していくような拡散(最初はトピックレベル、次に概要レベル、最後に詳細文、と段階を踏む)など、人間の思考に近いプロセスも考えられます。この延長線上に「Diffusion of Thought」、つまり思考の拡散というアイデアもあります (Diffusion Language Models: The Future of LLMs? : r/singularity)。モデルが拡散ステップごとに中間推論(chain-of-thought)を展開し、問題解決に向けて徐々に回答を洗練する、といった仕組みです。これが実現すれば、拡散LLMは単に速いだけでなく論理的な推論能力でもARモデルを凌駕する可能性があります。
  • PLMとの統合: 既存の強力な事前学習言語モデル(PLM)との組み合わせも研究テーマです ( Diffusion models in text generation: a survey – PMC )。例えば、巨大自己回帰モデルの持つ知識を活かしつつ拡散生成する仕組みとして、自己回帰モデルを事前訓練に利用する手があります。具体的には、まず自己回帰で学習→そのモデルを初期値に拡散モデルをさらに訓練、という2段構えです。これにより膨大な知識や言語理解力はARで習得し、生成時は拡散の高速さを享受する、といったハイブリッド学習が可能かもしれません。また、逆に拡散モデルで事前学習した後、自己回帰タスクで微調整するような逆転の発想も考えられます(例えば拡散で多様な文を作らせて自己回帰モデルの訓練データを増やすなど)。このようなPLMと拡散の融合は、互いの長所を取り入れる上で有益な方向です ( Diffusion models in text generation: a survey – PMC )。
  • 可変長・メモリの問題解決: 先述の課題である可変長生成やキャッシング不可の問題にも取り組みが進むでしょう。例えば特殊な終了マークを導入し、拡散過程でそのマークの割合が増えることで自動的に終端を示すような工夫や、セグメントごとに分割拡散して繋ぎ合わせるといったテクニックが考案されるかもしれません。またメモリの問題では、因果的注意と非因果的注意を組み合わせたハイブリッドTransformerを作り、一部キャッシュを活かすアイデアも出るかもしれません。このように、拡散LLM固有の欠点を補うアルゴリズム改良が期待されます。

モデルの一層のスケールアップ可能性

現在8B規模まで来た拡散LLMですが、更なるスケールアップも視野に入ります。100B規模の拡散LLMともなれば、既存の最強クラスLLM(GPT-4等)に迫る性能が得られる可能性があります。最大の課題はそのような巨大モデルを訓練するコストですが、もし自己回帰モデルより高速に推論できるなら、トレーニングへの投資価値は十分あるでしょう。研究者らも「現時点では小規模で検証したが、将来より大きなテキスト拡散モデルの性能がどこまで伸びるか注目だ」と述べています (Promises, Outlooks and Challenges of Diffusion Language Modeling)。今後、計算資源に恵まれた研究機関や企業が大規模拡散LLMのトレーニングに挑むことが予想されます。

また、マルチモーダル対応への発展も考えられます。テキストの拡散モデルが確立すれば、画像生成拡散モデル(Stable Diffusion等)との統合が容易になる可能性があります。すなわち、一つの拡散モデルがテキストと画像を同時に生成できるようなマルチモーダルモデルです。拡散モデルは本来画像で成功した技術ですから、共通の原理でテキストも画像も扱える枠組みを作れば、テキスト→画像、画像→テキスト、さらにはテキスト+画像→テキスト+画像といったモーダル混合生成もシームレスに行えるかもしれません。例えば、「写真と説明文のペア」をノイズから同時生成するようなモデルがあれば、将来的にAIが一貫性のある文章付きイラストをワンステップで作るといった応用も夢ではありません ( Diffusion models in text generation: a survey – PMC )。現に、拡散モデルのテキスト応用に関するサーベイ論文でもマルチモーダル生成への展開が有望な研究方向として挙げられています ( Diffusion models in text generation: a survey – PMC )。

まとめと展望

拡散型大規模言語モデル(dLLM)は、ここ数年で急速に発展した新しいパラダイムであり、自己回帰型LLMが長らく独占してきた領域に風穴を開けようとしています。その代表例であるLLaDAやMercuryは、拡散手法でも大規模モデルが高度な言語機能を獲得しうること、高速生成という実用上の大きなメリットがあることを示しました。もっとも、現段階ではまだ研究途上で、自己回帰モデルの圧倒的な実績とエコシステムには及びません。しかし、技術の進歩は早く、2025年以降は拡散LLMが研究と産業の両面でさらに存在感を増していくと予想されます。

特に、「高速でインタラクティブなAIアシスタント」が求められる時代において、拡散LLMの並列生成能力は非常に魅力的です。今後数年で、拡散LLMに関する知見が蓄積され、実装やチューニング手法も成熟してくれば、多くのAIアプリケーションが裏側で拡散モデルを採用するようになるかもしれません。それはユーザにとっては単に「応答が速くて多才なAIが増えた」という体感かもしれませんが、システム側では大きなパラダイムシフトとなるでしょう。

もっと先の未来を見据えれば、拡散LLMと自己回帰LLMの区別自体が薄れていく可能性もあります。お互いの長所を取り入れ、統合的な生成モデルへと収束していくかもしれません。重要なのは、「AIによる言語生成」というゴールに対して、複数のアプローチが競い合い融合し合うことで全体として性能が向上することです。拡散型LLMの登場はまさに新たな競争と創意工夫を生み、言語AIの進歩を加速させています。その発展の行方に今後も大いに注目が集まるでしょう。

参考文献・情報源:

  1. Shen Nie et al., “Large Language Diffusion Models”, arXiv preprint 2502.09992 (Feb 2025). (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)など
  2. Inception Labs, “Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM”, AIbaseニュース (2024). (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable) (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable) (Mercury: A First-of-Its-Kind Commercially Available Diffusion LLM, Fast and Mobile Deployable)など
  3. Aaron Lou et al., “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” (SEDD), ICML 2024. ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution) ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)など
  4. Justin Deschenaux et al., “Promises, Outlooks and Challenges of Diffusion Language Modeling”, arXiv 2406.11473 (Jun 2024). (Promises, Outlooks and Challenges of Diffusion Language Modeling) (Promises, Outlooks and Challenges of Diffusion Language Modeling) (Promises, Outlooks and Challenges of Diffusion Language Modeling) (Promises, Outlooks and Challenges of Diffusion Language Modeling)など
  5. Zhenghao Lin et al., “Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise” (GENIE), ICML 2023. (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise) (Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise)
  6. HackerNoon, “What Is a Diffusion LLM and Why Does It Matter?” (Oct 2024) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon) (What Is a Diffusion LLM and Why Does It Matter? | HackerNoon)など