拡散型大規模言語モデル (dLLM) の技術(アーキテクチャ、アルゴリズム、学習プロセス)

以下の観点を分析します。

  1. アーキテクチャの詳細(拡散型LLMのネットワーク構造、使用される技術)
  2. アルゴリズムの動作原理(拡散プロセス、デノイジングプロセス、トークンマスキング)
  3. 学習プロセス(事前学習の方法、データセット、拡散過程の最適化手法)
  4. パラメータチューニングと最適化(拡散過程のハイパーパラメータ、精度向上の工夫)
  5. 既存の技術との関連性(自己回帰型モデルとの融合、BERT・GPTとの違い)
  6. 実際の実装例(LLaDA、Mercuryに見られる具体的な技術)

1. アーキテクチャの詳細

拡散型LLMのネットワーク構造:
拡散型大規模言語モデル(Diffusion LLM, dLLM)は、基本的にはTransformerアーキテクチャを採用しています ([2502.09992] Large Language Diffusion Models)。内部のネットワーク構造(自己注意機構や多層パーセプトロン層など)はGPTやBERTなど従来のLLMと類似しており、特別な新層を追加しているわけではありません ([2502.09992] Large Language Diffusion Models)。例えば最新の研究モデルLLaDAでは、「バニラTransformer」をそのまま使用し、拡散の逆過程(後述)においてマスクされたトークンを予測する役割を担わせています ([2502.09992] Large Language Diffusion Models)。このようにネットワーク自体は標準的なTransformerですが、**生成の仕組み(拡散過程)**が従来モデルと大きく異なります。

非自己回帰型の並列生成:
従来の自己回帰型LLM(GPTなど)は左から右へ一単語ずつ順番に次の単語を予測・確定し、文章を生成します (Inception LabsのMercury Coder:dLLMs)。一方、拡散型LLMでは文章全体を一度に下書きとして生成し、それを徐々に洗練していく方式を採ります (Inception LabsのMercury Coder:dLLMs)。モデルは初期段階で文長分のトークンを一括生成(多くは無意味な初期値)し、以降のステップで全文のトークンを並列的に更新していきます (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。このため非自己回帰型とも呼ばれ、各生成ステップで全単語を同時に扱うことが可能です (Inception LabsのMercury Coder:dLLMs)。例えばMercuryでは最初に文章全体の大まかなドラフトを用意し、そこから全トークンを並列修正して完成形に近づけています (Inception LabsのMercury Coder:dLLMs)。この並列生成のアプローチにより、各ステップで文章全体を見渡した一貫性のある生成が可能になります。

時間ステップと入力表現:
拡散モデルでは生成ステップ(時間ステップ)の概念が重要です。画像生成の拡散モデルにならい、dLLMでも各ステップ数を示す埋め込み(タイムステップ埋め込み)をTransformerに与えることで、現在のステップに応じた出力調整を行います(例えば初期ステップでは粗い出力、後半ステップでは細部調整を行う)といった挙動を学習させます。加えて、入力の一部として特殊トークン(例: [MASK])を用意し、生成過程で未知の部分を示すために使います。この[MASK]トークンは画像拡散における「ノイズ」に相当し、ネットワークは[MASK]の位置に適切な単語を充填するよう訓練されます (Inception LabsのMercury Coder:dLLMs)。結果としてモデル入力には (1) 文脈中の既知の単語と**(2) [MASK]で表された未確定単語**, (3) 現在のステップ情報が含まれる形になります。

Bidirectionalな注意機構:
自己回帰型のGPT系モデルは因果的注意(左側の文脈のみ参照)を用いますが、拡散型LLMでは文章全体に対する注意を行います。モデルは[MASK]を含むシーケンス全体を入力として受け取り、左右両文脈を参照して各[MASK]の内容を推定します。これはBERTのような双方向マスクド言語モデルと似ていますが、BERTが単一ステップでマスク補完するのに対し、dLLMは繰り返しマスク補完を行って文章を生成する点が異なります。双方向の注意により、各ステップで文脈全体の一貫性を考慮した単語選択が可能となり、長文中の主語と代名詞の対応や文末まで読んだときの整合性などもネットワーク内で自然に担保されやすくなっています (Inception LabsのMercury Coder:dLLMs)。

2. アルゴリズムの動作原理

拡散過程 (Forward Diffusion Process):
拡散型LLMでは、学習および生成において**「データを徐々に劣化させる過程」「劣化から元に戻す過程」を定義します。拡散過程では、元のテキストに対して徐々にノイズを加えていき、最終的には意味のない状態にまで劣化させます (Inception LabsのMercury Coder:dLLMs)。テキストの場合の「ノイズ」とは、具体的にはトークンをマスクしたりランダムなトークンに置換したりする操作です。例えば初期状態(拡散過程の$t=0$)では元の文がそのまま存在しますが、そこからステップを進めるごとに一定割合の単語を[MASK]トークンに置換していきます (Large Language Diffusion Models)。ステップが進むほどマスクされる単語の割合(汚染率)が増加し、最終ステップ ($t=1$)では文中のすべての単語が[MASK]で埋め尽くされた「完全にノイズまみれ」の状態になります (Large Language Diffusion Models)。このように連続的にマスクを増やしていく拡散過程を定義することで、テキストを粗から細へ(coarse-to-fine)**と劣化させていきます (Inception LabsのMercury Coder:dLLMs)。数式的には、各時刻$t$における確率分布$q(t)$が徐々に情報エントロピーの高い(一様ノイズに近い)分布になるように設定されます。

デノイジング過程 (Reverse Denoising Process):
デノイジング過程(逆拡散過程)は、上記とは逆にノイズだらけの状態から徐々に情報を復元して原文を得るプロセスです (Inception LabsのMercury Coder:dLLMs)。モデルはこの過程をシミュレーションできるように訓練されます。具体的には、部分的にマスクされたテキストを入力すると、マスク部分に適切な単語を予測して埋めるという処理を繰り返します (Large Language Diffusion Models)。拡散過程の終点(完全マスク状態)から始め、モデルがまず全単語を推測・生成します。しかし初回の推測では多くの誤りや不自然さを含むため、これを仮の下書きとして再度一部をマスクし直し(誤りの混じった部分をノイズに戻す)、改めてモデルに予測させます。この**「マスク→予測→再マスク」の反復により、徐々にノイズ(誤り)が減っていき、最終的に整合性の高い文章が得られます (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。各ステップでモデルは全文のマスクされたトークンを同時に予測し(並列予測)、一回のステップで得られた出力を元に次のステップでさらに洗練する、というサイクルです (LLaDA – Large Language Diffusion Model (weights + demo) : r/LocalLLaMA)。この反復プロセスは画像の拡散モデルが徐々にノイズを取り除いていく様子**と類似しており、テキスト領域では「荒削りな文を少しずつ推敲していく」動作原理といえます (Inception LabsのMercury Coder:dLLMs)。

トークンマスキングの手法:
上記の拡散・デノイズ過程をテキストで実現する鍵が「トークンマスキング」です。連続値を扱う画像ではピクセルにガウスノイズを加減する形で劣化・復元を行いますが、テキストは離散的な単語の集合であり連続的にノイズを付与できません。このため離散データ用に設計されたノイズ付与法として、トークンを特殊記号で置換する(マスキング)かランダムな別の単語に置き換える方法がとられます。多くのdLLMでは、[MASK]トークンを「ノイズの吸収状態」として扱います (Inception LabsのMercury Coder:dLLMs)。すなわち前述のように、拡散過程では任意の単語が一定確率で[MASK]に置き換わり、一度[MASK]になった箇所はその後もノイズとして維持されます(吸収状態) (Inception LabsのMercury Coder:dLLMs)。逆にデノイズ過程では、[MASK]になっている箇所に元の正しい単語を補完するようモデルが予測を行います。例えばLLaDAでは、前処理として文章中の全トークンを一様ランダムに選んでマスク化し(マスク率$t$は0から1の間でランダム抽出)、そのマスク付き文を入力して元の文を当てさせる訓練をしています (Large Language Diffusion Models)。これによりモデルは、任意のノイズパターンから原文を推定する能力を獲得します。そして生成時には、まず全単語をマスクした状態から出発し(最大ノイズ状態)、モデルに徐々にマスクを埋めさせていくことで、最終的に整合性のある文章を得ます (Large Language Diffusion Models)。この一連のアルゴリズムはマルコフ連鎖に基づく形式で定式化でき、各ステップでの確率遷移をモデルがパラメータ化するとみなせます。具体的にはモデル$P_\theta(x_{t-1}|x_t)$を学習して、ノイズ状態$x_t$から一つ前の状態$x_{t-1}$(ノイズが少ない状態)を推定するようになっています ([2502.09992] Large Language Diffusion Models)。

離散拡散における工夫:
従来のScore Matching(確率密度の勾配を直接学習する手法)は画像など連続データで成功してきましたが、テキストのような離散データにそのまま適用すると性能が出ないことが知られていました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。この問題に対し、2024年にスタンフォード大学の研究チームが提案したのがScore Entropyという新しい損失関数です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution) (Researchers at Stanford Introduce Score Entropy Discrete Diffusion (SEDD): A Machine Learning Model that Challenges the Autoregressive Language Paradigm and Beats GPT-2 on Perplexity and Quality – i-genie.co.uk)。Score Entropyは離散空間でスコアマッチングの考え方を拡張したもので、データ分布の比率(確率比)を推定する形で拡散モデルを訓練するアイデアです (Researchers at Stanford Introduce Score Entropy Discrete Diffusion (SEDD): A Machine Learning Model that Challenges the Autoregressive Language Paradigm and Beats GPT-2 on Perplexity and Quality – i-genie.co.uk)。これによってテキストの拡散モデルでも安定した学習と高い精度が達成できるようになりました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。実際、この手法を用いたScore Entropy Discrete Diffusion (SEDD)モデルでは、同規模の他の拡散型言語モデルに比べパープレキシティを25~75%も削減し、GPT-2など従来の自己回帰モデルに匹敵する性能を示しています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。Mercuryを開発したInception LabsはまさにこのScore Entropyを取り入れることで、離散データへの拡散適用の難題を克服したと報じられています (Inception LabsのMercury Coder:dLLMs)。まとめると、拡散型LLMのアルゴリズムは**「マスクを介したノイズ付加・除去」**というプロセスによって成り立っており、その実現には離散データ特有の工夫(特殊な損失関数やマスキング戦略)が不可欠でした。

3. 学習プロセス

事前学習(Pre-training)の方法:
拡散型LLMも他のLLMと同様に、大規模なテキストコーパスで事前学習を行います。ただしタスクは従来の「次単語予測」ではなく、「マスクされた単語の復元」になります。具体的には、各学習サンプルに対しランダムに汚染率$t$を選び、対応する割合$t$だけトークンをマスクします (Large Language Diffusion Models)。そしてそのマスク付き文章を入力として与え、元の非マスク文章を復元するようモデルに訓練します (Large Language Diffusion Models)。モデルは全文脈(マスクされず残った単語や文の長さ情報など)を手がかりに、マスク箇所に入るべき単語を当てるタスクを繰り返し学習します。このとき、前述のタイムステップ情報(汚染率に対応)もモデルに与えることで、「現在どの程度ノイズが入っている状態か」をモデルが把握し、それに応じた予測を行えるようにします。例えば$t=0.8$(80%マスク)という高ノイズ状態なら大胆な補完を試み、$t=0.2$(20%マスク)なら細部の調整を優先するといった振る舞いです。

逐次拡散シミュレーションと学習:
基本的に事前学習では各ステップを独立した訓練サンプルとして扱います。すなわち、一文に対し「汚染率$t$でマスクした入力」と「元の文(正解)」のペアを大量に用意し、様々な$t$でモデルをトレーニングします。これによりモデルは任意のノイズレベルから元文を復元する関数としてパラメータが最適化されます。最終的に、モデルは$t=1.0$(完全マスク)から$t=0.0$(マスクなし=完成文)までの全ての中間状態を橋渡しするような出力ができるようになります (Large Language Diffusion Models)。つまり、「どんなノイズ状態からでも一歩文を綺麗にする」能力を学ぶことで、拡散の全過程をシミュレート可能になるのです。この手法は教師なし学習の一種であり、用いるコーパスもWebテキスト、書籍、Wikipedia、コードデータなど大規模で多様なテキストデータが対象となります。LLaDAでは8B(80億)パラメータ規模のモデルをゼロから学習しており、その際に使われたトークン数は明示されていませんが、同等性能とされるLLaMAと同規模のデータ(数千億トークン規模)を処理したと推測されます (Large Language Diffusion Models)。

離散拡散モデルの最適化手法:
前述したように、離散拡散では通常の対数尤度最大化ではなく特殊な目的関数を用いることがあります。LLaDAでは変分下限に基づく尤度最大化でモデルを訓練したと報告されています ([2502.09992] Large Language Diffusion Models)。一方、StanfordのチームはScore Entropyによる損失設計で性能向上を図りました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。学習プロセス上は、これらの損失関数を用いてモデルの予測がいかに元文と離れているかを評価し、その誤差(損失)を減らすよう勾配降下法でパラメータを更新します。特にScore Entropyではデータ分布の対数比を直接学習する形になっており、従来困難だった離散領域でのスコア推定を安定化しています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。このような損失設計上の工夫に加え、オプティマイザや学習率スケジューリングなど一般的な最適化テクニックも当然ながら活用されます。

モデルの事前学習と性能:
事前学習を経た拡散型LLMは、同規模の自己回帰型モデルに匹敵する言語モデリング性能を示します。例えばLLaDA 8Bモデルは、独自に用意した自己回帰モデルのベースラインを上回り、LLaMA3 8Bと互角の性能を発揮したと報告されています ([2502.09992] Large Language Diffusion Models)。またゼロショット(追加学習なし)の評価でGPT-2を凌駕するパープレキシティを達成した例もあります ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。これは、拡散モデルによる事前学習が単なるマスク補完タスクでありながら、言語の統計的構造をしっかり捉えられていることを示しています。特筆すべきは、完全マスク状態(真っ白な入力)からでも文章を生成できる点です。通常のBERTは入力全部をマスクすると何も文脈情報がないためまともに予測できません。しかし拡散型LLMは学習中に様々なマスク率を経験しているため、極端な場合でも文法的に尤もらしい文章を一から起こすことが可能です。この能力により、プロンプト無しのランダム文章生成や、与えられたわずかなヒントからの文章補完なども行えるようになっています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。
※もっとも、完全に文脈ゼロからの生成では生成内容の多様性や統制が課題となるため、実用上は何らかのプロンプトや初期条件を与えて応答文を生成させることが一般的です。

指示調整・微調整 (Fine-tuning):
大規模言語モデルと同様に、dLLMも事前学習後に指示に従う能力向上のための教師あり微調整(SFT)が実施されます ([2502.09992] Large Language Diffusion Models)。たとえばLLaDAの場合、ユーザ発話とそれに対応する模範解答からなる対話データや命令文データを用いてSFTが行われました ([2502.09992] Large Language Diffusion Models)。このとき拡散モデルでは、プロンプト(例えばユーザの質問文)はマスクせず入力し、回答部分のみをマスクしてモデルに予測させる形で学習させます (Large Language Diffusion Models)。こうすることで、モデルは質問など与えられた文脈を完全に保持しつつ、その続きを埋める(回答を生成する)振る舞いを習得します。SFTを経たLLaDAは複数ターンの対話など高度な指示への応答能力を示し、InstructGPTのような指示追従能力を発揮したと報告されています ([2502.09992] Large Language Diffusion Models)。Mercuryにおいても、まずプログラミング用データで事前学習した後、人間の書いたコードやコメント指示に従うような微調整を行い、コード自動補完/生成への最適化が図られていると考えられます。さらに必要に応じて**RLHF(人間フィードバックによる強化学習)**などの手法で出力の有用性・安全性を高めることも、拡散型であっても可能です。以上が学習プロセスの流れであり、事前学習(大規模コーパスでマスク復元学習)タスク適応の微調整という基本ラインは、dLLMもTransformer系LLMと変わりません。

4. パラメータチューニングと最適化

拡散過程のハイパーパラメータ:
拡散型LLMには、従来モデルにはない固有のハイパーパラメータが存在します。その一つが拡散ステップ数(デノイズ反復の回数)です。これは生成時に何回モデル推論を繰り返すかを決めるパラメータで、ステップ数を増やせば品質向上しやすいが遅くなり、減らせば高速だが粗い出力になりやすいというトレードオフがあります ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。例えばある研究では、高品質なテキスト生成に32回のステップを用いる一方、若干質が落ちても良いなら1/32のステップ(つまり1回!)でも生成可能であることが示されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。Mercuryでは高速化のためステップ数をかなり抑えていると推測され、たとえ長文でも十数ステップ程度で一括生成している可能性があります (Inception LabsのMercury Coder:dLLMs)。実際、自己回帰型ではテキスト長に比例して推論ステップ(生成回数)が増えますが、dLLMは固定回数のデノイズ処理を回すだけなので、文章が長くても生成時間はほぼ一定になります (Inception LabsのMercury Coder:dLLMs)。この仕組みにより、Mercuryは長文出力時でも高速で、H100 GPU上で1秒間に1000トークン以上という驚異的スループットを達成しました (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。ステップ数以外にも、各ステップにおけるマスク率のスケジュール(どのようにノイズ量を減らしていくか)もチューニング可能です。単純には逐次ステップごとにマスク割合を線形に減らす方法が考えられますが、LLaDAでは逆に各訓練サンプルでマスク率を一様ランダムに選ぶ戦略を取っています (Large Language Diffusion Models)。これによりモデルは柔軟にどんなノイズ状態にも対処できるようになり、決まったスケジュールに縛られない**「フレキシブルなリマスキング」が可能になります (Large Language Diffusion Models)。実際の生成では、モデルの予測に応じてどのトークンを次ステップで再度マスクするか**を動的に決めることもできます。例えば信頼度の低いトークンのみマスクを残し、確信度の高い単語は確定させる(マスクから外す)といった戦略です。この自適的なリマスキングはまだ研究途上ですが、うまく機能すれば必要最小限のステップで高品質な文章を得ることに寄与します。

モデルパラメータと最適化:
dLLM自体のモデルパラメータ(重み)のチューニングに関しては、Transformerベースであるため従来技法の応用が可能です。学習率やバッチサイズ、正則化などはGPT/BERTの学習で蓄積された知見が活きます。しかし前述の通り、離散拡散モデルでは特殊な損失関数最適化手法も取り入れる必要があります (Inception LabsのMercury Coder:dLLMs)。例えばScore Entropyを用いる場合、そのロスのスケーリングや安定化のためのテクニック(勾配クリッピングや学習率ウォーミングアップ等)を適切に調整する必要があります。また拡散時間の離散化粒度(例えば時間を何段階で刻むか)や、各段階のノイズ事前分布の設定もハイパーパラメータです。前者については、ステップ数とも関連しますが「連続時間$t$を何段階の離散$1,2,…,T$にマップするか」という問題で、Tが大きいほど細かいステップになる一方で学習・生成コストが増えます。後者については、初期ノイズ(例えば完全マスク状態)のとり方や、中間状態でランダムトークンを混入させるか純粋な[MASK]だけにするか等が考えられます。多くの実装では最終ステップでは完全マスクとしつつ、中間では一定確率で[MASK]以外のランダム単語ノイズも許容することで、多様なノイズ形態に対処できるようにしています。

精度向上の工夫:
拡散型LLMで高精度な出力を得るためには、いくつかの工夫が有効です。まず温度パラメータやトップk/top-pサンプリングのような手法は基本的に不要だとされています。自己回帰モデルでは出力の多様性や確率分布調整のために温度で乱数の影響を調節しますが、拡散モデルでは最初のノイズ付加自体が乱数に相当し、それによって多様性が確保されます。またScore Entropy法では温度0(純粋確率最大)でも出力が破綻しにくいことが確認されており、GPT-2に比べ約6~8倍も「そのままの出力でパープレキシティが低い」(高品質)テキストを生成できたと報告されています ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。これは、モデルが内部でテキストの確率分布全体を考慮しながら段階的にサンプルを生成しているため、極端な確率の偏りによる破綻(いわゆるモード崩壊)が起きにくいからだと考えられます ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。次に制御可能性の点でも、拡散モデルはメリットがあります。途中のステップで任意の部分を人為的に固定したりマスクしたりできるため、例えば文章の一部を書き換える(インフィル)といった操作が容易です ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。モデルがすでに全単語の同時予測能力を持つため、プロンプト中の穴埋めや後付けの文挿入にも標準的な枠組み内で対応できます。この柔軟性は、モデルの出力をユーザが誘導したりエラーを部分的に訂正したりするユースケースで威力を発揮します。逆に課題となるのは学習と開発の複雑さです (Inception LabsのMercury Coder:dLLMs)。離散拡散モデルの学習は難しく、特殊な損失関数や最適化が必要であるうえ、研究の歴史が浅いためチューニングのノウハウが未成熟です (Inception LabsのMercury Coder:dLLMs)。Transformer型LLMで確立されたテクニックがどこまで有効か検証も十分ではなく、ベストプラクティスの確立には時間がかかるでしょう (Inception LabsのMercury Coder:dLLMs)。加えてモデルのスケーリング限界も未知数です (Inception LabsのMercury Coder:dLLMs)。現状では数十億パラメータ規模で有望な結果が出ていますが、GPT-4のような数千億規模で同様に性能が上がるかは今後の研究課題です (Inception LabsのMercury Coder:dLLMs)。このように、dLLMはチューニング項目も多岐にわたり、新技術ゆえの不確実性はあるものの、適切に最適化すれば高速かつ高精度な新世代のLLMとして機能する可能性を秘めています。

5. 既存の技術との関連性

自己回帰型モデルとの比較:
自己回帰型(AR)モデルは、言語生成で長らく主流となってきた方式です (Researchers at Stanford Introduce Score Entropy Discrete Diffusion (SEDD): A Machine Learning Model that Challenges the Autoregressive Language Paradigm and Beats GPT-2 on Perplexity and Quality – i-genie.co.uk)。これは文章を左から右へ順に生成する戦略で、シンプルかつ強力ですが欠点もあります (Researchers at Stanford Introduce Score Entropy Discrete Diffusion (SEDD): A Machine Learning Model that Challenges the Autoregressive Language Paradigm and Beats GPT-2 on Perplexity and Quality – i-genie.co.uk)。最大の違いは生成プロセスの順序性です。ARモデル(GPT-4やClaudeなど)は系列長と同数のステップを踏む必要があり、長文になるほど出力に時間がかかります (Inception LabsのMercury Coder:dLLMs)。拡散型モデルでは前述の通りステップ数が固定できるため、長文でもほぼ一定のレイテンシで生成可能です (Inception LabsのMercury Coder:dLLMs)。例えば1000単語の文章をGPT系モデルで出力する場合、1000回の次単語予測が順次必要ですが、dLLMなら10ステップ程度の反復で済み、長文であっても高速です (Inception LabsのMercury Coder:dLLMs)。また文章全体の一貫性にも差が出ます。ARモデルは一度出力した単語は基本的に確定して後から変更できず、文末まで進んで初めて前半の選択ミスに気付くことがあります (Inception LabsのMercury Coder:dLLMs)。そのため、時折前半と後半で矛盾した内容になったり、文脈がずれる問題(いわゆる「一貫性の欠如」)が起こります。拡散型モデルは各ステップで全文を見直して再調整できるため、後半の文脈に合わせて前半の表現を修正する、といったことも可能です (Inception LabsのMercury Coder:dLLMs)。結果として長い文章でも矛盾が少なく、読み終えて辻褄が合う内容を期待できます (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。実際Mercuryでも「最後まで読んだら辻褄が合う長文」が生成できる点がメリットとして挙げられています (Inception LabsのMercury Coder:dLLMs)。一方で、ARモデルは逐次生成ゆえにメモリ効率が良いという利点もあります。dLLMは全文を並列計算するため一時的なメモリ使用量が多く、非常に長い文やリソースの限られた環境では不利になる場合があります。この点は今後のモデル最適化や分割実行などで緩和が期待されます。

自己回帰型との融合可能性:
現時点では拡散型と自己回帰型は生成手法として独立に研究されていますが、将来的には両者の融合も考えられます。例えば、まず自己回帰モデルで短いプロンプトやアウトラインを生成し、それを拡散モデルで詳細化・修正する手法や、逆に拡散モデルで下書きを作ってから不足部分をARモデルで補完する手法などです。理論的には、自己回帰生成は拡散生成の極限(ステップ数を文章長まで増やした場合)とも見なせますし、途中まで決め打ちして残りを拡散で埋めるというハイブリッド生成も可能でしょう。しかし融合モデルの明確な成功事例はまだ出ていません。Inception LabsのMercuryはTransformerアーキテクチャ自体は継承しつつもAR的生成は一切行っておらず純粋な拡散路線を追求しています (Inception LabsのMercury Coder:dLLMs)。一方、一部の研究では自己回帰モデルを教師として拡散モデルを蒸留し、高速化と精度向上を両立する試みもあります。いずれにせよ、現状では拡散モデルはARモデルに代わる新アプローチという位置付けであり、直接的な組み合わせよりは競合する代替手法として注目されています ([2502.09992] Large Language Diffusion Models)。

BERTなど双方向モデルとの違い:
拡散型LLMはマスクを用いて双方向文脈から単語を推測する点で、BERTのような双方向マスクド言語モデルと似ています。しかし大きな違いはBERTが生成モデルではないのに対し、拡散型LLMは明確に生成モデルであることです。BERTは入力として与えられた文章の一部(15%程度)をマスクし、その正解を当てるよう訓練されますが、完全に新しい文章を生み出す目的では設計されていません。例えばBERTに全単語をマスクした入力を与えてもまともな出力は得られません。それに対し拡散型LLMは、徐々にマスクを埋めていく反復生成によって何も無いところから文章を作り出せます (Large Language Diffusion Models)。言い換えれば、BERTは与えられた文章の「穴埋め問題」の名人であり、dLLMは「白紙から文章を書く作家」です。またBERTは単一ステップ推論のため、生成の多様性を得るにはマスクのサンプリングを工夫するしかありませんが、dLLMは初期ノイズを乱数で与えることで出力にランダム性を持たせられます。さらにテキストインフィル(中間挿入)に関して、BERTは与えられた前後文脈から一度で穴埋めするだけですが、dLLMは何段階にもわたり前後文脈に適合する語句を調整できるため、長い挿入や複雑な修正にも強いと言えます ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。総じて、dLLMはBERTの双方向性とGPTの生成能力を併せ持つ存在ですが、それを支えるのが前述の拡散アルゴリズムであり、一度の推論で完結するBERTとは設計思想が大きく異なります。

GPT(自己回帰モデル)との違い:
GPTシリーズとの違いは多くが上述のARモデル一般との比較に含まれますが、特に生成制御と品質に関する点を補足します。GPTの自己回帰生成では、時に暴走的な繰り返し不適切な高確率語の連打といった問題が起こりうるため、ユーザ側で温度パラメータやサンプリング戦略を調整して出力を制御します。一方、拡散型LLMは出力確率分布そのものを段階的に洗練していくため、極端な出力になりにくい傾向があります ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。実験では、拡散モデルは温度を下げすぎなくても整合的な文章を生成でき、そのままでもGPT-2より低いパープレキシティ(高い尤度)を示しました ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)。またモード崩壊(多様性の欠如)についても、拡散型は初期ノイズを変えるだけで多彩な文章が得られるため、GPTでありがちな「一度決めた高確率パスに固執して他の可能性を無視する」という状況を避けられます。加えて、GPTが苦手とする一部タスクへの適性も報告されています。LLaDAの研究では、自己回帰モデルが不得意な逆順の詩の補完タスク(reversal curseと呼ばれる課題)でGPT-4を上回る成果を示したとのことです ([2502.09992] Large Language Diffusion Models)。これは、文章全体を見渡して同時生成するdLLMならではの強みが現れた一例といえます。反対に、GPT-4のように多くの知識を内包し汎用的な推論能力を身につけているかについては、拡散型の現時点のモデルでは未知数です (Inception LabsのMercury Coder:dLLMs)。知識の蓄積自体はパラメータ数とデータ量に依存するため、将来的に同等規模のデータで学習すれば同様の知識記憶は可能と思われますが、本当にGPT-4のような汎用AIに迫れるかは今後の検証待ちです (Inception LabsのMercury Coder:dLLMs)。このように、dLLMはGPT的手法の欠点を補う可能性を示しつつも、まだ新しく発展途中の技術として位置づけられます。

6. 実際の実装例(LLaDA、Mercuryのケーススタディ)

LLaDA (Large Language Diffusion Model):
LLaDAは2025年2月に発表された研究プロジェクトで、大規模拡散型言語モデルをゼロから訓練した初の事例の一つです (Large Language Diffusion Models)。中国のRenmin大学と企業(Ant Group)の研究者らによって提案され、パラメータ数約80億(8B)のモデルが構築されました (Large Language Diffusion Models)。このモデルはTransformerアーキテクチャに基づき、前述したマスク拡散による事前学習と、指示追従能力を付与するSFTによって鍛えられています ([2502.09992] Large Language Diffusion Models) ([2502.09992] Large Language Diffusion Models)。LLaDAの性能は驚くべきもので、同等規模の自己回帰モデルを上回り、LLaMA3 8Bなど既存の強力なLLMと肩を並べると報告されています (Large Language Diffusion Models) ([2502.09992] Large Language Diffusion Models)。特にイン-context学習(例示から文脈的にタスクをこなす能力)や、SFT後の対話応答能力で従来型と遜色ない結果を示し、拡散モデルでもチャットボット的な応用が可能であることを示しました ([2502.09992] Large Language Diffusion Models)。さらにLLaDAはScaling Law(スケーリング性)も確認されており、パラメータ数を増やすほど対数プロットでほぼ直線的に性能が向上し、自己回帰モデルのスケーリング曲線と競合する傾向が示されています (Large Language Diffusion Models)。これは将来的に更なる巨大モデルへの拡張可能性を示唆します。また、研究の中でLLaDAはオープンなデモや重み公開も行われました (LLaDA – Large Language Diffusion Model (weights + demo) : r/LocalLLaMA)。Hugging Face上で8Bモデルの事前学習版とInstruct微調整版が公開されており、誰でも推論を試せる環境が整っています (LLaDA – Large Language Diffusion Model (weights + demo) : r/LocalLLaMA)。ユーザからは「まるで映画『メッセージ』の異星人文字を書く様子を見ているようだ」と、その逐次洗練されていく出力表示に驚きの声も上がっています (LLaDA – Large Language Diffusion Model (weights + demo) : r/LocalLLaMA)。以上より、LLaDAは研究ベースの実装例として、拡散型LLMが実際に大規模モデルで機能し得ることを示した重要な成果です。

Mercury (Mercury Coder) – Inception Labs:
Mercuryはスタンフォード大学の教授陣を中心に設立されたスタートアップInception Labsが2025年2月に発表した商用志向の拡散型LLMです。世界初の実用規模dLLMと銘打たれており、特にコード生成に特化した「Mercury Coder」が最初のプロダクトとして公開されました (Inception LabsのMercury Coder:dLLMs)。Mercury Coderはプログラミング用途の最適化がされており、JavaScriptやPythonなど複数言語のコードを高速・高精度に生成できます (Inception LabsのMercury Coder:dLLMs)。Inception Labsによれば、そのコード生成品質はGPT-4やAnthropic Claudeなど従来の大規模モデルに引けを取らないレベルでありながら、推論レイテンシは大幅に短縮されているといいます (Inception LabsのMercury Coder:dLLMs)。実際、NVIDIA H100クラスのGPU上で1秒あたり1000トークン以上を生成でき、GPT-4等のTransformer型モデルより最大10倍速いと報告されています (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。この圧倒的な速度は、前述した非自己回帰並列生成と高度な最適化(カーネル並列化や低精度演算の活用など)の賜物です。また、MercuryはScore Entropy離散拡散(SEDD)の研究成果をいち早く取り入れており、離散データへの拡散適用を安定させる独自ノウハウを有しています (Inception LabsのMercury Coder:dLLMs)。その意味でMercury CoderはScore Entropyによる学術的ブレークスルーを商用スケールで実装・最適化した初の例と言えます (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)。実運用を見据えた工夫として、Mercuryは汎用GPUで動作するよう最適化されており、特殊ハードなしでも高性能を発揮します (Inception LabsのMercury Coder:dLLMs)。これにより推論コストの削減一台のサーバでより多くのユーザを同時処理といった利点が生まれ、商用サービスに適した設計になっています (Inception LabsのMercury Coder:dLLMs)。現にMercuryは企業向けのクローズドβテストも進行中で、API提供やオンプレミス導入も視野に入れているとのことです (Inception LabsのMercury Coder:dLLMs)。将来的な展望として、コード以外にチャット対話や長文生成向けのモデルも準備中であり、幅広い応用が期待されています (Inception LabsのMercury Coder:dLLMs)。さらにモデルの小型化によってスマートフォンやノートPC上(エッジデバイス)でも動作可能にする研究も進められており、実現すればネット接続なしで動く高度なAIアシスタントが誕生する可能性があります (Inception LabsのMercury Coder:dLLMs)。Mercuryプロジェクトは、拡散モデルでテキスト生成を行う新アプローチを世界で初めて商用規模で実装した挑戦的プロジェクトであり (Inception LabsのMercury Coder:dLLMs)、既に多くの企業がその技術採用を検討していると伝えられています (Inception LabsのMercury Coder:dLLMs)。従来のLLMにはない高速性と柔軟な訂正能力を武器に、今後コード生成やチャットアシスタントなど様々な分野で活躍が期待されるでしょう (Inception LabsのMercury Coder:dLLMs)。

その他の動向:
拡散型LLMは2024年頃から台頭し始めた新領域であり、上記以外にも研究・実装が進みつつあります。例えばStanfordのSEDD論文 ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)はICML 2024でオーラル発表となり、そのコードが公開 ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)されるなど、学術コミュニティでも注目度が増しています。またDiffusion-LMと称してテキストへの拡散適用を試みた先行研究(D3PM (Large Language Diffusion Models)やDiffusion-LM, RePaint など)もあり、これらの知見が今後統合・発展していく可能性があります。さらに、MetaやGoogleなど大型言語モデルを開発する組織がこのアプローチに興味を示す可能性もあります。現時点でdLLMはTransformer+自己回帰というデファクト標準に挑むオルタナティブですが、LLaDAやMercuryの成功により「拡散による言語生成は実用に足りうる」との見方が強まっています ([2502.09992] Large Language Diffusion Models)。もっとも、まだ黎明期ゆえの課題も残ります。Mercuryのケースでも言及されたように、常識的推論や大規模な知識注入が必要なタスクでどこまで通用するか、モデルをさらに巨大化したときの安定性など未知数な点があります (Inception LabsのMercury Coder:dLLMs)。しかしこれらは時間と共に解消されていく可能性が高く、拡散型LLMは自己回帰型LLMに次ぐ第二の潮流として今後ますます研究・開発が盛んになると予想されます。実際、Inception Labsは「拡散モデルがAIの新たな可能性を切り開く」と強気に発信しており (Inception LabsのMercury Coder:dLLMs)、コミュニティでもdLLMに注目していこうという機運が高まっています (Inception LabsのMercury Coder:dLLMs)。私たちも今後の進展を注視しつつ、従来技術との融合や応用分野の拡大に期待しましょう。

参考文献・情報源: 本レポートでは、拡散型LLMに関する最新の研究論文(LLaDA論文 ([2502.09992] Large Language Diffusion Models)やScore Entropy論文 ([2310.16834] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution)等)、技術ブログ記事 (Researchers at Stanford Introduce Score Entropy Discrete Diffusion (SEDD): A Machine Learning Model that Challenges the Autoregressive Language Paradigm and Beats GPT-2 on Perplexity and Quality – i-genie.co.uk)、ならびに実装例に関する解説記事 (Inception LabsのMercury Coder:dLLMs) (Inception LabsのMercury Coder:dLLMs)を参照し、アーキテクチャからアルゴリズム、性能特性まで詳細に分析しました。