拡散型大規模言語モデル(Diffusion Large Language Model)の基本概念と技術的背景

拡散型大規模言語モデル(Diffusion Large Language Model, 略称: dLLM)とは、従来主流である自己回帰型(autoregressive)モデルとは異なるアプローチでテキストを生成する大規模言語モデルの一種です (拡散言語モデル Mercuryとは|じろう)。自己回帰型モデル(GPTシリーズなど)は文章を左から右へ1トークンずつ順番に予測生成しますが、拡散型モデルではノイズだらけの状態から徐々に情報を付加・精緻化していくことによって最終的なテキストを得ます (拡散言語モデル Mercuryとは|じろう) (Inception LabsのMercury Coder:dLLMs)。直感的には、ぼんやりとした下書き(ノイズ)から出発し、少しずつ単語を埋めていって文章を完成させるイメージです (Inception LabsのMercury Coder:dLLMs)。この手法は画像生成AI(例えばStable Diffusionなど)で確立された拡散モデル(diffusion model)の考え方をテキスト生成に応用したものです (拡散言語モデル Mercuryとは|じろう)。

拡散モデルの基本原理は**「徐々にノイズを取り除いて目的のデータを生成する」ことにあります。例えば画像分野では、ランダムなノイズ画像からスタートして、拡散モデルがステップごとにノイズを減らしながら鮮明な画像を生成します(下図参照) (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。これはネットワークがノイズを消去しつつデータの特徴を浮かび上がらせるプロセス**と捉えることができます。

(Large Language Diffusion Models: The Era Of Diffusion LLMs?) ※ノイズだらけの画像(左端)から拡散モデルが段階的にノイズを除去し、最終的に鮮明な猫の画像(右端)を生成するイメージ (Large Language Diffusion Models: The Era Of Diffusion LLMs?)

言語の生成においても、拡散型LLMは初めは無意味なノイズに相当する初期テキストから出発します。ただし画像のようなピクセルノイズではなく、テキストの場合は「無意味なトークン列」や「マスクされた単語列」として表現された初期状態を用います (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。そこから徐々にトークン(単語や記号の単位)の予測を繰り返し、テキスト全体を洗練させていくのです (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。このプロセスでは各ステップで文章全体を見渡し、まだ不確定な部分(ノイズに相当するマスクや不適切な単語)を少しずつ確定させていきます。最終的なステップでは、すべてのトークンが適切に生成され、意味の通る文章が完成します (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。

拡散型LLMのアプローチは、**「粗いものから細かいものへ(coarse-to-fine)」**という生成プロセスとも表現されています (ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 – GIGAZINE)。これは、まず文章全体の大まかな骨子(下書き)を用意し、それを繰り返し推敲することで徐々に詳細で一貫性のあるテキストに仕上げる流れです。この点で、従来型の「一度決定した単語は後から変更できない」自己回帰モデルとは異なり、途中で文章全体を見直して内容を修正できる柔軟性があります (Inception LabsのMercury Coder:dLLMs)。実際、拡散モデルでは各ステップで全文を再評価してノイズを除去・単語を更新していくため、途中で生じた矛盾を解消しやすく、一貫した出力を得やすいとされています (Inception LabsのMercury Coder:dLLMs)。例えば自己回帰型モデルでは文章の後半で矛盾が生じても前半に遡って修正できませんが、拡散型モデルなら生成過程で全体を調整しながら整合性を取ることが可能です (Inception LabsのMercury Coder:dLLMs)。この特徴は、長文生成や複雑な論理展開が必要なタスクで品質向上に寄与すると期待されています。

技術的背景: 拡散モデル自体は近年画像・音声など連続データの生成で大きな成功を収めてきましたが、テキストのような離散データへの適用は長らく難題とされてきました (Inception LabsのMercury Coder:dLLMs)。画像ではピクセル値を連続的にノイズ化・復元できますが、言語は単語や記号といった離散単位で構成されるため、同じ手法を直接適用すると不都合が生じます (Inception LabsのMercury Coder:dLLMs)。例えばランダムな単語列を徐々に正しい文章に変換するような枠組みには、離散空間上でのノイズ付加/除去の定義が必要です。この課題に対し、研究者たちは離散トークンを連続ベクトル表現に埋め込んで拡散させる手法や、マスク(伏せ字)を徐々に解除していく手法などを模索してきました (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。実際、2022年頃にはLiらによる「Diffusion-LM」と呼ばれる試みが登場し、単語埋め込み空間で連続的にノイズを加減することでテキストを生成するモデルが提案されています(※Diffusion-LMは制御可能なテキスト生成を改善する研究 (Diffusion-LM Improves Controllable Text Generation – arXiv))。しかし当時のモデル規模は小さく、自己回帰型モデルほどの流暢さや汎用性には達しませんでした。

その後、大規模言語モデルの学習パラダイム(事前学習+指示調整)と拡散モデルを組み合わせたアプローチが登場します。それが2025年に発表されたLLaDALarge Language Diffusion with mAsking)と呼ばれる研究です ([2502.09992] Large Language Diffusion Models) (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。LLaDAは80億パラメータ規模の拡散モデルをゼロから学習し、大規模コーパスでの事前学習と人間によるフィードバック調整(SFT: 教師あり微調整)を経て、高度な言語能力を獲得したことを示しました (Large Language Diffusion Models: The Era Of Diffusion LLMs?) (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。LLaDAでは前方向のノイズ付加を「データのマスキング」として実現し、逆方向の生成過程でマスクされたトークンを推定していくという巧妙な手法を取っています (Large Language Diffusion Models)。すなわち、学習時には文章中の一定割合の単語をランダムにマスク(伏せ字)し、それを復元させるタスクでモデルを訓練します (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。このマスキング率を連続値$t$で表し、$t=1.0$は全単語マスク(最大ノイズ)、$t=0.0$はマスクなし(完全な文)とみなして、$t$を徐々に下げることが拡散過程(ノイズ除去過程)に相当するよう設計されました (Large Language Diffusion Models)。その結果、LLaDAは自己回帰型の同規模モデルに匹敵する性能を達成し、80億パラメータ版では同規模のLLaMA 3(Meta社の次世代モデル)に匹敵、ベンチマークによっては上回る結果を示しています ([2502.09992] Large Language Diffusion Models) (Large Language Diffusion Models: The Era Of Diffusion LLMs?)。特に与えられた文脈から適切に応答を生成するインコンテキスト学習能力や、ユーザ指示に従った命令遂行能力において、従来の自己回帰型LLMと遜色ないことが報告されました ([2502.09992] Large Language Diffusion Models)。

拡散型LLMの研究の成功を受け、2025年には商用分野でもこの技術が注目され始めます。スタンフォード大学のStefano Ermon教授らが設立したスタートアップ企業Inception Labsは、世界初の商用レベル拡散LLMである**「Mercury」を発表しました (拡散言語モデル Mercuryとは|じろう)。特にプログラミング支援に特化した派生モデルMercury Coderでは、そのテキスト生成速度の速さが大きな話題を呼んでいます。Inception Labsによれば、MercuryはNVIDIA H100クラスのGPU上で1秒あたり1000トークン以上を生成可能で、GPT-4など従来のTransformer型モデルよりも最大10倍高速だと報告されています (Inception LabsのMercury Coder:dLLMs)。この驚異的な速度は、前述の並列的なノイズ除去ステップによる生成**(全トークンを同時並行で更新するプロセス)によって実現されています (ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 – GIGAZINE)。実際、Mercury Coderはあるプログラミング課題に対し約6秒で回答を生成したのに対し、同じ課題でClaude(Anthropic社のモデル)は28秒、ChatGPT(GPT-3.5ベースモデル)は36秒要したという比較結果もあります (ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 – GIGAZINE)。このように拡散型LLMは大幅な生成速度の向上をもたらす可能性が示唆されているのです。

一方で、拡散型LLMは単に速いだけでなく、新たな品質面での長所も期待されています。Inception Labsは「拡散モデルは以前の出力に制約されず回答を構成でき、途中で出力を洗練し誤りを修正できる」と述べており (ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 – GIGAZINE)、拡散型モデルの持つ自己修正能力創出過程の柔軟性に言及しています。また、拡散モデルの特性上、従来は苦手とされた逆方向の推論や生成(例えば詩の最後の行から冒頭を推測する、といったタスク)にも強みを示せる可能性があります (Large Language Diffusion Models: The Era Of Diffusion LLMs?) ([2502.09992] Large Language Diffusion Models)。実際LLaDAの研究では、与えられた詩の最後の一行から前の行を生成する「リバーサル詩生成」タスクでGPT-4を上回る性能を示し、自己回帰モデルが陥りがちな**「逆方向の呪い(reversal curse)」**を克服できることが報告されています ([2502.09992] Large Language Diffusion Models)。これは、左から右への一方向予測に依存しない拡散モデルならではの芸当と言えるでしょう。

以上のように、拡散型大規模言語モデルは生成アプローチの新たなパラダイムとして台頭してきました。自己回帰型モデルが長年支配的であった言語モデルの分野で、拡散モデルは速度面・品質面の両方で革新的な可能性を示しています。次章では、拡散型モデルと自己回帰型モデルの根本的な違いについて、さらに踏み込んで解説します (拡散言語モデル Mercuryとは|じろう) (Inception LabsのMercury Coder:dLLMs)。拡散モデルならではの特徴を理解することで、この新技術のインパクトをより明確に把握できるでしょう。

参考文献・情報源: 拡散型LLMの概念と背景については、Inception LabsのMercury発表 (拡散言語モデル Mercuryとは|じろう)や技術解説記事 (Inception LabsのMercury Coder:dLLMs) (ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 – GIGAZINE)、研究論文 ([2502.09992] Large Language Diffusion Models)などを参照しました。特にLLaDA論文 ([2502.09992] Large Language Diffusion Models)は拡散モデルを言語領域に適用する具体的な手法と有望な結果を示しており、本レポートの議論の土台としています。