拡散モデルにおける推論過程

序論

近年、生成AIの分野では拡散モデル(Diffusion Model)が新たなパラダイムを確立し、特に画像合成の領域において、従来の生成的敵対的ネットワーク(GAN)や変分オートエンコーダ(VAE)を凌駕する品質と多様性を実現している 1。この成功の根底には、非平衡統計物理学に着想を得た、ユニークで反復的な生成プロセスが存在する 5

本レポートが分析の対象とする「推論(inference)」あるいは「生成(generation)」過程は、拡散モデルにおける**逆拡散過程(reverse diffusion process)**と同義である。この過程は、純粋なノイズからデータを再構築する、モデルの合成能力の中核をなす機構であり、本分析の中心的テーマとなる 7

しかし、この推論過程には根本的なトレードオフが内在する。生成されるサンプルの卓越した品質と多様性は、膨大な計算コストと遅いサンプリング速度という代償を伴う 1。この課題こそが、拡散モデルの分野における技術革新を牽引する主要な原動力となってきた。

本レポートでは、まず逆拡散過程を支える数学的・アーキテクチャ的基盤を解き明かし、次に生成されるアウトプットの定性的・性能的特性を分析する。さらに、その内在的な限界を克服するために開発された先進的な技術群を深く掘り下げ、最後に他のモデルとの包括的な比較と広範な応用事例を概観することで、拡散モデルの推論過程に関する多角的な理解を提供する。


第1章:推論過程の基本機構:ノイズからの復元

拡散モデルの推論過程、すなわち逆拡散過程は、ノイズから構造化されたデータを段階的に復元する洗練されたプロセスである。本章では、その概念的枠組み、数学的基盤、そしてそれを実現するニューラルネットワークアーキテクチャを詳述する。

1.1. 概念的枠組み:反復的デノイジング

拡散モデルの推論は、あらかじめ定義された固定の**順拡散過程(forward diffusion process)**を学習によって逆行させることに基づいている 7。順拡散過程では、クリーンなデータ(例:画像

x0​)に複数ステップ(T ステップ)をかけてガウスノイズを段階的に付加し、最終的に純粋なノイズ(xT​)へと構造を破壊する 9

推論段階である逆拡散過程は、このプロセスを逆転させる。まず、標準ガウス分布のような単純な事前分布からノイズサンプル(xT​∼N(0,I))を生成し、学習済みのモデルを用いてステップごとにノイズを少しずつ除去していくことで、最終的にクリーンなデータサンプル(x0​)を生成する 8。各ステップはデータをわずかにノイズの少ない、より構造化された状態へと洗練させる 17

この段階的かつ反復的な精密化こそが、拡散モデルの際立った特徴である。GANが一回の順伝播で画像を生成するのとは対照的に、拡散モデルは画像を漸進的に構築していく。このアプローチが、生成されるサンプルの高い忠実度(fidelity)の根源となっている 7

1.2. 数学的基盤:逆マルコフ連鎖

逆拡散過程は、あるステップ t−1 の状態が直前のステップ t の状態にのみ依存するマルコフ連鎖としてモデル化される 1。この遷移確率は

pθ​(xt−1​∣xt​) と表される。この遷移はガウス分布であると仮定され、次のように定義される 5

pθ​(xt−1​∣xt​)=N(xt−1​;μθ​(xt​,t),Σθ​(xt​,t))

モデルの学習タスクは、各時間ステップ t におけるこのガウス分布のパラメータ、すなわち平均 μθ​ と分散 Σθ​ を学習することである。

学習の目的関数は、データ対数尤度の変分下限(ELBO)を最大化することから導出される 12。Denoising Diffusion Probabilistic Models (DDPM) の論文で示された重要な単純化は、平均

μθ​ を直接予測する代わりに、ノイズが付加された画像 xt​ から、元のクリーンな画像 x0​ に付加されたノイズ ϵ を予測するモデル ϵθ​(xt​,t) を学習する方が効果的であるという発見であった 12。この再パラメータ化により、損失関数は真のノイズと予測されたノイズの間の単純な平均二乗誤差(MSE)に単純化される 15

L=∣∣ϵ−ϵθ​(xt​,t)∣∣2

このアプローチは、生成モデルの学習という抽象的な問題を、ノイズの多い画像からノイズベクトルを予測するという具体的な教師あり回帰タスクに変換する。この変換こそが、GANの不安定なミニマックスゲームとは対照的に、拡散モデルの学習が非常に安定している根源的な理由である 1。推論過程は、この安定した学習によって得られた単純なデノイザーを反復的に適用することで、その高品質な結果を創出するのである。

1.3. ノイズ予測モデル:U-Netアーキテクチャ

ノイズ ϵ を予測するニューラルネットワーク ϵθ​ には、ほぼ例外なくU-Netアーキテクチャまたはその派生形が採用される 1。U-Netは、入力と出力の次元が同じ(画像様のテンソル)であるため、このタスクに非常に適している 12

U-Netは、エンコーダ(ダウンサンプリング経路)、ボトルネック、デコーダ(アップサンプリング経路)から構成される 13

  • エンコーダ: 入力されたノイズ画像を段階的にダウンサンプリングし、空間的解像度を下げながら特徴マップのチャネル数を増やす。これにより、画像のグローバルな文脈情報を捉える。通常、ResNetブロックやアテンション機構が組み込まれている 15
  • デコーダ: 段階的にアップサンプリングを行い、空間的解像度を上げながらノイズ除去後の画像を再構築する。
  • スキップコネクション: U-Netの最も重要な特徴は、エンコーダの各層からデコーダの対応する層へと直接特徴マップを渡す「スキップコネクション」である。これにより、ダウンサンプリング過程で失われがちな高周波の微細なディテール(テクスチャやエッジなど)がデコーダに供給され、鮮明な画像の再構築が可能となる。また、学習時の勾配の流れを改善する効果もある 15

このアーキテクチャは、デノイジングというタスクに本質的に適合している。エンコーダが「これは猫の画像である」といった大域的な意味情報を捉え、スキップコネクションが「猫の毛皮はこのような質感を持つ」といった局所的な詳細情報を保持・伝達する。推論過程における各ステップでの高品質なノイズ除去は、このU-Netの構造的な能力によって支えられているのである。

さらに、モデルのパラメータは全ての時間ステップ t で共有されるため、ネットワークに現在のノイズレベルを伝える必要がある。このために、時間ステップ t は時間埋め込み(time embedding)(通常はsinusoidal position embedding)に変換され、U-Net内の各ResNetブロックに供給される。これにより、ネットワークはデノイジング処理を特定のノイズレベルに応じて条件付けすることが可能となる 13


第2章:生成的アウトプットの定性的特徴

拡散モデルの推論過程が生み出すアウトプットは、その品質と多様性において高く評価されている。本章では、その定性的な特徴と、それを可能にする機構的背景を分析する。

2.1. 高い忠実度と品質:リアリズムの追求

拡散モデルは、画像、音声、その他のモダリティにおいて、非常に高品質でリアル、かつ詳細なデータを生成することで知られている 1。生成された画像はしばしばフォトリアリスティックであり、本物の写真と見分けがつかないレベルに達することもある 7

この高い忠実度の主な理由は、前述の段階的な精密化プロセスにある。一度に大きな変換を行うのではなく、多数の小さな調整(デノイジングステップ)を積み重ねることで、一度の生成ステップで発生しうる大きな誤差を回避する。これにより、微細なディテールや複雑なテクスチャを丹念に構築することが可能となる 7。これは、しばしば出力がぼやけがちなVAEや、シャープでありながらも不自然なアーティファクトを生成することがあるGANとの明確な違いである 3

2.2. 多様性の確保とモード崩壊の克服

**モード崩壊(Mode Collapse)**は、GANにおける深刻な失敗モードであり、生成器(Generator)が識別器(Discriminator)を騙しやすい限られた種類のサンプルのみを生成するようになり、訓練データの多様性を完全に捉えきれなくなる現象である 1

拡散モデルは、このモード崩壊に対して本質的に頑健である 1。この頑健性は、いくつかの要因に起因する。

  • 安定した学習目的: 学習プロセスに敵対的な力学が含まれていない。モデルは安定した目的関数(例:MSE損失)で学習されるため、生成器が特定の「騙しやすい」モードに固執することがない 7
  • 確率的な出発点: 推論プロセスはランダムにサンプリングされたノイズベクトル xT​ から開始される。異なる初期ノイズベクトルは自然に異なる最終出力を導き、多様性を促進する 7
  • 分布全体の被覆: 学習目的は、モデルがデータ分布全体を学習することを奨励する。順拡散過程により、モデルはあらゆるノイズレベルでデータ多様体上のあらゆる部分からのサンプルに触れるため、生成しやすいモードだけでなく、分布全体を捉えることが可能となる 1

品質と多様性は、拡散モデルの反復的プロセスという同一の機構から生じる、表裏一体の特性である。GANにおいて、生成器の目標は識別器を騙すという一点に絞られる。もし識別器の知識に「穴」(偽物と見抜けないモード)を見つければ、生成器はその近道を利用し、結果としてモード崩壊に至る 11。一方、拡散モデルには騙すべき敵が存在しない。各ステップでのモデルの目標は、与えられた

xt​ に対して最も正確なノイズ予測を行うことであり、そこに近道はない 12。このため、モデルはノイズからデータへの包括的なマッピングを学習せざるを得ず、推論時にはノイズ空間の異なる出発点がデータ多様体上の異なる多様な点へと到達する。この物理プロセスを逆行させるようなアプローチこそが、GANのゲームに勝つアプローチとの根本的な違いであり、品質と多様性の両方で優位に立つ理由である。


第3章:推論過程の性能特性と制御性

本章では、推論を実行する上での実践的な側面、すなわち計算コスト、速度、そして出力を制御するための主要なメカニズムを検証する。

3.1. 計算コストと推論速度:アキレス腱

拡散モデルの推論過程における最大の欠点はその速度である。単一のサンプルを生成するために、巨大なU-Netモデルを数百から数千回も連続して通過させる必要があり、計算コストが非常に高く、処理が遅い 1。この反復的な性質は、標準的なDDPMではリアルタイム生成を困難にする 7。推論ステップ数(

T)を減らすと生成は高速化するが、一般的にサンプル品質は低下するという直接的なトレードオフが存在し、近年の研究の多くはこのトレードオフの緩和に焦点を当ててきた 5

3.2. 生成プロセスの制御:Classifier-Free Guidance (CFG)

テキストから画像を生成するような条件付き生成では、デノイジング過程を目的の条件(例:テキストプロンプト)に沿うように誘導するメカニズムが必要となる。この目的のために現在主流となっている技術が**Classifier-Free Guidance (CFG)**である 26

CFGは、別の分類器モデルを必要とせずに機能する 28。学習時、モデルは条件付き(例:テキストプロンプトあり)と無条件(例:テキストプロンプトなし)の両方の設定でランダムに訓練される。推論時には、各ステップでU-Netが2回の順伝播を実行する。一つは条件付きのノイズ予測(

ϵcond​)、もう一つは無条件のノイズ予測(ϵuncond​)である。

最終的なノイズ予測は、無条件予測を条件付き予測の方向に外挿することで計算される 30

ϵfinal​=ϵuncond​+w⋅(ϵcond​−ϵuncond​)

ここで、w は**ガイダンススケール(guidance scale)**と呼ばれる。このパラメータは誘導の強さを制御する重要なハイパーパラメータである。

  • 高い w: 出力はプロンプトに厳密に従うようになるが、彩度の飽和、アーティファクトの発生、多様性の低下などを引き起こす可能性がある 27
  • 低い w: モデルにより創造的な自由を与え、より多様で写実的な画像を生成できる可能性があるが、プロンプトの一部を無視することがある 27

したがって、w はプロンプトへの忠実度サンプル品質・多様性との間のトレードオフを調整する役割を担う 26。このCFGの式における差分項

(ϵcond​−ϵuncond​) は、高次元のノイズ空間において、「一般的な画像」から「目的の属性を持つ画像」へと向かう「意味的ベクトル」として解釈できる。ガイダンススケール w は、この意味的な方向に沿って進むステップの大きさを決定する。この解釈は、なぜwがトレードオフを生み出すのか、またなぜネガティブプロンプトが機能するのか(望ましくない意味ベクトルから離れる方向に進むため)を直感的に説明するものである 29

3.3. その他の制御要素

  • ノイズスケジューラ: 順拡散過程で使用される分散スケジュール (βt​) は、推論時のデノイジング経路を決定し、最終的なサンプル品質に影響を与える。線形やコサインといったスケジューラの選択は重要であり、特にコサインスケジュールはサンプル品質を向上させるためによく用いられる 5
  • シード: 初期ノイズベクトル xT​ はシード値によって制御できる。同じプロンプトとパラメータで同じシードを使用すると、常に同じ画像が生成され、再現性が確保される 25

第4章:推論の高速化と効率化:先進的サンプリング手法

推論速度の遅さという課題に対処し、拡散モデルを実用的なものにした重要な技術革新について詳述する。

4.1. DDIM:非マルコフ過程による高速サンプリング

Denoising Diffusion Implicit Models (DDIMs) は、モデルを再学習することなくサンプリングを大幅に高速化する画期的な手法である 33。DDIMは、元のDDPMと同じ学習目的関数を導く、より一般的な

非マルコフ的な順拡散過程を定義することでこれを達成する 33

DDPMの学習目的は周辺分布 q(xt​∣x0​) にのみ依存するため、DDIMは異なる同時分布(非マルコフ的なもの)を利用できる。この新しい過程により、逆過程では元のTステップのシーケンスの多くをスキップする、より大きな「ジャンプ」が可能になる 7。例えば、1000ステップのプロセスを50ステップや20ステップで実行できる。

DDIMの重要な特徴は、確率性を制御するパラメータ σ をゼロに設定することで、サンプリングプロセスが完全に決定的になる点である 35。これにより、同じ初期ノイズ

xT​ は常に同じ最終画像 x0​ を生成する。この決定性は、確率的なDDPMサンプラでは不可能な、潜在空間での意味のある画像補間などの応用を可能にする 35

4.2. 知識蒸留による高速化

知識蒸留(Knowledge Distillation, KD)は、より小さな「生徒」モデルが、より大きな事前学習済み「教師」モデルの出力を模倣するように学習するモデル圧縮技術である 37。拡散モデルの文脈では、非常に少ないステップで高品質なサンプルを生成できる生徒モデルを作成することが目的となる。

プログレッシブ蒸留(Progressive Distillation)は、このための強力な手法である 40。これは反復的なプロセスであり、各ステージで、生徒モデルは教師モデルの

2ステップの結果を1ステップで再現するように学習する 40。学習が完了した生徒モデルは、次のステージの教師モデルとなる。このプロセスを繰り返すことで、必要なサンプリングステップ数を反復ごとに半減させることができる(例:1024 → 512 →… → 4 → 2 → 1) 40。これにより、わずか1~4ステップで非常に高品質な画像を生成するモデルを作成でき、最大で256倍もの大幅な高速化が達成される 41

4.3. 潜在拡散:圧縮空間での効率化

Stable Diffusionのような人気モデルの基盤となっている潜在拡散モデル(Latent Diffusion Models, LDM)は、拡散アルゴリズム自体ではなく、それが動作する空間を変更することで効率を達成する 45

LDMは事前学習済みの**変分オートエンコーダ(VAE)**を利用する。

  1. 圧縮: VAEのエンコーダがまず、高解像度の画像をピクセル空間(例:512x512x3)から、はるかに小さい低次元の潜在空間(例:64x64x4)に圧縮する 47
  2. 潜在空間での拡散: 反復的なデノイジングプロセス全体(U-Net)が、この計算コストの低い潜在空間で実行される 46
  3. 解凍: デノイジングが完了した後、VAEのデコーダが最終的なクリーンな潜在表現を、完全な解像度のピクセル空間画像に変換して戻す 47

このアプローチにより、U-Netの計算コストとメモリ要件が劇的に削減され、非常に強力なモデルをコンシューマ向けハードウェアで訓練・実行することが可能になった 45

これらの高速化技術は、非効率性という共通の課題に対して、それぞれ異なる角度からアプローチしている。DDIMはアルゴリズム的な最適化、LDMはドメインの圧縮、そして知識蒸留はモデル自体の圧縮であり、これらはしばしば組み合わせて使用される。例えば、Stable DiffusionはLDMであり、DDIM様のサンプラでサンプリングされ、さらにその蒸留版も存在する。これは、中核的なボトルネックを解決するための洗練された多層的なエンジニアリングアプローチを示している。


第5章:包括的比較と応用

本章では、拡散モデルを主要な競合であるGANと比較し、その広範な応用分野を概観することで、これまでの分析を総括する。

5.1. GANとの比較分析

拡散モデルとGANは、現代の画像生成における二大潮流であるが、その推論・生成過程には顕著な違いがある。以下の表は、その特性を比較したものである。

特性拡散モデル (Diffusion Model)生成的敵対的ネットワーク (GAN)
出力の品質・忠実度非常に高く、アーティファクトが少ない。段階的な精密化により、フォトリアリスティックなディテールを構築 1シャープで高品質な画像を生成できるが、学習の不安定さから不自然なアーティファクトが生じることがある 4
出力の多様性・モード崩壊リスクモード崩壊に対して非常に頑健。安定した学習と確率的な開始点により、データ分布全体を捉え、多様な出力を生成 1モード崩壊が頻繁に発生する。生成器が識別器を騙しやすい限られたモードに固執し、出力の多様性が失われることがある 3
推論速度基本的に非常に遅い(数百~数千ステップ)。DDIM、LDM、知識蒸留などの高速化技術により大幅に改善されるが、リアルタイム応用ではGANが依然として優位な場合が多い 7非常に高速。単一の順伝播で画像を生成するため、リアルタイム生成に適している 3
学習の安定性非常に安定している。明確で安定した目的関数(例:MSE損失)を持つため、学習の収束が容易 1不安定。生成器と識別器の間の繊細なミニマックスゲームであり、学習のバランスを取るのが難しく、収束しないことがある 11
制御性・ガイダンス高度に制御可能。特にClassifier-Free Guidance (CFG) により、テキストプロンプトへの忠実度を柔軟に調整できる 26高度に制御可能。潜在空間(特にStyleGANなど)がよく研究されており、意味的な操作が可能。
中核的な生成機構反復的なデノイジング。ノイズを段階的に除去し、物理プロセスを逆行させるようにデータを再構築する 7敵対的学習。生成器が識別器を騙すことを目指すゲーム理論的なアプローチで、一気に画像を生成する 21

5.2. 拡散モデル推論の多様な応用

拡散モデルの強力かつ制御可能な推論プロセスは、単純な画像生成を超えて、多岐にわたる応用を可能にしている。

  • 画像合成: テキストプロンプト(text-to-image)やその他の条件から、高品質で新規性のある画像を生成する 1
  • 画像編集・操作:
  • インペインティング: 画像の欠損部分やマスクされた領域を自然に補完する 13
  • アウトペインティング: 画像を元の境界の外側に拡張し、連続性のあるより大きな画像を生成する 13
  • 画像対画像変換: プロンプトに基づき、画像のスタイルや属性を変更する(例:写真を絵画風に変換) 49
  • データ拡張と修復:
  • 超解像: 低品質な画像の解像度を向上させる 16
  • ノイズ除去: モデルの中核能力を直接利用し、破損した画像を修復する 18
  • 他ドメインへの展開: 同様の原理が、以下のような分野でも成功を収めている。
  • 音声合成: リアルな音声や音楽を生成する 1
  • 動画生成: 一貫性のある動画シーケンスを作成する 9
  • 科学応用: 3D構造、分子設計、医療画像生成など 1
  • 異常検知: 入力データの再構成誤差を測定することで、製造業における部品の欠陥など、データ内の異常を検出するために使用できる 52

結論

本分析により、拡散モデルの推論過程が持つ二面性が明らかになった。その根幹をなす反復的かつ数学的に原理付けられたデノイジング機構は、比類なき出力品質と多様性を生み出す一方で、高い計算レイテンシという代償を伴う。

しかし、この分野の技術革新の軌跡は、この速度のボトルネックを体系的に克服してきた歴史でもある。DDIMのアルゴリズム的洗練、潜在拡散のドメイン効率化、そして知識蒸留によるモデル圧縮といった一連の概念的ブレークスルーは、理論的可能性から実用的かつ民主化された能力への明確な進化の道筋を示している。

今後の展望として、さらなる効率化、より高度な制御性(例:動的CFGスケジューリング)、潜在空間の解釈可能性の向上 53、そして科学や創造性のより複雑な領域への拡散原理の継続的な拡大が期待される。推論過程の継続的な洗練こそが、次世代の生成AI能力を解き放つ鍵となるであろう。

引用文献

  1. The Power of Diffusion Models in AI: A Comprehensive Guide – Kanerika https://kanerika.com/blogs/diffusion-models/
  2. 拡散モデル サポートページ – 岡野原 大輔 https://hillbig.github.io/diffusion-models/
  3. How does a diffusion model compare with GANs and VAEs? – Milvus https://milvus.io/ai-quick-reference/how-does-a-diffusion-model-compare-with-gans-and-vaes
  4. Comparing Diffusion, GAN, and VAE Techniques – Generative AI Lab https://generativeailab.org/l/generative-ai/a-tale-of-three-generative-models-comparing-diffusion-gan-and-vae-techniques/569/
  5. Step by Step visual introduction to Diffusion Models. – Blog by Kemal Erdem https://erdem.pl/2023/11/step-by-step-visual-introduction-to-diffusion-models/
  6. Diffusion Modelを理解したい。 – Zenn https://zenn.dev/derbuihan/scraps/fc4fa617d8ccc1
  7. 【入門】拡散モデルとは?仕組み・4つの種類・他モデルとの違いをわかりやすく解説 – メディアGAI https://inc-bb.jp/diffusion-model/
  8. Diffusionモデル(拡散モデル)とは?その仕組みや実装方法、活用事例を解説 https://www.ai-souken.com/article/what-is-diffusion-model
  9. Introduction to Diffusion Models for Machine Learning | SuperAnnotate https://www.superannotate.com/blog/diffusion-models
  10. 拡散モデルとは – IBM https://www.ibm.com/jp-ja/think/topics/diffusion-models
  11. GANs or Diffusion Models: Key Differences Explained – DhiWise https://www.dhiwise.com/post/gan-vs-diffusion-model
  12. Introduction to Diffusion Models for Machine Learning – AssemblyAI https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction
  13. An Introduction to Diffusion Models and Stable Diffusion – Marvik – Blog https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/
  14. 拡散モデルの基礎と研究事例: Imagen #機械学習 – Qiita https://qiita.com/iitachi_tdse/items/6cdd706efd0005c4a14a
  15. The Annotated Diffusion Model – Hugging Face https://huggingface.co/blog/annotated-diffusion
  16. What constitutes the reverse diffusion process? – Milvus https://milvus.io/ai-quick-reference/what-constitutes-the-reverse-diffusion-process
  17. What is the Reverse Diffusion Process? – Analytics Vidhya https://www.analyticsvidhya.com/blog/2024/07/reverse-diffusion-process/
  18. Diffusion Model: A Comprehensive Guide With Example – Webisoft https://webisoft.com/articles/diffusion-model/
  19. 拡散モデルの原理紹介 – Speaker Deck https://speakerdeck.com/brainpadpr/kuo-san-moderunoyuan-li-shao-jie
  20. Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion – arXiv https://arxiv.org/html/2408.08751v1
  21. GANs vs Diffusion Generative AI Comparison | SabrePC Blog https://www.sabrepc.com/blog/Deep-Learning-and-AI/gans-vs-diffusion-models
  22. Unveiling the Battle: GAN vs Diffusion Model – Toolify.ai https://www.toolify.ai/gpts/unveiling-the-battle-gan-vs-diffusion-model-136550
  23. GANs vs. Diffusion Models: Putting AI to the test | Aurora Solar https://aurorasolar.com/blog/putting-ai-to-the-test-generative-adversarial-networks-vs-diffusion-models/
  24. Diffusion model(拡散モデル)とは?仕組み、GANやVAEとの違い、企業導入メリット – AI Market https://ai-market.jp/technology/diffusion-model/
  25. What is Inference Steps? | Guide https://stablecog.com/guide/generation-settings/inference-steps
  26. Classifier-free Guidance with Adaptive Scaling – arXiv https://arxiv.org/html/2502.10574v1
  27. Analysis of Classifier-Free Guidance Weight Schedulers – arXiv https://arxiv.org/html/2404.13040v1
  28. 【論文解説】OpenAI 『GLIDE』を理解する | 楽しみながら学ぶ AI 入門 https://data-analytics.fun/2022/02/13/openai-glide/
  29. 【論文メモ】CLASSIFIER-FREE DIFFUSION GUIDANCE #StableDiffusion – Qiita https://qiita.com/UMAboogie/items/160c1159811743c49d99
  30. Stable DiffusionのClassifier Free Guidance(CFG)への理解を深める … https://qiita.com/takaaki_inada/items/7315eb5ee1e2a30469ff
  31. Stable Diffusionの生成設定まとめ|gcem156 – note https://note.com/gcem156/n/n8b7c0c1a6ad9
  32. [2505.19210] Towards Understanding the Mechanisms of Classifier-Free Guidance – arXiv https://arxiv.org/abs/2505.19210
  33. The Uncanny Valley: A Comprehensive Analysis of Diffusion Models – arXiv https://arxiv.org/html/2402.13369v1
  34. Enhancing Diffusion Models for High-Quality Image Generation – arXiv https://arxiv.org/html/2412.14422v1
  35. Denoising Diffusion Implicit Models https://arxiv.org/abs/2010.02502
  36. Denoising Diffusion Implicit Models https://arxiv.org/pdf/2010.02502
  37. Data-free Knowledge Distillation with Diffusion Models*Corresponding author: Jun Yu, junyu@ustc.edu.cn – arXiv https://arxiv.org/html/2504.00870v1
  38. Accelerating Diffusion Models with One-to-Many Knowledge Distillation – arXiv https://arxiv.org/html/2410.04191v1
  39. Knowledge Diffusion for Distillation – arXiv https://arxiv.org/pdf/2305.15712
  40. PROGRESSIVE DISTILLATION FOR FAST … – OpenReview https://openreview.net/pdf?id=TIdIXIpzhoI
  41. progressive distillation for fast sampling – arXiv https://arxiv.org/pdf/2202.00512
  42. Progressive Distillation for Fast Sampling of Diffusion Models – OpenReview https://openreview.net/forum?id=TIdIXIpzhoI
  43. Accelerate Diffusion Models Sampling with Progressive Distillation – Toolify.ai https://www.toolify.ai/ai-news/accelerate-diffusion-models-sampling-with-progressive-distillation-963327
  44. On Distillation of Guided Diffusion Models – CVF Open Access https://openaccess.thecvf.com/content/CVPR2023/papers/Meng_On_Distillation_of_Guided_Diffusion_Models_CVPR_2023_paper.pdf
  45. 【LDDGAN】最高速の推論が可能な拡散モデル – AI-SCHOLAR https://ai-scholar.tech/articles/diffusion-model/lddgan
  46. On the Robustness of Latent Diffusion Models – arXiv https://arxiv.org/html/2306.08257
  47. Latent diffusion model – Wikipedia https://en.wikipedia.org/wiki/Latent_diffusion_model
  48. Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models https://arxiv.org/html/2501.01423v1
  49. Diffusion Models vs GANs: A Technical Deep Dive into the Engines of Generative AI https://turingitlabs.com/diffusion-models-vs-gans-a-technical-deep-dive-into-the-engines-of-generative-ai/
  50. An Introduction to Diffusion Models for Machine Learning – Encord https://encord.com/blog/diffusion-models/
  51. Simple and Fast Distillation of Diffusion Models – arXiv https://arxiv.org/html/2409.19681v1
  52. 拡散モデルとは何かわかりやすく解説!仕組みや実装方法、解説本も紹介 – Jitera https://jitera.com/ja/insights/30465
  53. Exploring the latent space of diffusion models directly through singular value decomposition https://arxiv.org/html/2502.02225v1
  54. [2303.11073] Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models – arXiv https://arxiv.org/abs/2303.11073