TemperatureとTop-pの違い

1. はじめに

本報告書は、大規模言語モデル（LLM）における主要なサンプリングパラメータであるTemperatureとTop-pについて、その定義、動作原理、生成されるテキストへの影響、そして両者の根本的な違いを専門的かつ包括的に解説することを目的としています。

LLMは、文章生成、要約、翻訳、質疑応答、コード生成など、多岐にわたるタスクで驚異的な能力を示しています ¹。これらのモデルの出力を効果的に制御し、特定のタスクの要求に合わせて最適化するためには、TemperatureやTop-pといったサンプリングパラメータの深い理解が不可欠です ²。これらのパラメータは、LLMが次にどの単語（トークン）を選択するかの確率的なプロセスに介入し、生成されるテキストのランダム性、創造性、一貫性、多様性といった特性を調整する強力な手段となります ⁵。

LLMの応用範囲が拡大するにつれて、その生成行動をより細かく制御する必要性が高まっています。例えば、創造的な物語を生成する際にはある程度のランダム性や意外性が望ましい一方で、事実に基づいた情報を要約する際には正確性と一貫性が最優先されます ²。TemperatureとTop-pは、このような異なる要求に応じた出力調整を可能にする主要な制御レバーです。しかし、これらのパラメータの挙動や相互作用を誤解したり、不適切に使用したりすると、期待からかけ離れた出力、関連性の低い内容、あるいは意味をなさないテキストが生成される可能性があり、LLMの実用性を損なうことになりかねません ⁴。したがって、これらのパラメータに関する正確な知識は、LLMを効果的に活用する上で極めて重要です。

2. LLMにおけるテキスト生成の基礎

TemperatureとTop-pの機能を理解するためには、まずLLMがどのようにテキストを生成するかの基本的な仕組みを把握する必要があります。

トークン (Tokens)

LLMはテキストを直接文字単位や単語単位で処理するのではなく、「トークン」と呼ばれる単位で扱います ⁷。トークンは、単語全体であることもあれば、単語の一部（サブワード）や個々の文字であることもあり、使用されるモデルやトークナイザによって定義が異なります。例えば、「unbelievable」という単語は「un」、「believ」、「able」といったトークンに分割されることがあります。

ロジット (Logits)

LLMは、現在の文脈（すでに入力または生成されたトークンのシーケンス）に基づいて、次に出現しうる全てのトークンに対して「ロジット」と呼ばれる生のスコアを計算します ⁷。ロジットは、各トークンが次に出現する相対的な尤度を示しますが、この段階ではまだ確率ではありません。値が大きいほど、そのトークンが選択される可能性が高いことを意味します。

ソフトマックス関数 (Softmax Function)

計算されたロジット群は、ソフトマックス関数を通過することで確率分布に変換されます ⁷。ソフトマックス関数は、全てのロジットを0から1の間の値に正規化し、かつ全てのトークンの確率の合計が1になるようにします。この結果、各トークンが次に生成される具体的な確率が得られます。例えば、「猫」が0.6、「犬」が0.3、「魚」が0.1といった具合です。Temperatureパラメータは、このソフトマックス関数による変換プロセスに直接影響を与えます。

デコーディング戦略 (Decoding Strategies)

ソフトマックス関数によって得られた確率分布から、実際に次のトークンをどのように選択するかを決定する方法がデコーディング戦略です ¹⁰。最も単純なのは、常に最も確率の高いトークンを選択する「Greedy Search」です。その他、複数の候補系列を保持し、最終的により尤もらしい系列を選択する「Beam Search」や、確率分布に従ってランダムにトークンを選択する「サンプリング」といった方法があります。TemperatureとTop-pは、このサンプリング戦略において重要な役割を果たすパラメータです。

TemperatureとTop-pは、単なる概念的な調整ではなく、ロジットからソフトマックス関数を経て確率分布が形成され、そこからトークンが選択されるという一連の数学的な処理の特定段階に介入します。Temperatureはロジットをスケーリングすることでソフトマックス関数の出力（確率分布の形状）を変化させ ⁷、Top-pはその確率分布（Temperatureによって調整された可能性のある）に基づいてサンプリング対象となるトークンをフィルタリングします ¹¹。この逐次的な依存関係を理解することは、両パラメータの挙動を正確に把握する上で不可欠です。

3. Temperatureとは

定義と動作メカニズム

Temperatureは、LLMが生成するテキストのランダム性、あるいはしばしば「創造性」と表現される特性を制御するためのパラメータです ²。具体的には、モデルが算出した各トークンのロジットを、ソフトマックス関数に適用する前にTemperatureの値 T で割ることによって、最終的な確率分布を調整します ⁷。あるトークン i のロジットを logiti とすると、Temperature T を適用した後のそのトークンの確率は、以下の式で表されます。

Pi=∑jexp(logitj/T)exp(logiti/T)

この式からわかるように、Temperatureはロジットのスケールを変更し、それによってトークン間の確率差を変化させます。

Temperatureが確率分布とランダム性に与える影響

Temperatureの値は、生成されるテキストの特性に大きく影響します。

低いTemperature (例: 0<T<1):
ロジットをTemperatureで割ると、元のロジット間の差が拡大されます。例えば、T=0.5 の場合、ロジットは2倍されるのと同様の効果を持ちます。これにより、確率の高いトークンの確率はさらに高く、確率の低いトークンの確率はさらに低くなり、確率分布はより鋭く（peakyに）なります 5。結果として、モデルは最も可能性の高いトークンをより一貫して選択するようになり、出力はより決定的、予測可能、かつ焦点の定まったものになります。
Temperature = 1:
この場合、ロジットは変更されず、モデルが学習した元の確率分布がそのまま使用されます 2。これは「ピュアサンプリング」または「祖先サンプリング」とも呼ばれます。
高いTemperature (例: T>1):
ロジットをTemperatureで割ると、元のロジット間の差が縮小されます。例えば、T=2 の場合、ロジットは半分に圧縮されるのと同様の効果を持ちます。これにより、確率分布はより平坦になり、元々は確率の低かったトークンも選択される可能性が高まります 4。出力はよりランダムで、多様性に富み、時には予期せぬ「創造的」なものになる可能性があります。しかし、Temperatureが高すぎると、文脈との関連性が薄いトークンや意味をなさないトークンが選択されるリスクも増大し、出力の一貫性が失われることがあります。

Temperature設定値の目安と出力への影響

Temperatureの典型的な設定範囲は0から2の間ですが、これを超える値を設定できる場合もあります ⁶。

0.0に近い値 (例: 0.1 – 0.5): 出力は非常に決定的になります。Temperatureが0の場合、理論的には最も確率の高いトークンのみが選択されるGreedy Searchと等価になります ⁷。事実に基づいた応答、翻訳、要約、技術文書作成など、精度と一貫性が求められるタスクに適しています ³。
0.5 – 1.0程度: 創造性と一貫性のバランスが取れた出力が得られます。一般的なテキスト生成、チャットボットの応答、コンテンツ作成などに適しています ³。多くのLLMでデフォルト値として1.0が設定されていることがあります ⁷。
1.0を超える値 (例: 1.1 – 2.0): 高い創造性と多様性が求められるタスク、例えば物語生成、詩作、ブレインストーミングなどに有効です ³。ただし、値が高すぎると、出力が支離滅裂になったり、意味不明な内容になったりするリスクが高まります ⁴。

Temperatureは「創造性」を向上させるとよく言われますが、これは主に「通常は選ばれにくい珍しい単語や表現を選ぶ確率を上げる」という意味合いが強い点に注意が必要です。高いTemperature設定は、確率分布を平坦化することで低確率トークンの選択可能性を高めますが、それらのトークンが文脈上適切であるか、あるいは人間が感じるような質の高い創造性や深い洞察に繋がるかは保証されません ⁶。むしろ、文脈から大きく外れたランダムなノイズを生成してしまう可能性も秘めています。

また、Temperatureを0に設定しても、必ずしも完全に決定的な（毎回同じ）出力が得られるとは限りません。理論上、T=0 は最もロジットの高いトークンのみを選択するGreedy Samplingを意味しますが、実際にはわずかな変動が生じることが報告されています ¹³。これは、LLMが実行される計算環境における浮動小数点演算の微妙な差異や、マルチスレッド処理における競合状態などが、計算されるロジットやその後の処理に影響を与える可能性があるためと考えられます ⁷。この事実は、LLMの出力における完全な再現性を達成することが、パラメータ設定だけでは難しい場合があることを示唆しています。

4. Top-p (Nucleus Sampling) とは

定義と動作メカニズム（累積確率による動的な候補選択）

Top-pは、「Nucleus Sampling（核サンプリング）」としても知られ、LLMが次のトークンを生成する際に考慮する候補トークンの範囲を動的に決定するためのパラメータです ²。Temperatureが確率分布全体の形状を変えるのに対し、Top-pは確率分布に基づいてサンプリング対象となるトークンの「核（nucleus）」を定義します。

Top-pの動作メカニズムは以下の通りです ⁵:

確率分布の計算: まず、LLMは現在の文脈に基づいて、次に生成されうる全てのトークンに対する確率分布を計算します（この際、Temperatureが適用されている可能性もあります）。
確率の降順ソート: 全てのトークンを、それぞれの出現確率が高い順に並べ替えます。
累積確率の計算と候補の選択: 最も確率の高いトークンから順に確率を足し合わせていきます。この累積確率が、事前に設定されたTop-pの値（例えば、p=0.9）に達した時点で、そこまでのトークン群を次のトークンのサンプリング候補とします。
サンプリング: この選ばれた「核」となるトークン群の中から、それぞれの（再正規化された）確率に基づいて次のトークンがランダムに選択されます。核に含まれなかったトークンは、そのステップでは完全に無視され、選択される可能性は0になります。

例えば、p=0.9 と設定した場合、モデルは最も確率の高いトークンから順に累積確率を計算し、その合計が90%に達する最小のトークンセットを選択します。このセット内のトークンのみが次の単語の候補となります。重要なのは、この候補となるトークンの数が固定ではなく、確率分布の形状（つまり文脈）に応じて動的に変化する点です ⁵。ある文脈では少数のトークンで累積確率pに達するかもしれませんが、別の文脈ではより多くのトークンが必要になるかもしれません。

Top-pがトークン選択と出力の多様性に与える影響

Top-pの値は、選択されるトークンの範囲、ひいては出力の多様性に直接影響します。

低いTop-p (例: 0.1 – 0.3): 累積確率の閾値が低いため、非常に少数の最も確率の高いトークンのみが候補となります ⁵。これにより、出力はより予測可能で、焦点が絞られたものになります。しかし、選択肢が極端に少ないため、反復的で単調なテキストになるリスクも高まります。
高いTop-p (例: 0.7 – 0.9): より多くのトークンが候補セットに含まれるため、出力はより多様で、創造的になる傾向があります ⁵。Top-pが1.0の場合、全てのトークンが候補となり、Temperatureサンプリングと同様の挙動に近づきます。ただし、1.0に近い値では、「質の低いトークンのロングテール」問題の影響を受ける可能性があります。

「質の低いトークンのロングテール」問題への対処

LLMが生成する確率分布は、しばしば「ロングテール」構造を持つと言われます。これは、ごく少数のトークンが高い確率を持つのに対し、その他大多数のトークンが非常に低いながらもゼロではない確率を持つ状態を指します ¹⁰。Temperatureサンプリングのみを使用する場合、特にTemperatureが1に近いかそれ以上の場合、これらの低確率トークン（ロングテール部分）も無視できない確率で選択されてしまうことがあります。これらのトークンは文脈に不適切であったり、意味をなさないノイズであったりすることが多く、結果として生成されるテキストの品質を低下させる一因となります。

Top-pサンプリングは、この問題に対して効果的な対策を提供します ¹⁰。確率の低いトークン群は、たとえ数が多くても、その累積確率が小さければTop-pの閾値に達する前に候補から除外されます。つまり、Top-pは確率分布の「頭」の部分（最も確からしいトークン群）に焦点を当て、確率の低い「尾」の部分を効果的に切り捨てることで、ノイズの多い低品質なトークンがサンプリングされるのを防ぎます。確率分布の形状に応じて考慮するトークン数を動的に調整するため、文脈ごとに適切なフィルタリングが可能になります。

Top-p設定値の目安と出力への影響

Top-pの一般的な推奨値としては、0.9から0.95の範囲が挙げられることが多いです 12。

事実に基づくタスクでは、一貫性と正確性を重視してやや低めのTop-p（例えば0.7～0.9の範囲で、Temperatureと併用する場合はTemperatureを主制御とする）を検討することがあります。一方、創造的なタスクでは、多様性を確保するためにやや高めのTop-p（例えば0.8～0.95）が好まれることがあります 1。

Top-pの最大の利点は、モデルの「確信度」に応じてサンプリング対象の語彙サイズを動的に適応させる点にあります。LLMが次に生成するトークンに対する確信度は、文脈によって大きく変動します。ある文脈では次のトークンがほぼ一意に定まる（確率分布が非常に鋭い）かもしれませんが、別の文脈では多くの可能性が考えられる（確率分布がより平坦）こともあります。Top-pは、確率分布が鋭い（モデルの確信度が高い）場合には候補となるトークン数を少なく絞り込み、確率分布が平坦な（モデルの確信度が低い）場合にはより多くのトークンを候補として許容します ¹⁰。これにより、常に一定の確率質量（p）をカバーするトークン群からサンプリングが行われるため、Temperature単独や固定数の候補を選択するTop-Kサンプリングと比較して、より安定した品質と多様性のバランスを達成しやすいと考えられています。

Top-pは、しばしばTop-Kサンプリングの改良版と見なされます。Top-Kサンプリングでは、確率上位k個のトークンのみを候補としますが、このkの値を固定する必要があります。kが小さすぎると多様性が失われ、大きすぎると低品質なトークンが含まれるリスクが生じます。Top-pは、このkの値を固定する代わりに、累積確率の閾値pによって候補数を動的に調整することで、この課題に対処します ⁷。Top-pの導入は、LLMの出力をより信頼性が高く、かつ創造的にするための重要な進歩であり、単なるランダム性の調整を超えた、より洗練された制御メカニズムを提供します。

5. TemperatureとTop-pの徹底比較

TemperatureとTop-pは、どちらもLLMの出力の多様性やランダム性を制御するパラメータですが、その作用機序と影響は異なります。

制御メカニズムの根本的な違い

根本的な違いは、確率分布に対する操作方法にあります ²。

Temperature: 全ての潜在的な次トークンのロジットをスケーリングし、ソフトマックス関数を通して得られる確率分布全体の形状を変更します ⁷。低いTemperatureは分布を鋭くし、高いTemperatureは分布を平坦にします。つまり、全てのトークンの相対的な確率を再計算（リスケーリング）します。
Top-p: 既存の確率分布（Temperatureによって変更されている可能性もある）自体は変更しません。代わりに、確率の高いトークンから順に確率を累積し、その合計が閾値pに達するまでのトークン群を「核」として定義します。そして、この核の外にあるトークンをサンプリング候補から完全に除外します ⁵。

出力特性への影響の比較

特徴	Temperature	Top-p (Nucleus Sampling)
制御対象	確率分布全体のランダム性、鋭さ	サンプリング候補となるトークンセットのサイズ（累積確率に基づく）
メカニズム	ロジットをTで除算し、ソフトマックス確率を再計算	確率上位から累積確率pに達するまでのトークンを選択し、他を破棄
確率分布への影響	分布全体の形状を変更（鋭くする、または平坦にする）	分布形状は変えず、確率の低いトークンを候補から除外（裾切り）
主要効果	出力のランダム性・創造性の調整	出力の多様性と一貫性のバランス調整、低品質トークンの削減
長所	直感的で調整しやすい。全体のランダム性をシンプルに制御。	「質の低いトークンのロングテール」問題に効果的。文脈に応じて動的に候補数を調整。安定した品質と多様性のバランス。
短所	高すぎると支離滅裂、低すぎると単調。「ロングテール」問題に直接対処不可 ⁶。	メカニズムがやや複雑。p値の選択が自明でない場合がある。極端に低いp値は多様性を著しく損なう。
一般的な設定範囲	0.0 ～ 2.0 ⁶	0.0 ～ 1.0 (多くは0.7～0.95で使用 ⁵)

この表は、両パラメータの主要な違いをまとめたものです。Temperatureは確率分布の「形状」を操作し、Top-pはサンプリングするトークンの「範囲」を制御すると言えます。これらは異なる側面を操作しており、理論的には補完的に機能し得ます。しかし、実際には、両者を同時に極端な値に設定すると、その効果が複雑に絡み合ったり、予期せぬ結果を招いたりすることがあります。

例えば、Temperatureが非常に低い場合、確率分布は極めて鋭くなり、ごく少数のトークンに確率が集中します。この状況では、Top-pの値がよほど小さくない限り、上位の数トークンだけで累積確率pに達してしまうため、Top-pを調整しても出力に大きな変化が見られないかもしれません。逆に、Temperatureが非常に高い場合、確率分布は平坦化し、多くのトークンが同程度の低い確率を持つようになります。この状況では、Top-pが非常に重要となり、多数の低確率トークン（ノイズとなりうる）を効果的にフィルタリングする役割を果たします ¹⁴。

このような相互作用の複雑さから、特にOpenAIなどのプラットフォームでは、どちらか一方のパラメータを主として調整し、もう一方はデフォルト値（例えばTemperature=1またはTop-p=1）のままにすることが推奨されることがあります ¹⁵。これにより、パラメータ調整の挙動が予測しやすくなり、制御が容易になります。

6. 実践的な活用方法とベストプラクティス

TemperatureとTop-pを効果的に活用するためには、タスクの特性や求める出力に応じて適切に設定値を調整する必要があります。

タスクに応じたTemperatureとTop-pの使い分け

以下に、一般的なユースケースごとの推奨パラメータ設定の例を示します。ただし、これらはあくまで目安であり、使用するモデルや具体的なプロンプトによって最適な値は変動します。

ユースケース	推奨Temperature	推奨Top-p	その他関連パラメータ例	根拠・注意点
創造的な記述（物語、詩）	0.7 – 1.2	0.8 – 0.95	Max Tokens: 長め	多様性と意外性を重視。高すぎると支離滅裂になるため注意 ¹。
事実に基づく要約・質疑応答	0.2 – 0.5	0.7 – 0.9 (または1.0)	Max Tokens: 適切に	正確性と一貫性を重視。Temperatureを主制御とし、Top-pは補助的かデフォルト ¹。
コード生成（精度重視）	0.1 – 0.3	0.1 – 0.9 (または1.0)	Repetition Penalty: 1.0-1.2	構文の正しさ、既存パターンへの準拠を重視 ¹。
コード生成（探索的）	0.4 – 0.7	0.7 – 0.95		新しいアプローチや多様な解決策を模索する場合 ¹。
対話システム（チャットボット）	0.5 – 0.8	0.5 – 0.9	Presence Penalty: 考慮	自然で一貫性があり、かつある程度の多様性を持つ応答を目指す ¹。
ブレインストーミング	0.8 – 1.2	0.8 – 0.95		幅広いアイデアや斬新な視点を引き出すことを目的とする ²。

TemperatureとTop-pの併用に関する考察

OpenAIは、API利用においてTemperatureとTop-pのどちらか一方を変更し、もう一方はデフォルト値（通常、Temperature=1またはTop-p=1）にすることを推奨しています ¹⁵。これは、両方のパラメータを同時に極端な値に設定すると、効果が相殺されたり、予期せぬ挙動を示したりする可能性があるため、調整の複雑さを避ける意図があると考えられます。

一方で、Hugging Face Transformersライブラリなどでは、両方のパラメータを同時に指定することが可能です ⁴。併用する場合の一つの考え方としては、Temperatureで全体のランダム性（確率分布の平坦さ）を調整し、その上でTop-pを用いて確率の低い不適切なトークン群をフィルタリングするというアプローチが考えられます。しかし、この場合、両者の相互作用を慎重に考慮し、実験を通じて最適な組み合わせを見つける必要があります。

主要フレームワークにおける設定

多くのLLM開発フレームワークでは、これらのパラメータを設定する手段が提供されています。例えば、Hugging Face Transformersライブラリでは、モデルのgenerateメソッドの引数としてtemperatureやtop_pを渡すことで値を設定できます。重要な注意点として、これらのサンプリングベースのパラメータ（Temperature, Top-p, Top-Kなど）を有効にするためには、do_sample=Trueを明示的に設定する必要がある場合があります ¹⁶。この設定を忘れると、temperatureやtop_pの値を変更しても、Greedy SearchやBeam Searchといった決定論的なデコーディングがデフォルトで実行され、出力に変化が見られないという状況が発生しがちです。これは開発者が陥りやすい罠の一つであり、パラメータ調整時には必ず確認すべき点です。

実験の重要性

最終的に、特定のモデル、タスク、さらにはプロンプトの内容によって、最適なTemperatureとTop-pの設定は異なります ⁴。したがって、少量のデータや試行で様々な値を試し、実際の出力を評価しながら調整していくという実験的なアプローチが不可欠です。A/Bテストなどを活用して、目的に合致したパラメータ設定を見つけ出すことが推奨されます。

7. 高度な考慮事項と関連サンプリング手法

TemperatureとTop-pは広く使われているサンプリングパラメータですが、LLMの出力制御に関する研究は進んでおり、関連する手法やより高度な考慮事項も存在します。

Top-Kサンプリングとの関連性

Top-Kサンプリングは、各ステップで確率分布の上位K個のトークンのみをサンプリング候補とする手法です ⁷。例えばK=50と設定すると、最も確率の高い50個のトークンの中から次のトークンが選択されます。これはシンプルで理解しやすい方法ですが、固定されたKの値が常に最適とは限りません。確率分布が非常に鋭い（少数のトークンに確率が集中している）場合、Kが大きすぎると不要なトークンが含まれる可能性があり、逆に確率分布が平坦な（多くのトークンが同程度の確率を持つ）場合、Kが小さすぎると有望な候補が除外されてしまう可能性があります。Top-pサンプリングは、このKの値を固定する代わりに、累積確率に基づいて候補数を動的に変動させるため、Top-Kのより適応的な代替手法と見なすことができます。

Min-pサンプリングの概要とその利点

近年、Top-pサンプリングの課題、特に高いTemperature設定時における品質と多様性のバランスを改善することを目的とした新しいサンプリング手法として「Min-pサンプリング」が提案され、注目を集めています ¹¹。

Min-pサンプリングの核心的なアイデアは、サンプリングの閾値を、モデル自身の「確信度」に基づいて動的に調整することです。具体的には、最も確率の高いトークンの確率（pmax）をスケーリングファクターとして利用し、ベースとなる確率閾値（pbase）に乗じて、そのステップで使用する実際の閾値（pscaled=pbase×pmax）を決定します。

モデルが次のトークンについて高い確信を持っている場合（pmaxが高い）、pscaledも高くなり、サンプリング候補はより確度の高いものに絞り込まれ、コヒーレンスが維持されます。
モデルの確信度が低い場合（pmaxが低い）、pscaledも低くなり、より多くのトークンがサンプリング候補に含まれることで、多様性や創造性が促進されます。

この動的な閾値調整により、Min-pサンプリングは特に高いTemperature設定においても、Top-pサンプリングと比較して生成テキストの品質と多様性の両方を向上させることが実験的に示されています ¹⁴。人間による評価でも、Min-pによって生成されたテキストが好まれる傾向があるとの報告もあります。Min-pは、Hugging Face TransformersやvLLMなどの主要なオープンソースLLMフレームワークにも既に採用されており、その実用性が広く認識されつつあります ¹⁸。

複数のサンプリングパラメータの適用順序

複数のサンプリング関連パラメータ（Top-K, Top-p, Min-p, Temperatureなど）を組み合わせて使用する場合、それらが適用される順序は最終的な出力に影響を与える可能性があります。一般的に多くのフレームワークで見られる処理フローは以下のようになります ¹¹：

モデルがロジットを出力する。
繰り返しペナルティなどの各種ペナルティがロジットに適用される。
Top-K、Top-p、Min-pなどのフィルタリング手法が（通常はこの順序で）適用され、サンプリング候補となるトークンが絞り込まれる。
残った候補トークンのロジットがTemperatureでスケーリングされる。
スケーリングされたロジットに対してソフトマックス関数が適用され、最終的な確率分布が得られる。
この確率分布に基づいて次のトークンがサンプリングされる。

この順序では、フィルタリング手法はTemperatureスケーリング前の確率（あるいはそれに相当するロジットの相対関係）に基づいて動作し、Temperatureはその後に残った候補群の中での確率の鋭さを調整する役割を担います。ただし、具体的な実装はライブラリやモデルによって異なる場合があるため、詳細な挙動を理解するためには各フレームワークのドキュメントやソースコードを確認することが重要です ¹⁹。例えば、Temperatureを適用した後の確率分布に対してTop-pフィルタリングを行う実装と、上記のような順序の実装では、特にTemperatureの値が大きい場合に結果が異なる可能性があります。

LLMのサンプリング手法は、単純なGreedy Searchから始まり、ランダム性を導入するTemperatureサンプリング、候補数を制限するTop-K、それを動的にしたTop-p、そしてモデルの確信度に応じて閾値自体を動かすMin-pへと、より文脈に適応し、多様性とコヒーレンスの高度なバランスを取る方向へと進化しています ¹⁰。この進化は、LLMの出力制御における継続的な研究開発努力を反映しており、今後も新たな手法が登場することが期待されます。

8. まとめと推奨事項

本報告書では、LLMにおける主要なサンプリングパラメータであるTemperatureとTop-pについて、その動作原理、出力への影響、両者の違い、そして実践的な活用方法を詳細に解説しました。

TemperatureとTop-pの主な違いを再確認すると、Temperatureは確率分布全体の形状（鋭さや平坦さ）を調整することで、生成されるテキストの全体的なランダム性や「創造性」の度合いを制御します。一方、**Top-p (Nucleus Sampling)**は、確率分布自体を変更するのではなく、累積確率に基づいてサンプリング候補となるトークンの語彙サイズを文脈に応じて動的に制限し、特に「質の低いトークンのロングテール」問題に対処することで、多様性と一貫性のバランスを取ります。

効果的なパラメータ選択のための総合的な指針は以下の通りです。

タスクの目的を明確化する: まず、生成タスクの目的が創造性重視（例：物語生成）なのか、正確性・一貫性重視（例：事実要約）なのかを明確にします。これにより、どちらのパラメータをどのように調整するかの大まかな方向性が定まります。
一方のパラメータを主軸に調整する: OpenAIの推奨にもあるように、最初はTemperatureかTop-pのどちらか一方を主軸として調整し、もう一方はデフォルト値（多くの場合、Temperature=1またはTop-p=1）から始めるのが良いでしょう ¹⁵。これにより、パラメータの挙動を理解しやすくなります。
実験と評価を繰り返す: 最適な設定は、使用するモデル、タスク、プロンプトの内容、さらには期待する出力のスタイルによって大きく異なります。小規模な実験を繰り返し、生成される出力を実際に評価しながら、段階的に値を調整していくことが不可欠です。
フレームワークの仕様を確認する: Hugging Face Transformersなどのライブラリを使用する場合、サンプリングを有効にするためにdo_sample=Trueのような設定が必要かどうかを確認してください ¹⁶。これを怠ると、パラメータを変更しても出力が変わらないという問題に直面することがあります。
プロンプトとの相互作用を考慮する: パラメータ設定だけでなく、プロンプトの質や具体性も出力に大きく影響します ⁶。パラメータ調整とプロンプトエンジニアリングは密接に関連しており、両方を考慮して最適化を進める必要があります。

Min-pサンプリングのような新しい手法の登場は、LLMの出力制御技術が今後も継続的に進化していくことを示唆しています。これらの新しいアプローチは、特定の条件下（例えば高いTemperature設定時）で既存の手法よりも優れた結果をもたらす可能性があり、今後の動向に注目する価値があります。

最終的に、LLMのパラメータチューニングは、個々のパラメータの理解に留まらず、それらの相互作用、使用するモデルの特性、そして入力されるプロンプトの性質といった要素を総合的に考慮する、ある種の職人技とも言えるプロセスです。この報告書で提供された情報が、読者の皆様がLLMの能力を最大限に引き出し、より質の高い、目的に合致したテキスト生成を実現するための一助となれば幸いです。LLMが様々なワークフローにますます深く統合されていく中で、これらのパラメータを巧みに調整する能力は、平凡なLLMアプリケーションと非常に効果的なLLMアプリケーションとを分ける、ますます価値のあるスキルとなるでしょう。

引用文献

Cheat Sheet: Mastering Temperature and Top_p in ChatGPT API https://community.openai.com/t/cheat-sheet-mastering-temperature-and-top-p-in-chatgpt-api/172683
LLM Parameters Explained: A Practical Guide with Examples for OpenAI API in Python https://learnprompting.org/blog/llm-parameters
LLM Temperature – The Secret Sauce to Tuning AI Responses – ProjectPro https://www.projectpro.io/article/llm-temperature/1073
Understanding Temperature, Top-k, and Top-p Sampling in Generative Models – Codefinity https://codefinity.com/blog/Understanding-Temperature%2C-Top-k%2C-and-Top-p-Sampling-in-Generative-Models
Complete Guide to Prompt Engineering with Temperature and Top-p https://promptengineering.org/prompt-engineering-with-temperature-and-top-p/
LLM Temperature Setting: Control Randomness & Creativity – PromptLayer https://blog.promptlayer.com/temperature-setting-in-llms/
LLM Temperature: How It Works and When You Should Use It https://www.vellum.ai/llm-parameters/temperature
promptengineering.org https://promptengineering.org/prompt-engineering-with-temperature-and-top-p/#:~:text=The%20most%20impactful%20parameters%20when,of%20tokens%20considered%20for%20sampling.
blog.promptlayer.com https://blog.promptlayer.com/temperature-setting-in-llms/#:~:text=The%20softmax%20function%20takes%20these,the%20LLM%20weighs%20these%20probabilities.
Decoding Strategies: How LLMs Choose The Next Word – AssemblyAI https://www.assemblyai.com/blog/decoding-strategies-how-llms-choose-the-next-word
Comprehensive Guide to LLM Sampling Parameters – smcleod.net https://smcleod.net/2025/04/comprehensive-guide-to-llm-sampling-parameters/
Generation configurations: temperature, top-k, top-p, and test time compute – Chip Huyen https://huyenchip.com/2024/01/16/sampling.html
What happens when top_p is set to Zero? – API – OpenAI Developer Community https://community.openai.com/t/what-happens-when-top-p-is-set-to-zero/621948
MIN-p SAMPLING FOR CREATIVE AND COHERENT LLM … – arXiv https://arxiv.org/pdf/2407.01082
Understanding OpenAI Parameters: Optimize your Prompts for Better Outputs – PromptHub https://www.prompthub.us/blog/understanding-openai-parameters-how-to-optimize-your-prompts-for-better-outputs
model.generate temperature parameter is completely ineffective · Issue #22405 · huggingface/transformers – GitHub https://github.com/huggingface/transformers/issues/22405
Text generation strategies – Hugging Face https://huggingface.co/docs/transformers/v4.27.0/generation_strategies
Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs – arXiv https://arxiv.org/html/2407.01082v4
Order of execution of Top-K, Top-P sampling along with temperature – Hugging Face Forums https://discuss.huggingface.co/t/order-of-execution-of-top-k-top-p-sampling-along-with-temperature/55569
Generation strategies – Hugging Face https://huggingface.co/docs/transformers/main//generation_strategies