強化学習によるLLM推論性能向上のメカニズム

RLHF(人間のフィードバックによる強化学習)の仕組み

RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルの出力に対する人間からの評価を取り入れてモデルを最適化する手法です (人間のフィードバックからの強化学習(RLHF)とは| IBM) デルの回答を比較評価したデータを収集し、そこから報酬モデル(人間の好みに沿った出力かをスコアリングするモデル)を学習します。その後、言語モデル(ポリシーモデル)に対し、この報酬モデルが高いスコアを与えるよう出力を生成するように強化学習による微調整を行います。多くの場合、近接方策最適化(PPO)アルゴリズムを用いて、逐次的な出力(文章全体)に対する報酬を最大化する形で学習が進められます。強化学習を用いる利点は (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) あり学習では直接扱いづらい**「文章全体の品質」や「ユーザの満足度」といった複雑な目的を最適化できる点にあります。RLHFによってモデルは人間の好む回答傾向 (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) を避けつつユーザの意図に沿った応答を返すようになります。

RLAIF(AIフィードバックによる強化学習)の仕組み

RL (Reinforcement learning from human feedback – Wikipedia) nt Learning from AI Feedback)は、RLHFから発展した人間以外の評価者(AI)を用いる手法です。RLHFでは人手で出力を評価するコストが高いため、これを他のAIモデルに置き換えてスケールしやすくした方法といえます。たとえばAnthropic社の提案した「憲法AI(Constitutional AI)」で (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) てモデル自身に出力の自己批評をさせ、どの回答がより望ましいかをAIが判断したデータで報酬モデルを学習します。そしてその報酬モデルを使ってAIのフィードバックに基づく強化学習(RLAIF)を行うことで、人間の詳細なフィードバッ ([2212.08073] Constitutional AI: Harmlessness from AI Feedback) ます。この手法により、最小限の人手で有害でない高品質な応答を生成するAIアシスタントを訓練できることが示されています。最新の研究でも、要約や対話など複数タ ([2212.08073] Constitutional AI: Harmlessness from AI Feedback) HFと遜色ない性能を示すことが報告されており、ラベル付けに人間を使わない分スケーラビリティに優れる代替手法 ([2212.08073] Constitutional AI: Harmlessness from AI Feedback) らに、報酬モデルを介さずオフラインの大規模モデルから直接スコアを得る直接的なRLAIF**により、従来以上の性能向上も確認されています。総じてRLAIFは、RLHFの課題である人手スケーリン (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) vement)の可能性を示すアプローチです。

推論における計算効率の向上

強化学習を取り入れることで、LLMのパラメータ効率 (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) ります。例えば、OpenAIがRLHFで微調整したInstructGPT(約13億パラメータ)のモデルは、1750億パラメータのGPT-3モデルよりも (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) 報告されています。これは、モデルを大きくせずとも強化学習によって出力品質を高められることを示しており、より小規模なモデルで同等以上の性能を引き出せる分、推論時の計算資源を節約できます。またRLHFでは、逐次的な文章全体に対する評価を最適化するため、無駄の少ない簡潔で的確な応答を学習しやすくなります。その結果、不要 () 錯誤を減らし、1回の推論で求める回答に辿り着ける可能性が高まります。これらの点で、強化学習は間接的にモデル推論の効率向上に寄与します(ユーザ視点ではより速く適切な回 () と言えます)。

推論精度・応答品質の向上

強化学習による微調整は、LLMの応答品質(Helpfulさや正確さ)を大きく向上させます。 RLHFを施したモデルは、単純な教師あり微調整モデルや同規模の未調整モデルに比べ、ユーザにとって役立つ回答を返せることが人間評価で確認されています。実際、前述のInstructGPTでは真実性の向上有害な発言の減少が観察され、汎用言語理解タスクでの性能低下もごくわずかでした。これは、強化学習が人間の価値観(例えば事実に忠実であること、トーンが適切であること)に沿った報酬を与えることで、モデルがこれらの性質を持つ応答を積極的に生成するようになるためです。その結果、ユーザの質問意図 ([D] Why do LLMs like InstructGPT and LLM use RL to instead of supervised learning to learn from the user-ranked examples? : r/MachineLearning) ([D] Why do LLMs like InstructGPT and LLM use RL to instead of supervised learning to learn from the user-ranked examples? : r/MachineLearning) てはきちんと拒否や代替提案を行うなど、応答の質が総合的に向上します。加えて、RLHFで得られたモデルは初見の指示や質問にも柔軟に対応でき () ある研究では、RLHFモデルは通常の教師ありモデルよりも訓練時の分布とかけ離れた新規入力に対して優れた汎化性能を示したとされています。このように強化学習は、モデルの一般化能力**(未知の質問への適応力)と応答の品質を高めることに寄与しています。ただし一方で、RLHFによってモデルの出力が定型化し**多様性が低下する* (Reinforcement learning from human feedback – Wikipedia) 上とのトレードオフとして現在研究が進められている点も注意が必要です。

既存LLMへの強化学習の実用例

近年登場した高性能な対話型LLMの多くは、強化学習を用いた微調整によって性能と応答品質を引き上げています。代表例であるO (Understanding the Effects of RLHF on LLM Generalisation and Diversity) T/GPT-4は、人間によるフィードバックを通じてモデルを調整するRLHFによって「有用で対話的」なスタイルに対する高い整合性(alignment)を実現しています。実際、ChatGPTの前身であるInst (Understanding the Effects of RLHF on LLM Generalisation and Diversity) による訓練が施されており、これがGPT-3.5ターボやGPT-4などChatGPT系列モデルの成功を支える鍵となりました。Anthropic社のClaudeも、独自の「憲法AI」に基づく自己フィードバック強化学習(RLAIF)を採用することで、人間の介入を極力減らしつつ有害でない洗練された対話能力を実現しています。GoogleのPaLM(および対話アシスタントのBard)においても、ユーザの評価やフィードバックを用いた調 (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) が対話モデルの調教に用いられたと報告されています。さらにDeepMindのSparrowやMetaのLLaMA-2 Chatなど、各社のLLMがこぞってRLHFを取り入 (人間のフィードバックからの強化学習(RLHF)とは| IBM) 力最適化は業界標準の手法となりつつあります。

最新の研究動向と知見

強化学習をLLMに活用する分野では、近年いくつかの興味深い研究報告がなされています。まず、RLHFとRLAIFの ([2212.08073] Constitutional AI: Harmlessness from AI Feedback) いたフィードバックでも人間フィードバックと同等の効果が得られることが示されました。特に、有害な発話を抑制しつつ有用な応答を引き出すタスクでは、RLAIFがRLHFを上回る安全性指標を示すケースも報告されており、人手 (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) *モデル自身が評価者となる自己改善のアプローチも模索されています。例えば、ある研究では自分と同じモデルをフィードバック提供者(報酬評価 (人間のフィードバックからの強化学習(RLHF)とは| IBM) (Reinforcement learning from human feedback – Wikipedia) 報酬モデルを介さず直接大規模言語モデルから得たスコアで学習する「直接RLAIF」によって従来手法を凌ぐ成果が得られています。一方で、RLHFがもたらす出力の多様性低下や報酬モデルの偏りといった課題も認識されており、これらを緩和する研究(例えば人間らしい多様なフィードバックの導入や、報酬関数の改良)が進めら (RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback) LLMの推論性能と品質を大きく向上させる有力な手段ですが、その最適な適用方法については現在も活発に研究開発が行われている**状況です。