Part I: In-Context Learningの基礎
大規模言語モデル(LLM)の進化は、自然言語処理(NLP)の分野に新たなパラダイムをもたらしました。その中でも特に注目すべき能力が「In-Context Learning(ICL)」、日本語では「文脈内学習」として知られる現象です。この能力は、モデルの内部パラメータを更新することなく、推論時に提示された少数の例(デモンストレーション)に基づいて新しいタスクを遂行するものであり、AIの適応性と汎用性を根本から変えつつあります。本章では、ICLの基本的な定義を確立し、従来の機械学習パラダイムとの違いを明確にし、その能力がどのように現れるかを学習スペクトラムの観点から探求します。
Section 1: パラダイムの定義
In-Context Learning(ICL)は、大規模言語モデル(LLM)が示す特異な学習能力であり、現代のAI研究と応用の中心的なテーマとなっています。このセクションでは、ICLの正式な定義、その出現の背景、そして従来の機械学習手法との根本的な違いについて詳述します。
正式な定義と中核的特徴
In-Context Learning(ICL)は、事前学習済みの言語モデルが、タスクのデモンストレーション(入力と出力のペアからなる例)を自然言語形式でプロンプトの一部として与えられることで、推論時に新しいタスクを学習する能力として正式に定義されます 1。このプロセスの最も重要な特徴は、モデルの内部パラメータ(重み)が一切更新されない点にあります 1。モデルが獲得したタスク遂行能力は一時的なものであり、推論が完了するとその「学習」内容は失われます 1。
この能力は、単なる技術的な進歩ではなく、計算システムとの対話方法における根本的な転換を示唆しています。従来のプログラミングや機械学習では、システムの振る舞いを変更するためには、その内部ロジック(コードや重み)を直接修正する必要がありました。これは計算リソースを大量に消費する「in-weights」なプロセスです 3。対照的に、ICLはモデルの重みを固定したまま、すべての適応ロジックを推論時に入力シーケンス(プロンプト)内にエンコードします 1。
この転換により、プロンプト自体が一種の「プログラム」として機能するようになります。デモンストレーションを選択し、フォーマットを定義し、指示を与えるといったプロンプトを設計する行為そのものが、新しい形のプログラミング、すなわち「プロンプトエンジニアリング」となるのです 2。このパラダイムシフトは、タスク固有の適応への参入障壁を劇的に下げ、深層学習の専門知識を持たないユーザーでも複雑なモデルを誘導することを可能にしました 3。また、ファインチューニングでは計算的に実現不可能な、迅速なプロトタイピングや動的なタスク切り替えを実現します 3。したがって、ICLは単なるLLMの一機能ではなく、自然言語の例が主要な命令媒体となる、より直感的で柔軟な新しい計算インターフェースそのものであると言えます 2。
出現(Emergence)とスケール
ICLは、LLMの「創発的能力(emergent ability)」の一つと見なされています。これは、モデルのサイズ(パラメータ数)や事前学習データの規模と多様性が特定の閾値を超えたときに、予期せず現れる能力を指します 1。この現象はOpenAIのGPT-3に関する論文で広く知られるようになり 4、現代のLLMへの関心を牽引する主要な要因の一つとなっています 1。モデルが大規模なテキストコーパスを分析する過程で、言語の複雑な統計的特性を学習し、文脈的な手がかりを効果的に認識・利用する能力を獲得することが、ICLの有効性の基盤となっています 3。
従来の機械学習との区別
ICLは、従来の主要な機械学習パラダイムとは一線を画します。教師あり学習、教師なし学習、強化学習などの従来の手法は、パラメータを更新する訓練プロセスを通じて学習し、その訓練されたタスクしか解くことができません 1。これに対し、ICLは市販の(off-the-shelf)LLMを用いて、その場で新しいタスクに適応することを可能にします 1。この違いは、学習の在り方そのものに関するものです。従来の学習がモデルの重みの中に知識を恒久的に埋め込む「in-weights learning」であるのに対し、ICLは推論時に文脈から一時的に知識を引き出す「inference-time adaptation」と見なすことができます 12。
類推による学習
ICLの核心的なアイデアは「類推による学習(learning from analogy)」です。これは人間の認知的な推論プロセスと類似しています 2。モデルは、提供されたデモンストレーションに隠された根本的なパターンやタスク構造を推測し、それを新しいクエリに適用することが期待されます 3。このプロセスは、単なる表面的な模倣ではなく、プロンプトを意味的な事前情報(semantic prior)として利用し、モデルの思考の連鎖(chain of thought)と最終的な出力を導くものと解釈できます 2。
Section 2: 学習のスペクトラム:Zero-shotからMany-shotへ
In-Context Learningは、プロンプトに含めるデモンストレーションの数によって、その振る舞いや性能が大きく変化します。このセクションでは、デモンストレーションが全くない「Zero-shot」から、数百、数千の例を用いる「Many-shot」まで、ICLの学習スペクトラムを詳細に解説します。このスペクトラムは、プロンプトの簡潔さとタスク固有の誘導の強さとの間のトレードオフを体現しています。
Zero-Shot Learning (ZSL)
Zero-shot Learningは、モデルにタスクのデモンストレーションを一切与えず、タスクの指示や説明のみを提示するアプローチです 1。この設定では、モデルは完全にその事前学習で得た知識と汎化能力に依存して、ユーザーの意図を推測し応答を生成します 2。例えば、「
‘Hello, world’をフランス語に翻訳してください。」というプロンプトがZSLに該当します 1。ZSLは最も効率的でコストが低い手法ですが、モデルのタスク理解が曖昧になりがちなため、信頼性は最も低いとされています 18。その性能は、タスクがモデルの事前学習された「世界モデル」や最も確率の高いパターンとどれだけ一致しているかの直接的な指標となります。
One-Shot Learning (OSL)
One-shot Learningでは、モデルに単一のデモンストレーション(入力と出力のペア)を提供し、その応答を誘導します 1。例えば、「
英語をフランス語に翻訳します。English: sea otter -> French: loutre de mer. English: Hello, world -> French:」といったプロンプトです 1。このたった一つの例が、モデルのタスク解釈を固定するための重要な「アンカー」として機能します 18。単一の例は、単なる入出力ペア以上の情報、すなわち期待される出力の
フォーマット、タスクの種類、そしてラベル空間(取りうる答えの集合)をモデルに伝達し、タスクの曖昧さを劇的に減少させます 22。
Few-Shot Learning (FSL)
Few-shot Learningは、モデルに少数のデモンストレーション(通常は2から8個程度)を与えるアプローチです 3。これはICLの最も一般的な形態であり、しばしばICLという用語と同義で用いられます 3。複数の例を提供することで、モデルは単一のアンカーに従うだけでなく、複数のデータポイントからより一般的なルールを推論するようになります 16。この段階で、モデルは文脈内で「アルゴリズムを学習している」かのような振る舞いを見せ始めます 24。
Many-Shot Learning
Many-shot Learningは、LLMのコンテキストウィンドウが劇的に拡大したこと(例:100万トークン以上)によって可能になった新しいパラダイムです 26。このアプローチでは、プロンプト内に数百から数千ものデモンストレーションを含めます。研究によれば、Many-shot ICLはFew-shot ICLを一貫して上回り、特に複雑な推論タスクにおいてその効果が顕著です 26。さらに、Many-shot ICLは、モデルの事前学習バイアスを克服し、高次元の数値関数を学習し、ファインチューニングに匹敵する性能を達成することが示されています 27。
このICLのスペクトラムは、LLMが知識をどのように保持し、適用するかについての根源的な二重性を明らかにします。Zero-shotは、事前学習によって重みにエンコードされた暗黙的で汎用的な知識に純粋に依存します。一方で、Few-shotやMany-shotは、文脈内に明示的でタスク固有のアルゴリズムを提供することで、この暗黙的な知識を活性化、特定、制約するメカニズムです。
この観点から見ると、ICLはモデルの広大で静的な事前学習済み知識と、プロンプトで提供される具体的で一時的なタスク定義との間の動的な交渉プロセスと捉えることができます。Zero-shotは前者に依存し、Many-shotは後者が優位に立つことを可能にします。特に、ラベルを意図的に誤って与える「Flipped-Label ICL」の実験では、大規模なモデルがプロンプト内の無意味なラベルに従うことを学習し、自身の意味的な事前知識を無視できることが示されており 2、これはMany-shotの文脈情報がモデルの内部バイアスを上書きする強力な証拠です。したがって、ICLの有効性は、プロンプトがモデルをその広大なパラメータ空間内の正しい「サブネットワーク」または推論プロセスにどれだけうまく誘導できるかにかかっていると言えるでしょう。
Part II: In-Context Learningのメカニズム
In-Context Learning(ICL)がなぜ機能するのかという問いは、現代AI研究における最も重要かつ難解な謎の一つです。この現象は単なる表面的なパターンマッチングを超えた、より深い計算原理に基づいていることが示唆されています。本章では、ICLの「なぜ」を解明するために、複数の理論的・経験的な研究ラインを統合し、そのメカニズムを多角的に分析します。ベイジアン推論としての解釈、Transformerアーキテクチャ内の特定の回路の役割、そしてフォワードパスにおけるアルゴリズムのシミュレーションといった主要な仮説を探求し、それらがどのように相互補完的にICLという複雑な現象を説明するのかを明らかにします。
Section 3: メタ学習器としてのTransformer:その「仕組み」の解明
ICLの能力は、Transformerアーキテクチャが単なるシーケンス処理器ではなく、一種の「メタ学習器」として機能することを示唆しています。つまり、事前学習の過程で「学習する方法」そのものを学習しているのです。このセクションでは、ICLを可能にする具体的なメカニズムについて、現在最も有力とされる複数の理論的視点から解き明かしていきます。
Subsection 3.1: ベイジアン脳:暗黙的ベイジアン推論としてのICL
ICLを、洗練された確率的推論プロセスとして捉える視点は、その多くの不可解な振る舞いを説明する強力な理論的枠組みを提供します。この解釈では、ICLは単なる暗黙知の模倣ではなく、モデルが能動的に文脈からタスクの本質を推論する過程と見なされます。
- 中核的仮説: ICLが機能する根源的な理由は、LLMが強力なシーケンス予測器として、暗黙的にベイジアン推論を実行する能力を獲得しているためです 31。事前学習中、モデルはWikipediaの記事や書籍のような、長距離にわたって一貫性のある文書に触れます。これらの文書を正しく予測するためには、単語の共起関係だけでなく、文書全体を貫く潜在的な「文書レベルの概念(θ)」、例えば「特定の人物の伝記」や「特定の科学分野の解説」といったものを推論する必要があります 32。
- タスク認識としての推論: 推論時、デモンストレーションを含むプロンプトは、モデルにとって新たな「文書」として扱われます。モデルは、このプロンプト内の構造化された例から、共有されている「プロンプトの概念」(例:「これはセンチメント分析タスクで、ラベルは’Positive’と’Negative’である」)を推論します 32。そして、新しいクエリに対する最終的な予測は、この推論された概念に基づいて条件付けられます 31。
- 数学的定式化: このプロセスは、モデルが事後予測分布を計算していると見なすことができます。具体的には、考えられるすべての潜在的な概念について周辺化を行うことで、最終的な出力を導き出します 32。ICLが成功するのは、事後確率
p(concept∣prompt) が、デモンストレーションによって提示された正しいタスク概念に鋭く集中する場合です 32。 - 示唆: このベイジアン的視点は、なぜ事前学習データの構造(特に長距離の一貫性)がICLの出現に不可欠であるかを説明します 2。また、ICLの性能がデモンストレーションの順序やフォーマットに敏感である理由も説明できます。これらの要素は、潜在概念を推論するための信号の明瞭さに直接影響を与えるからです 32。近年の研究では、この考え方をさらに推し進め、Transformerが文脈内で一般化線形モデルなどの統計モデルに対する完全なベイジアン推論を実行し、MCMC法に匹敵する品質の事後サンプルを生成できることまで示されています 36。
Subsection 3.2: 誘導のための回路:アテンション機構の役割
ベイジアン推論がICLの「何を」しているかを説明するならば、アテンション機構に関する研究は「どのように」しているかを説明します。特に「誘導ヘッド(Induction Heads)」仮説は、ICLの特定の側面、特にパターンコピー能力を実装する具体的な回路メカニズムを提示します。
- 中核的仮説: ICLの能力、とりわけパターンをコピーする能力の大部分は、「誘導ヘッド」として知られる、異なる層にまたがる2つのアテンションヘッドが協調して動作する特定の回路によって実装されています 38。
- 誘導ヘッドのメカニズム:
- 先行トークンヘッド(Previous Token Head): より浅い層にあるアテンションヘッドが、あるトークンAから、その直後のトークンBへと情報をコピーします。
- 誘導ヘッド(Induction Head): より深い層にあるアテンションヘッドが、新たなトークンAを観測した際に、先行トークンヘッドが残した情報を使って過去のAの出現箇所を探し出します。そして、その直後にあったトークンBにアテンションを向け、その情報をコピーすることで、次にBが生成される確率を高めます 38。この連携により、
…[A]…[A]というパターンが“で補完されるという、ICLの基本的な振る舞いが機械的に実現されます。
- 単純なコピーを超えて: これらの誘導ヘッドは、厳密なトークンの一致だけでなく、「ファジー」または「最近傍」的なパターン補完も実行できます。これにより、例えばA*が別の言語におけるAと意味的に類似したトークンである場合など、より抽象的なタスク(例:翻訳)の実行が可能になります 38。
- 経験的証拠: 誘導ヘッドの形成は、LLMの訓練初期に見られる「相転移」または訓練損失の「バンプ(隆起)」と密接に一致することが観測されています。この時期に、モデルのICL能力が劇的に向上するのです 38。アーキテクチャを操作してこのバンプの発生時期をずらすと、誘導ヘッドの形成とICL能力の獲得時期も同様にずれることから、両者の間には因果関係があることが強く示唆されています 38。
Subsection 3.3: フォワードパスにおけるアルゴリズム学習
ICLに関する最も刺激的な研究の一つは、Transformerが単なるパターン照合器ではなく、そのフォワードパスの中で明示的な学習アルゴリズムをシミュレートできるという発見です。これは、モデルが推論時に真の「学習」を行っている可能性を示唆します。
- 中核的仮説: 特定のタスククラス(特に数学的・構造的なもの)において、Transformerのフォワードパスは、文脈内の例に対して、勾配降下法や線形回帰といった既知の学習アルゴリズムを実装していると見なすことができます 24。
- 線形回帰の例: 研究では、ICL用に特別に訓練されたTransformerに、線形関数 y=w⋅x から生成された (x,y) のペアを複数与えると、新しい xnew に対する ynew を、最適解である最小二乗推定量に匹敵する精度で予測できることが示されています 24。このプロセスにおいて、アテンション機構はリッジ回帰の計算を効果的に学習していることが理論的に示唆されています 41。
- 勾配降下法のシミュレーション: 他の研究では、Transformerのアテンション層が加算や乗算といった基本的な演算を実行するように構築でき、これらを組み合わせることで、単純な損失関数に対する勾配降下法の1ステップを模倣できることが実証されています 40。
- モデル内モデル: この一連の研究は、大規模モデルがその隠れ状態の中に、より小さく単純なモデル(この場合は線形モデル)を内包しており、ICLとは、提示された例をデータとして、この内部モデルをその場で訓練するプロセスであるという「モデル内モデル」仮説を支持します 25。これは、ICLが純粋なパターンマッチングであるという見方に挑戦し、一時的ではあるものの、本質的な学習プロセスが発生していることを示唆しています 25。
Subsection 3.4: デモンストレーションの真の役割:入出力マッピングを超えて
ICLのメカニズムを理解する上で、デモンストレーションが実際にどのような情報を提供しているのかを正確に把握することが不可欠です。驚くべきことに、最も直感的に重要だと思われる「正しいラベル」は、必ずしも最も重要な要素ではないことが示されています。
- 「ラベル反転」の驚き: ICL研究における画期的な発見の一つは、デモンストレーション内のラベルが間違っていても、ICLの性能が驚くほど低下しないという事実です 22。多くの分類タスクにおいて、文脈内の例のラベルをランダムに入れ替えても、特に大規模なモデルでは性能の低下はごくわずかです 2。
- 本当に重要な要素: この発見は、ICL性能の真の駆動力が、個々の入力とラベルの正しい対応関係そのものではなく、デモンストレーションが提供する他の構造的な手がかりにあることを示唆しています。具体的には、以下の3点が重要であると特定されています。
- ラベル空間の提示: モデルに、どのようなトークンが出力として許容されるか(例:「Positive」、「Negative」)を知らせること 22。
- 入力分布の提示: 解決しようとしているタスクにとって分布内(in-distribution)である入力の例を提供すること 22。
- 全体的なフォーマットの提示: 入力、クエリ、出力のシーケンス全体にわたる一貫したテンプレートや構造を確立すること 22。
- タスク認識 vs. タスク学習: これらの証拠は、ICLがしばしば「タスク学習」(例からマッピングを学習すること)よりも「タスク認識」(構造的な手がかりからタスクを特定すること)に近いという見方を強く支持します 45。デモンストレーションは、モデルに「どのようなゲームをプレイすべきか」を教え、モデルはそれに従って事前学習で得た知識を使ってそのゲームを実行するのです。
Section 4: メカニズムの統合:諸説の統一的視点
これまで見てきたように、ICLのメカニズムを説明する理論は多岐にわたります。ベイジアン推論、誘導ヘッド、アルゴリズム学習といった各理論は、それぞれがICLの特定の側面を鋭く捉えていますが、単独ではこの複雑な現象の全体像を説明しきれません。このセクションでは、これらの理論が相互に排他的なものではなく、むしろ相補的な関係にあることを示し、ICLを多層的な現象として理解するための統一的な視点を提案します。
ICLの多層的現象としての理解
ICLは単一のメカニズムによって駆動されるのではなく、タスクの性質や複雑さに応じて活性化される能力の集合体と考えるのが最も妥当です。
- 単純なパターンマッチング: フォーマットの複製や単純なテキスト補完のようなタスクでは、誘導ヘッドのメカニズムが支配的であると考えられます。これは、ファジーなパターンコピーを効率的に実行する回路です 38。
- タスク仕様の特定: 分類タスクやその他の構造化されたタスクでは、ベイジアン推論モデルが強力な説明力を持ちます。この場合、デモンストレーションはモデルが潜在的なタスクを推論し、事前学習済みの能力を活性化させるための手がかりとして機能します 32。この視点は、なぜフォーマットやラベル空間が正しいラベルそのものよりも重要であるかという発見と一致します 22。
- アルゴリズム的推論: 線形回帰や算術演算など、数値的または論理的な推論を必要とするタスクでは、モデルはフォワードパスの中で実際にアルゴリズムをシミュレートしているように見えます。この文脈では、デモンストレーションは単なる手がかりではなく、そのアルゴリズムが処理すべきデータポイントとして機能します 24。
過剰パラメータ化と事前学習の役割
LLMの広範なICL能力は、その巨大な過剰パラメータ化によって可能になっています。この膨大なパラメータ空間には、単なる事実知識だけでなく、ベイジアン推論やアルゴリズムの基本要素といった、多様なメタ学習戦略が共存して埋め込まれています 2。事前学習プロセスは、これらの潜在的な戦略をモデル内に焼き付け、プロンプトによって特定の戦略が活性化される基盤を形成します。つまり、ICLの多様な振る舞いは、単一の原理から生じるのではなく、タスクに応じて適切な内部メカニズムが呼び出される結果なのです。
以下の表は、ICLの主要な理論的枠組みを整理し、その核心的な仮説、証拠、そして説明力の範囲をまとめたものです。これにより、読者は複雑な理論的背景を体系的に理解することができます。
Table 3: In-Context Learningの理論的枠組み:統合的視点
| 理論的枠組み | 中核的仮説 | 主要な支持証拠 | 主な説明対象 | 主要な出典 | |
| 暗黙的ベイジアン推論 | モデルはデモンストレーションと事前学習の事前知識から潜在的なタスク概念を推論する。 | 一貫性のあるデータでの事前学習から出現 32; ラベルが反転した例への頑健性を説明 22; モデルのスケーリングと性能が相関 33。 | 分類タスク、タスク認識、新しいフォーマットへの適応。 | Xie et al. 31, Garg et al. 49 | |
| 誘導ヘッド/回路レベル | 特定のアテンションヘッドの回路(誘導ヘッド)がパターンのコピーと補完を機械的に実行する。 | 訓練初期の相転移とICL能力の獲得が一致 38; パターン | [A]…[A]→の補完を直接実装 38。 | フォーマットの模倣、単純なテキスト補完、翻訳などのパターンベースのタスク。 | Olsson et al. 38, Elhage et al. 38 |
| アルゴリズム学習 | Transformerのフォワードパスが、文脈内の例をデータとして用いて、勾配降下法や線形回帰などのアルゴリズムをシミュレートする。 | Transformerが線形回帰の最適解を再現可能 24; 勾配降下法のステップをアテンション層で構築可能 40。 | 数学的・論理的推論、構造化データに対する関数学習。 | Akyürek et al. 24, von Oswald et al. 40 | |
| スキーマ学習と再結合 | モデルは事前学習で抽象的なテンプレート(スキーマ)を学習し、ICL時に新しいトークンをそのスキーマの適切なスロットに動的に「再結合」する。 | 期待値最大化アルゴリズムの特殊なケースとして説明可能 1; 小規模モデルでもICL能力が再現可能 48。 | 新しい概念や関係性への迅速な適応、スロットフィリングタスク。 | Dileep et al. 1 |
この統合的な視点に立つことで、ICLは単一の魔法のような能力ではなく、LLMの巨大なモデルスケールと多様な事前学習データによって獲得された、状況に応じて使い分けられる高度なメタ学習能力の集合体であることが理解できます。今後の研究は、これらのメカニズムがどのように相互作用し、どのような条件下でどのメカニズムが優位になるのかをさらに解明していくことになるでしょう。
Part III: 実践的応用と性能評価
In-Context Learning(ICL)の理論的基盤を理解した上で、次はその実践的な側面に焦点を移します。本章では、ICLの能力を最大限に引き出すための具体的な技術、特にプロンプトエンジニアリングのベストプラクティスと、より複雑な推論を導き出すための高度な手法について詳述します。さらに、もう一つの主要なモデル適応手法であるファインチューニングとの徹底的な比較分析を行い、それぞれの長所、短所、そして最適なユースケースを明らかにします。最後に、これらの性能を客観的に測定するためのベンチマークと評価手法についても議論し、ICLの実用化に向けた包括的なガイドラインを提供します。
Section 5: ICLのためのプロンプトエンジニアリングの技術と科学
ICLの性能は、プロンプトの設計に大きく依存します。効果的なプロンプトを作成する技術、すなわちプロンプトエンジニアリングは、ICLを成功させるための鍵となります。このセクションでは、特にデモンストレーションの構築に焦点を当て、経験的に確立されたベストプラクティスを体系的に解説します。
明確性と具体性
効果的なプロンプトの基本は、モデルに対する指示を明確かつ具体的にすることです。
- 指示の配置と分離: タスクの指示はプロンプトの冒頭に配置し、文脈や例とは###や”””のような明確な区切り文字を用いて分離することが推奨されます 8。これにより、モデルはタスクの目的を最初に把握し、後続の文脈をその指示に従って解釈することができます。
- 詳細な仕様: 期待する出力、フォーマット、長さ、スタイルなどについて、可能な限り具体的かつ詳細に記述する必要があります 8。例えば、「OpenAIについての詩を書いて」という曖昧な指示よりも、「OpenAIの創設と使命について、ソネット形式で14行の詩を書いてください」という指示の方が、はるかに質の高い結果を生み出します。
デモンストレーションの品質と多様性
デモンストレーションはICLの中核をなす要素であり、その質がモデルの学習能力を左右します。
- 品質と関連性: 使用する例は、高品質で、解決したいタスクに直接関連し、かつ明確でなければなりません 52。ノイズの多い、あるいは無関係な例は、モデルを混乱させ、性能を低下させる可能性があります。
- 多様性: デモンストレーションは、タスクの様々な側面やシナリオをカバーするように、多様性を持たせることが重要です 10。これにより、モデルはより汎用的なパターンを学習し、未知の入力に対する頑健性が向上します。
- バランス: 例に含まれるラベルの分布は、偏りがないようにバランスを取るべきです 52。例えば、センチメント分析タスクで肯定的な例ばかりを見せると、モデルは肯定的なラベルを予測しやすくなるバイアスを持ってしまいます。
デモンストレーションのフォーマットと順序
デモンストレーションの提示方法もまた、モデルのパターン認識能力に影響を与えます。
- 一貫性: すべての例で一貫したフォーマットを使用することで、モデルは入力と出力の間の構造的な関係を容易に認識できます 9。
- 順序: 例の順序は重要です。モデルはプロンプトの最後の方にある情報により強く影響される傾向があるため(近接性バイアス)、最も関連性の高い例をクエリの直前に配置する戦略が有効な場合があります 1。また、単純な例から複雑な例へと順序立てることで、モデルの段階的な学習を促すこともできます 52。一方で、例の順序をランダム化することは、モデルが順序に起因する偽の相関を学習するのを防ぐのに役立ちます 52。
デモンストレーションの数
デモンストレーションの数は、多ければ多いほど良いというわけではありません。
- 段階的なアプローチ: まずはZero-shotで試し、性能が不十分な場合にFew-shotへと移行するのが効率的な戦略です 8。
- 収穫逓減: デモンストレーションの数を増やしていくと、ある時点で性能向上が頭打ちになるか、あるいはコンテキストウィンドウの制限やノイズの増加により、かえって性能が低下することさえあります 16。一般的には、2個から8個程度の例から始めることが推奨されています 16。
これらのベストプラクティスをまとめたものが、以下の表です。これは、実践者が効果的なFew-shotプロンプトを構築するための実用的なチェックリストとして機能します。
Table 4: ICLにおけるデモンストレーション設計のベストプラクティス
| デモンストレーションの側面 | ベストプラクティス | 根拠 | 主要な出典 |
| 例の選択 | 高品質で、関連性が高く、多様な例を使用する。ラベル分布のバランスを取る。 | モデルがタスクの狭い範囲に過適合するのを防ぎ、汎用的なパターンを学習できるようにするため。 | 10 |
| 例のフォーマット | すべての例で一貫したフォーマットを維持する。指示と文脈を区切り文字で明確に分ける。 | モデルが入力と出力の構造を容易に識別し、パターンを認識しやすくするため。 | 8 |
| 例の順序 | 順序を実験する(例:単純から複雑へ、クエリに近いものを重視、ランダム化)。 | モデルは近接性や複雑さのバイアスに敏感であるため、最適な順序はタスクに依存する。ランダム化は偽の相関を防ぐ。 | 1 |
| 例の数 | Zero-shotから始め、必要に応じてFew-shot(2~8個程度)に増やす。 | 収穫逓減の法則があり、多すぎる例はコストを増加させ、性能を低下させる可能性があるため。 | 8 |
Section 6: 複雑な推論の導出
基本的なICLは、フォーマットの模倣や単純な分類タスクには有効ですが、多段階の論理的思考や複雑な問題解決を必要とするタスクでは限界があります。このセクションでは、LLMのより高度な推論能力を引き出すために開発された、Chain-of-Thought(CoT)を始めとする先進的なプロンプティング技術について解説します。
Chain-of-Thought (CoT) Prompting
Chain-of-Thought(CoT)プロンプティングは、LLMに最終的な答えを出す前に、中間的な思考の連鎖、つまりステップバイステップの推論過程を生成させることで、その推論能力を向上させる画期的な技術です 54。このアプローチは、人間が複雑な問題を小さなステップに分解して解決するプロセスを模倣しており、モデルの思考過程を透明化し、結果の正確性を高める効果があります 54。CoTは特に、算術、常識、記号推論といった多段階の推論を必要とするタスクで顕著な性能向上を示します 55。
- Few-shot CoT: このアプローチでは、プロンプト内に推論過程を明示的に含んだデモンストレーションを提供します 55。例えば、算数の文章問題に対して、計算の各ステップを記述した解答例を示すことで、モデルは新しい問題に対しても同様の思考プロセスを模倣することを学習します。
- Zero-shot CoT: よりシンプルなアプローチとして、デモンストレーションなしでCoTを誘発する方法も存在します。これは、プロンプトの末尾に「Let’s think step by step.」(段階的に考えましょう)のような魔法の呪文を追加するだけで実現できます 54。この単純な指示が、モデルに内省的な推論プロセスを生成させるトリガーとなります。
- 限界: CoTは、その能力がモデルのスケールに依存する創発的な能力とされています 54。一般的に、大規模なモデル(例:100Bパラメータ以上)で効果が顕著であり、小規模なモデルでは逆に性能を低下させる可能性があります 54。また、近年の研究では、特定のパターンベースのICLタスクにおいて、明示的な推論が暗黙的なパターンマッチングを妨げる「CoTの呪い」とも言うべき現象も報告されています 60。
Self-Consistency
Self-Consistencyは、CoTの頑健性をさらに高めるためのアンサンブル的な技術です 61。これは、単一のプロンプトに対して、モデルに複数の多様な思考の連鎖(Chains of Thought)を生成させ、それらの最終的な答えの中から多数決で最も一貫性のあるものを選択するという手法です 61。単一の誤った推論経路の影響を軽減し、特に複雑な推論タスクにおける精度を向上させることができます 61。
Tree of Thoughts (ToT)
Tree of Thoughts(ToT)は、CoTをさらに一般化した、より高度な問題解決フレームワークです 61。CoTが線形的な思考の連鎖を生成するのに対し、ToTはモデルに複数の推論経路を木構造で探索させます。各ステップで複数の「思考」を生成し、それぞれの有効性を自己評価し、有望でない経路からはバックトラック(後戻り)することも可能です 64。これにより、人間がより慎重に行うような、探索的で計画的な問題解決プロセスを模倣します。ToTは、数学パズルや創造的な文章作成といった、計画や探索が必要なタスクでCoTを大幅に上回る性能を示しますが、その分、計算リソースの消費も格段に大きくなります 64。
Least-to-Most (LtM) Prompting
Least-to-Most(LtM)プロンプティングは、教育的な戦略から着想を得た技術で、複雑な問題を一連のより単純なサブ問題に分解します 61。モデルはこれらのサブ問題を順番に解き、一つのサブ問題の解が次のサブ問題のプロンプトの一部として利用されます。これにより、最終的な解へと段階的に積み上げていきます 61。この漸進的なアプローチは、モデルの認知的負荷を軽減し、特に構成的な推論(compositional reasoning)を必要とするタスクで高い効果を発揮することが示されています 61。
これらの先進的なプロンプティング技術は、ICLが単なる例の模倣ではなく、LLMの内部に存在する複雑な推論能力を能動的に引き出し、構造化するためのインターフェースであることを示しています。以下の表は、これらの技術を体系的に整理し、実践者がタスクに応じて適切な手法を選択するための指針を提供します。
Table 2: In-Context Learningプロンプティング技術の分類
| 技術 | 中核的メカニズム | 最適な用途 | 主要な考慮事項/コスト |
| Zero-shot | 指示のみを提供。 | 単純で曖昧さのないタスク。 | 最も低コストだが、信頼性も最も低い。 |
| Few-shot | 入出力ペアのデモンストレーションを提供。 | フォーマットやスタイルの定義、タスクの具体化。 | プロンプトコストが増加。例の選択に敏感。 |
| Chain-of-Thought (CoT) | ステップバイステップの推論を促す。 | 多段階の推論タスク(算術、常識推論)。 | 大規模モデルで効果的。小規模モデルでは性能低下の可能性。 |
| Self-Consistency | 複数の推論経路をサンプリングし、多数決を取る。 | CoTの頑健性と精度の向上。 | CoTよりも高い推論コスト。 |
| Tree of Thoughts (ToT) | 推論経路の木構造を探索・評価する。 | 複雑な計画や探索を要するタスク(例:パズル)。 | 非常に高い推論コスト。実装が複雑。 |
| Least-to-Most (LtM) | 問題を分解し、サブ問題を順次解決する。 | 構成的な推論が必要な問題。 | 問題を適切に分解する必要がある。 |
Section 7: 比較分析:ICL vs. ファインチューニング
大規模言語モデルを特定のタスクに適応させるための主要なアプローチとして、In-Context Learning(ICL)とファインチューニング(Fine-Tuning)が存在します。両者は根本的に異なる原理に基づいており、それぞれに明確な利点と欠点があります。このセクションでは、パラメータ更新、データ要件、計算コスト、性能、柔軟性、そしてユースケースの観点から、両者を徹底的に比較分析します。
基本的な違い:パラメータ更新の有無
両者の最も根本的な違いは、モデルのパラメータを更新するかどうかにあります。
- In-Context Learning (ICL): ICLは、推論時にプロンプトを通じてタスクを学習しますが、モデルの内部的な重み(パラメータ)は一切変更されません。学習は一時的であり、パラメータは凍結されたままです 3。
- ファインチューニング: ファインチューニングは、特定のタスクに関するラベル付きデータセットを用いて、事前学習済みモデルのパラメータを逆伝播によって更新(調整)するプロセスです。これにより、モデルの知識が恒久的に変更されます 3。
データと計算コストのトレードオフ
データ要件と計算コストの観点では、両者は対照的なトレードオフを示します。
- ICL:
- データ要件: プロンプトに含める少数の例のみを必要とするため、非常にデータ効率が高いです 3。ラベル付きデータが乏しい状況で大きな利点となります。
- 計算コスト: 主なコストは推論時に発生します。デモンストレーションを含む長いプロンプトは、処理するトークン数を増加させ、APIコストとレイテンシ(応答時間)を増大させます 7。
- ファインチューニング:
- データ要件: 比較的大規模なラベル付き訓練データセットを必要とします 3。
- 計算コスト: 主なコストは、一度きりの高価な訓練(チューニング)プロセスで発生します 3。しかし、一度ファインチューニングされたモデルは、知識がモデル内部に「焼き付けられる」ため、推論時のプロンプトが短くて済み、ICLよりも高速かつ安価に推論を実行できる場合があります 7。
このトレードオフは、アプリケーションのライフサイクル全体で考慮すべき重要な点です。ICLは初期コストが低い代わりに、推論ごとに継続的なコストがかかります。一方、ファインチューニングは高い初期投資を必要としますが、推論あたりの運用コストを削減できる可能性があります。
性能と汎化能力
性能と汎化能力に関しても、両者には異なる特性があります。
- タスク固有性能: 従来、十分な訓練データがある場合、ファインチューニングは特定のタスクにおいてICLよりも高い精度を達成すると考えられてきました 6。モデルをタスクに特化させるため、その領域内での性能は非常に高くなります。
- 汎化能力: ICLは、モデルの広範な事前学習知識に依存するため、ファインチューニング用の特定のデータセットに過適合するリスクが低く、分布外(Out-of-Distribution, OOD)のデータに対する汎化能力が高いと主張されてきました 3。しかし、近年の厳密な比較研究では、この見解は必ずしも正しくなく、大規模なモデルを適切にファインチューニングすれば、ICLと同等かそれ以上の汎化性能を発揮できることも示されています 66。
- 長文脈モデルの影響: 長文脈モデルの登場は、この性能比較の構図をさらに複雑にしています。数百、数千の例を用いたMany-shot ICLは、同量のデータでファインチューニングした場合の性能に匹敵、あるいはそれを超えることさえあります 27。これにより、性能面でのファインチューニングの絶対的な優位性は揺らぎつつあります。
柔軟性とユースケース
これらの特性から、ICLとファインチューニングは異なるユースケースに適しています。
- ICLのユースケース: 迅速なプロトタイピング、タスクが頻繁に変わる動的な環境、あるいはラベル付きデータが限られている状況に最適です 3。その場でタスクに適応できる柔軟性が最大の強みです。
- ファインチューニングのユースケース: 高い精度が絶対的に求められる、安定的で長期的なタスクに「知識を焼き付ける」場合に最適です。例えば、特定の疾患を診断する医療ツールや、特定の業界用語を理解する専門的な顧客サポートボットなどが挙げられます 6。
- ハイブリッドアプローチ: 両者は排他的な関係ではなく、組み合わせることも可能です。ファインチューニングされたモデルに対してICLを用いることで、特定の専門知識を持ちつつ、文脈に応じた柔軟な対応が可能になります 1。また、ICLを用いて迅速にプロトタイプを開発し、その過程で生成されたデータを初期の訓練データセットとして、後のファインチューニングに活用するという開発フローも有効です 7。
以下の表は、ICLとファインチューニングの多角的な比較をまとめたものです。これは、実践者が自身の要件に最適な適応戦略を選択するための意思決定フレームワークとして機能します。
Table 1: モデル適応戦略の比較分析:ICL vs. ファインチューニング
| 特徴 | In-Context Learning (ICL) | ファインチューニング (FT) |
| パラメータ更新 | なし(重みは凍結) | あり(重みを変更) |
| データ依存性 | プロンプト内の少数の例 | より大規模なラベル付きデータセットが必要 |
| 訓練コスト | 低い(訓練不要) | 高い(一度きりの訓練コスト) |
| 推論コスト/レイテンシ | 高い(コンテキスト長に比例) | 低い(知識は「焼き付け」済み) |
| 柔軟性 | 高い(動的なタスク切り替えが可能) | 低い(特定のタスクに特化) |
| タスク特化度 | 低い(汎用モデル) | 高い(専門モデル) |
| 汎化能力 | OODに強い傾向があるが、一概には言えない | 過適合のリスクがあるが、大規模モデルでは高い汎化も可能 |
| 主要なユースケース | プロトタイピング、動的タスク、データ希少なシナリオ | 安定した本番システム、深いドメイン専門知識が必要なタスク |
Section 8: ベンチマーキングと評価
In-Context Learning(ICL)の性能を客観的かつ再現可能な方法で評価することは、その能力を理解し、異なるモデルや手法を比較する上で不可欠です。しかし、ICLの評価には特有の課題が伴います。このセクションでは、ICLの性能評価に用いられる主要なベンチマークと、その評価手法における課題について議論します。
標準的なベンチマーク
ICLの能力は、多様なNLPタスクを網羅的に評価するために設計された、大規模で包括的なベンチマークを用いて測定されることが一般的です。
- BIG-bench (Beyond the Imitation Game): このベンチマークは、言語モデルの能力と限界を探るために、非常に広範なタスクを集約したものです 68。単純な言語理解から、複雑な推論や創造性を要するタスクまで、その範囲は多岐にわたります。
- HELM (Holistic Evaluation of Language Models): スタンフォード大学が主導するHELMは、言語モデルを多角的に評価するための「生きたベンチマーク」です 68。精度だけでなく、頑健性、公平性、効率性といった複数の指標にわたって、透明性の高い評価を目指しています。HELMは、評価の再現性を確保するため、すべてのテストケースで単一のランダムサンプリングされたデモンストレーションセットを使用するという標準化されたアプローチを採用しています 69。
評価における課題
ICLの評価は、その性質上、いくつかの困難な課題に直面します。
- Few-shot設定への適応: 従来のNLPベンチマークの多くは、大量の訓練データを用いることを前提として設計されています。これらをICLのFew-shot設定で評価するためには、ベンチマーク自体を適応させる必要があります 71。
- プロンプトへの感度: ICLの性能は、選択されたデモンストレーション、その順序、そしてプロンプトのテンプレートといった要素に極めて敏感です 11。この感度は評価結果にノイズをもたらし、異なる研究間での公正な比較を困難にします。わずかなプロンプトの違いが性能を大きく左右するため、あるモデルが特定のタスクで優れているという結論が、プロンプトの設計に起因するものなのか、モデル自体の能力に起因するものなのかを切り分けるのが難しいのです。
- 企業固有のベンチマークの欠如: BIG-benchやHELMのような学術的なベンチマークは汎用的な能力を測定しますが、金融、法律、医療といった特定の業界ドメインに特化したタスクでの性能を評価するには不十分です。このギャップを埋めるための企業固有のベンチマーク開発が、現在活発に進められている研究分野です 68。
長文脈モデルの評価
近年の長文脈モデルの登場は、新たな評価の必要性を生み出しました。従来のベンチマークでは、数千トークンを超える文脈を扱う能力を十分に測定できません。
- HELMET (How to Evaluate Long-context Models Effectively and Thoroughly): このベンチマークは、長文脈モデルの評価に特化して設計されています 73。HELMETは、RAG(Retrieval-Augmented Generation)やMany-shot ICLなど、7つの実践的なアプリケーションカテゴリをカバーし、最大128kトークンまでの制御可能な長さでモデルを評価します。
- 合成タスクの限界: HELMETを用いた研究から得られた重要な知見の一つは、「Needle-in-a-Haystack」(干し草の中の針)のような単純な合成タスクの性能が、現実世界の長文脈タスクにおける性能を予測する上で、信頼性の低い指標であるということです 75。これは、長文脈能力を評価するためには、より現実的で複雑なタスクに基づいたベンチマークが不可欠であることを示唆しています。
結論として、ICLの評価は、その動的で文脈依存的な性質ゆえに、静的なデータセットに対する従来の評価パラダイムに挑戦を突きつけています。HELMやHELMETのような標準化された、かつ多角的な評価フレームワークの発展は、ICLの真の能力を解明し、より信頼性の高いモデル開発を導く上で極めて重要です。
Part IV: In-Context Learningのフロンティア
In-Context Learning(ICL)の研究は、その基礎的なメカニズムの解明から、新たなモデルアーキテクチャや応用領域へと急速にそのフロンティアを拡大しています。本章では、ICLの未来を形作る最先端の研究動向を探求します。長文脈モデルがもたらす革命、Transformer以外のアーキテクチャにおけるICLの可能性、そして、この強力な能力に伴う頑健性、セキュリティ、継続的学習といった重大な課題について、詳細に分析します。
Section 9: 長文脈革命
近年の大規模言語モデルにおける最も劇的な進展の一つは、コンテキストウィンドウの爆発的な拡大です。Gemini 1.5 Proのようなモデルが100万から200万トークンという広大なコンテキストウィンドウを実装したことで 28、ICLは新たな次元へと突入しました。これは単なる量的な変化ではなく、モデル適応の質的な転換、すなわち「長文脈革命」と呼ぶべきパラダイムシフトを引き起こしています。
Few-shotからMany-shotへ
長文脈ウィンドウの最も直接的なインパクトは、Many-shot ICLの実現です 26。これにより、プロンプト内に数百、数千ものデモンストレーションを含めることが可能になりました。この膨大な量の文脈情報は、特に複雑なタスクにおいて、モデルの性能を劇的に向上させることが示されています 27。Few-shotがタスクの「ヒント」を与えるのに対し、Many-shotはタスクの「教科書」を与えるようなものであり、より詳細で曖昧さのないタスク仕様をモデルに伝えることができます。
ICL vs. ファインチューニングの再定義
長文脈革命は、ICLとファインチューニングの間の伝統的なトレードオフ関係を根本から覆しました。従来、最高の性能を求めるならばファインチューニングが優位とされてきましたが、十分な数の例を用いた長文脈ICLは、同量のデータでファインチューニングしたモデルの性能に匹敵、あるいはそれを凌駕するケースが報告されています 29。これにより、ICLは単なるプロトタイピング手法から、高性能な本番システムを構築するための本格的な選択肢へと浮上しました。
RAGとの境界線の曖昧化
長文脈ウィンドウは、「プロンプトスタッフィング」と呼ばれる、文書全体やナレッジベースを直接コンテキストに投入するアプローチを可能にしました。これにより、外部データベースから関連情報を検索してプロンプトに埋め込むという、複雑なRetrieval-Augmented Generation(RAG)パイプラインの必要性が低下しています 28。一部の研究者は、コンテキストウィンドウが十分に大きく、効率的になれば、RAGは最終的に時代遅れになる可能性があると予測しています 78。
エンジニアリング上の課題
この革命には代償も伴います。主な課題は、推論時のレイテンシとコストの増大です。標準的なTransformerアーキテクチャでは、計算量がコンテキスト長の二乗に比例して増加するため、長文脈の処理は計算集約的になります 10。この問題を緩和するため、一度処理したプロンプトの計算結果を再利用するコンテキストキャッシングのような最適化技術が不可欠です 28。
長文脈ウィンドウは、LLMを単なる言語生成器から、一種の汎用計算デバイスへと変貌させました。この視点では、LLMはCPUとRAMを備えたコンピュータに類似しています。モデルの固定された重みは、その基本的な処理能力を定義する「CPU」に相当します。そして、コンテキストウィンドウは、実行時に「プログラム」(クエリと指示)と「データ」(Many-shotの例)がロードされる、巨大で一時的な連想「作業メモリ(RAM)」として機能します 14。
このアナロジーで考えると、Many-shot ICLは、この広大な作業メモリに大規模なデータセットをロードし、「CPU」(LLMの重み)にそのデータ上で強力な暗黙的学習アルゴリズム(例えばベイジアン推論やk-NN探索)を実行させることに等しいと言えます。この見方は、なぜMany-shot ICLが複雑な数値関数を学習したり 27、ファインチューニングに匹敵する性能を発揮できるのか 65 を説明します。それは、事実上、大規模なインメモリデータセットに対してノンパラメトリックな分析を行っているからです。このことから、将来のLLM開発の方向性は、単に「CPU」を改良する(より良いアーキテクチャ、より多くのパラメータ)だけでなく、「RAM」を拡張し(より大きく、より効率的なコンテキストウィンドウ)、「バス速度」を向上させる(長文脈処理のレイテンシを削減する)ことにもあると言えるでしょう。
Section 10: 標準アーキテクチャとモダリティを超えて
ICLの研究は、テキストベースのTransformerアーキテクチャという枠を超え、新しいモデル構造や多様なデータモダリティへとその応用範囲を広げています。このセクションでは、State Space Model(SSM)のような非TransformerアーキテクチャにおけるICLの可能性と、言語の壁やモダリティの壁を越えるCross-LingualおよびCross-Modal ICLの最前線を探ります。
非TransformerアーキテクチャにおけるICL
Transformerの二次的な計算量スケーリングは、特に長文脈を扱う上での大きなボトルネックとなっています。この課題を克服するため、新しいアーキテクチャが提案されており、それらがICL能力を持つかどうかが活発に研究されています。
- State Space Model (SSM) と Mamba: Mambaに代表されるSSMは、系列長に対して線形のスケーリングを実現するTransformerの代替として注目されています 12。これにより、非常に長いシーケンスを効率的に処理できます。
- MambaのICL能力: 複数の研究により、Mambaが関数近似やNLPタスクなど、多くのタスクにおいてTransformerに匹敵するICL能力を示すことが実証されています 12。そのメカニズムもTransformerと同様に、内部表現を段階的に最適化するプロセスを経ていると考えられています 12。
- 限界とハイブリッドモデル: 一方で、SSMは非標準的な検索機能を必要とするタスクではTransformerに劣る場合があります。このため、SSMの効率性とTransformerの表現力を両立させるために、Mambaブロックとアテンションブロックを組み合わせたハイブリッドモデルが提案されており、それぞれのモデルが単独で苦手とするタスクで優れた性能を発揮することが示されています 82。
Cross-LingualおよびCross-Modal ICL
ICLのパラダイムは、単一言語のテキストデータから、複数の言語やモダリティを扱う領域へと拡張されています。
- Cross-Lingual ICL (XICL): ICLは、リソースの少ない言語(low-resource languages)にNLP技術を適用するための有望なアプローチです。プロンプト内で翻訳ペアなどの例を提供することで、大規模な非英語のラベル付きデータセットなしで、モデルに新しい言語のタスクを遂行させることができます 65。しかし、デモンストレーションとして利用できる高品質なアノテーション付きデータが不足していることや、言語間の類型的な多様性が大きな課題となっています 83。
- Cross-Modal ICL: マルチモーダルLLM(M-LLM)は、画像とテキストのペアのようなマルチモーダルなデモンストレーションを用いて、パラメータを更新することなく新しい視覚言語タスクに適応できます 84。この分野の研究は、マルチモーダルな入力に特化したデモンストレーションの検索、順序付け、プロンプト構築戦略の開発に焦点を当てており、急速に進展しています 84。
これらのフロンティアは、ICLが特定のアーキテクチャに限定されない、より普遍的な学習原理であることを示唆しています。効率的な長文脈処理が可能なSSMや、多様なデータを統合するマルチモーダルモデルにおけるICL能力の探求は、より汎用的でスケーラブルなAIシステムの実現に向けた重要な一歩と言えるでしょう。
Section 11: 頑健性、セキュリティ、継続的学習
In-Context Learning(ICL)がもたらす柔軟性とパワーは、同時に新たな脆弱性と課題を生み出します。プロンプトへの過度な依存は、モデルの振る舞いを不安定にし、悪意のある攻撃に対して脆弱にします。また、パラメータを更新しないというICLの性質は、継続的な学習という長年の課題に対して新たな視点を提供します。このセクションでは、ICLの信頼性と安全性を確保するための重要な研究領域である、頑健性、セキュリティ、そして継続的学習について論じます。
頑健性とキャリブレーション
ICLの性能は、プロンプトのわずかな違い、例えばデモンストレーションの選択や順序によって大きく変動することが知られており、その「脆さ(brittleness)」が大きな課題です 11。
- キャリブレーション(較正): この問題は、モデルの「キャリブレーション」と密接に関連しています。キャリブレーションとは、モデルが出力する信頼度スコアが、その予測の実際の正解率をどれだけ正確に反映しているかという指標です 87。ICLは、文脈バイアスにより、誤った予測に対して過剰な自信を示す「誤キャリブレーション(miscalibration)」を引き起こしやすい傾向があります 87。
- キャリブレーション手法: この問題を解決するため、バッチキャリブレーション(Batch Calibration, BC) 90 や
線形プローブキャリブレーション(Linear Probe Calibration, LinC) 72 といった手法が提案されています。これらの手法は、推論時に文脈から生じるバイアスを推定し、モデルの予測確率を補正することで、ICLの信頼性と頑健性を向上させることを目指します。
セキュリティの脆弱性と敵対的攻撃
プロンプトは、ICLベースのシステムにおける直接的な攻撃対象(アタックサーフェス)となります。攻撃者は、プロンプトを操作することで、モデルの振る舞いを意のままに操ることが可能です。
- デモンストレーション汚染(Poisoning): 攻撃者は、デモンストレーションコンテキストを「汚染」することで、モデルを騙すことができます 91。
- バックドア攻撃(ICLAttack): ICLAttackとして知られるバックドア攻撃では、デモンストレーションの例に特定の「トリガー」となる単語やフレーズを埋め込みます。ユーザーのクエリがこのトリガーを含む場合、モデルは攻撃者の意図した悪意のある出力を生成するように誘導されます 91。
- プロンプトインジェクション: デモンストレーションに知覚できないような敵対的な接尾辞を追加することで、モデルの注意を逸らし、出力を乗っ取ることが可能です 93。さらに、ICLはモデルの安全性に関するファインチューニングを「忘却」させ、有害なコンテンツを生成させるためにも利用され得ます 95。
バイアスと公平性
ICLは、事前学習データや、より直接的にはプロンプトで選択されたデモンストレーションに存在するバイアスを継承し、増幅させる可能性があります 2。これは、人種、性別、その他の属性に関する社会的な偏見を助長する可能性があり、公平性の観点から深刻な倫理的懸念を引き起こします 96。
継続的学習と破滅的忘却
- 破滅的忘却(Catastrophic Forgetting, CF): これは、ニューラルネットワークが新しいタスクについてファインチューニングされると、以前に学習したタスクの知識を忘れてしまうという現象です 101。
- ICLとCFの回避: ICLはパラメータを更新しないため、重みの変更に起因するこの種の破滅的忘却を本質的に回避します。この特性から、ICLは継続的学習(Continual Learning)を実現するための有望なアプローチと見なされています 101。
- ハイブリッドアプローチ: 自己合成リハーサル(Self-Synthesized Rehearsal, SSR) のようなフレームワークでは、この特性が巧みに利用されます。ベースとなるLLMがICLを用いて過去のタスクに関する合成データを生成し、そのデータをリハーサルに用いることで、継続的にファインチューニングされるモデルが過去の知識を忘れるのを防ぎます。これにより、古いデータを保存し続ける必要がなくなります 103。
これらの課題は、ICLが単なる便利なツールではなく、慎重な設計と監視を必要とする強力な技術であることを示しています。頑健なキャリブレーション手法、敵対的攻撃に対する防御策、そしてバイアスを意識したプロンプト設計は、ICLを安全かつ責任ある形で社会に展開していく上で不可欠な研究分野です。
Section 12: ICLの本番環境への導入におけるエンジニアリング
In-Context Learning(ICL)を研究室の実験から、現実世界のアプリケーション、すなわち本番環境へと展開するには、理論的な理解だけでは不十分であり、一連の複雑なエンジニアリング上の課題を克服する必要があります。このセクションでは、ICLベースのシステムを安定して、スケーラブルかつ効率的に運用するための実践的な課題とベストプラクティスについて詳述します。
主要な課題
ICLを本番環境で運用する際には、以下のような特有の課題が生じます。
- レイテンシとコスト: 長いプロンプトはICLの性能を高めますが、それは直接的にトークン数の増加を意味し、API利用料の増大と推論時間の遅延につながります 10。特にリアルタイム性が求められるアプリケーションでは、このレイテンシが致命的な問題となる可能性があります。
- プロンプトの管理とバージョニング: プロンプトは、ICLベースのシステムの振る舞いを決定する「ソースコード」と見なすべきです。したがって、再現性を確保し、変更を管理するためには、プロンプトに対するバージョン管理、自動テスト、そしてCI/CD(継続的インテグレーション/継続的デプロイメント)パイプラインの導入が不可欠です 105。
- モニタリングとデータドリフト: 本番システムでは、性能、レイテンシ、コストといった主要なメトリクスを追跡するための堅牢なモニタリング体制が必要です。さらに重要なのが「データドリフト」の検出です。これは、現実世界のクエリの分布が時間とともに変化し、プロンプト内の静的なデモンストレーションが時代遅れになり、効果を失ってしまう現象です 105。
- インフラストラクチャとスケーラビリティ: LLMの運用には、変動する負荷に対応できるスケーラブルなインフラストラクチャ(例:Kubernetes)が必要です。その際、FastAPIのような汎用Webサーバーを用いるか、専用のモデルサービングソリューションを用いるかは、開発チームの習熟度とML特有の最適化の必要性との間のトレードオフとなります 105。
ベストプラクティス
これらの課題に対処し、ICLベースのシステムを成功させるためには、以下のようなベストプラクティスが推奨されます。
- 単純さから始める: 開発の初期段階では、まずZero-shotから始め、性能目標を達成するために必要な場合にのみ、段階的にFew-shotやCoTといった複雑な手法を導入するべきです 8。これにより、不要な複雑さとコストを回避できます。
- 評価の自動化: プロンプトの変更が意図しない性能低下(リグレッション)を引き起こさないように、基準となるデータセット(ゴールデンデータセット)に対してプロンプトのバリエーションを自動的にテストする評価スイートを構築することが重要です 50。
- コストとレイテンシの最適化: 長文脈モデルを使用する際は、コンテキストキャッシングのような技術を活用してコストとレイテンシを削減します 28。一方で、タスクが安定的でトラフィック量が多い場合は、初期投資としてファインチューニングを行い、継続的な推論コストを削減するという戦略的判断も考慮すべきです 7。
- 検索拡張ICL(Retrieval-Augmented ICL): 最新の情報やドメイン固有の知識が必要なタスクでは、ICLとRAG(Retrieval-Augmented Generation)を組み合わせるのが効果的です。VectorDBなどを用いて、推論時に関連性の高い例や文脈の断片を動的に検索し、プロンプトに挿入することで、モデルは常に最新かつ適切な情報に基づいて応答を生成できます 1。
結論として、ICLの本番導入は、単に優れたプロンプトを作成するだけでなく、ソフトウェアエンジニアリングとMLOpsの原則に基づいた、体系的で規律あるアプローチを必要とします。プロンプトを資産として管理し、性能を継続的に監視し、インフラを賢く選択することが、ICLのポテンシャルを最大限に引き出し、持続可能な価値を生み出すための鍵となります。
Part V: 統合と将来展望
本レポートでは、In-Context Learning(ICL)の基礎から、その複雑なメカニズム、実践的な応用、そして最先端の研究動向までを包括的に探求してきました。最終章となる本章では、これまでの分析を統合し、ICLの能力の限界を冷静に評価するとともに、人工汎用知能(AGI)への道程におけるその役割を批判的に考察します。そして、ICLと他のモデル適応手法がどのように共進化していくのかを展望し、AIの未来におけるICLの位置づけを明らかにします。
Section 13: ICLの限界とAGIへの道
ICLはLLMに驚異的な適応能力をもたらしましたが、その能力には明確な限界が存在します。これらの限界を理解することは、ICLを過度に神格化することなく、その真の可能性と、AGI(人工汎用知能)の実現に向けた課題を正しく認識するために不可欠です。
現在の限界
- 仕様が重いタスク(Specification-Heavy Tasks): ICLは、複雑で広範、かつ微妙なニュアンスを持つ仕様を伴うタスク、例えば伝統的な情報抽出(固有表現抽出など)において、性能が著しく低下することが示されています 110。人間が習得するのに数時間を要するような複雑なタスクスキーマを、プロンプトという限られた帯域幅で完全に伝達することは困難です 110。
- 推論 vs. 真の学習: ICLに対する中心的な批判の一つは、それが「真の学習」ではないという点です。ICLはモデルの知識ベースを恒久的に更新せず、過去のインタラクションから学びを積み重ねることがありません 1。それは強力な一時的適応ではあっても、持続的な知識獲得のメカニズムではないのです。この「忘却性」は、経験から継続的に成長する知能とは根本的に異なります。
- 表現能力の制約: ICLによってTransformerが学習できる関数は無限ではありません。例えば、他のアルゴリズムでは容易に解けるパリティ学習のようなタスクに苦戦することが示されており、文脈内で学習可能なアルゴリズムの表現能力には限界があることを示唆しています 24。
AGIへの一歩としてのICL
ICLがAGIへの道筋においてどのような位置を占めるかについては、議論が分かれています。
- AGIへの貢献を支持する見解: ICLが示すメタ学習能力や、指示と少数の例から新しいタスクに迅速に適応する能力は、汎用知能の重要な特徴です 112。この人間らしい学習スタイルは、より柔軟で汎用的なAIへの重要な一歩と見なすことができます 11。
- 批判的な見解: 一方で、現在のICLは脆く、真の記憶や身体性(embodiment)を欠き、因果関係の理解や記号接地(symbol grounding)といったAGIの基礎となる問題を解決していません 110。それは、人間の思考における高速で直感的な「システム1」思考の高度な形態とは言えるかもしれませんが、熟慮的で論理的な「システム2」思考には及ばない可能性があります。本質的には、洗練されたパターンマッチングと類推であり、真の理解や知識創造のメカニズムではないという批判です。
結論として、ICLはAGIの完全な実現ではありませんが、その探求の過程で不可欠なマイルストーンです。ICLの限界を明らかにすることは、次世代のAIアーキテクチャが克服すべき課題、すなわち、より持続的で、因果関係を理解し、物理世界に接地した学習メカニズムの必要性を浮き彫りにします。
Section 14: モデル適応の未来
ICLの登場は、モデル適応の未来像を大きく塗り替えました。未来は、ICLかファインチューニングかという二者択一ではなく、両者の長所を融合させた、より動的で効率的なハイブリッドアプローチへと向かっています。
ICLとファインチューニングの収束
ICLとファインチューニングは、対立するパラダイムではなく、適応手法のスペクトラムの両端に位置し、将来的にはその境界がますます曖昧になっていくでしょう。
- ファインチューニングの代替としての長文脈ICL: コンテキストウィンドウが拡大し続けるにつれて、Many-shot ICLは多くのタスクにおいてファインチューニングの実行可能な代替手段となり、同等以上の性能をより高い柔軟性で提供するようになります 27。
- ICLのためのファインチューニング(メタ学習): モデルは、より優れた「In-Context Learner」になるために、特別にファインチューニングされるようになります。これは、MetaICL 114 やインストラクションチューニング 67 のように、ICL形式で構造化された多種多様なタスク上でモデルを訓練することを意味します。これにより、モデルはタスクを解くだけでなく、「タスクの解き方を学ぶ方法」そのものを学習します。
- 動的適応(Dynamic Adaptation): Long Input Fine-Tuning (LIFT) 115 やテスト時訓練 115 のような研究は、モデルが長い入力に基づいて動的かつ効率的に自身のパラメータを更新する未来を示唆しています。これは、ICLの一時的な文脈内適応と、ファインチューニングの恒久的な重み学習との間の境界を真に曖昧にするものです。
世界モデル適応としてのICL
ICLの究極的なビジョンは、モデルが単に個別のタスクを学習するのではなく、新しい情報に基づいて自身の内部的な「世界モデル」をリアルタイムで継続的に適応させていくことです。これは、専門化されたユーザー訓練済みのモジュールが中核となるLLMと連携するモジュラーアーキテクチャによって実現されるかもしれません 116。このようなシステムは、破滅的忘却を起こすことなく、効率的でパーソナライズされた継続的な進化を可能にするでしょう。
結論的展望
モデル適応の軌跡は、静的な事前学習済みモデルから、動的で継続的に学習するシステムへと明確に移行しています。ICLは、推論時適応の力を示すことで、この方向への最初の大きな一歩を踏み出しました。未来は、その場での推論のための広大な文脈を持つICLと、持続的な知識獲得のための効率的で動的なパラメータ更新がシームレスに統合されたハイブリッドな姿を描いています。これにより、AIシステムは、今日我々が知るものよりもはるかに適応性が高く、パーソナルで、有能な存在へと進化していくことでしょう。ICLは、その進化の物語における序章に過ぎないのです。
引用文献
- What is In Context Learning (ICL)? – Hopsworks https://www.hopsworks.ai/dictionary/in-context-learning-icl
- What is In-context Learning, and how does it work: The Beginner’s Guide – Lakera AI https://www.lakera.ai/blog/what-is-in-context-learning
- What is In-Context Learning? How LLMs Learn From ICL Examples – PromptLayer https://blog.promptlayer.com/what-is-in-context-learning/
- What is In-Context Learning of LLMs? – IKANGAI https://www.ikangai.com/what-is-in-context-learning-of-llms/
- A Survey on In-context Learning – ACL Anthology https://aclanthology.org/2024.emnlp-main.64/
- Key AI Methodologies: Fine-Tuning vs. In-Context Learning – AI-Pro.org https://ai-pro.org/learn-ai/articles/optimal-strategies-for-ai-performance-fine-tune-vs-incontext-learning/
- Pre-training vs Fine-Tuning vs In-Context Learning of Large Language Models https://www.entrypointai.com/blog/pre-training-vs-fine-tuning-vs-in-context-learning-of-large-language-models/
- Best practices for prompt engineering with the OpenAI API https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-the-openai-api
- Explaining In-Context Learning in LLMs – Metric Coders https://www.metriccoders.com/post/explaining-in-context-learning-in-llms
- In-Context Learning: Enhancing Model Performance – Label Your Data https://labelyourdata.com/articles/in-context-learning
- A Survey on In-context Learning – ACL Anthology https://aclanthology.org/2024.emnlp-main.64.pdf
- Is Mamba Capable of In-Context Learning? – GitHub https://raw.githubusercontent.com/mlresearch/v256/main/assets/grazzi24a/grazzi24a.pdf
- Is Mamba Capable of In-Context Learning? – OpenReview https://openreview.net/forum?id=rJhOG0P8nr
- Leveraging In-Context Learning – Achieving Long Contexts for Enhanced LLM Performance https://floatbot.ai/tech/In-context-learning-llms
- arXiv:2301.00234v6 [cs.CL] 5 Oct 2024 http://arxiv.org/pdf/2301.00234
- In Context Learning Guide – PromptHub https://www.prompthub.us/blog/in-context-learning-guide
- Zero-Shot vs One-Shot vs Few-Shot Learning | GeeksforGeeks https://www.geeksforgeeks.org/zero-shot-vs-one-shot-vs-few-shot-learning/
- What is In-Context Learning? Simply Explained – FinetuneDB https://finetunedb.com/blog/what-is-in-context-learning-simply-explained/
- 0-Shot vs Few-Shot vs Partial-Shot Examples in Language Model Learning https://promptengineering.org/0-shot-vs-few-shot-vs-partial-shot-examples-in-language-model-learning/
- [D] What is the difference between few-, one- and zero-shot learning? : r/MachineLearning https://www.reddit.com/r/MachineLearning/comments/boitjj/d_what_is_the_difference_between_few_one_and/
- LLMs: Why does in-context learning work? What exactly is happening from a technical perspective? : r/learnmachinelearning – Reddit https://www.reddit.com/r/learnmachinelearning/comments/1cdif8m/llms_why_does_incontext_learning_work_what/
- Rethinking the Role of Demonstrations: What … – ACL Anthology https://aclanthology.org/2022.emnlp-main.759.pdf
- Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? https://aclanthology.org/2022.emnlp-main.759/
- Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions | OpenReview https://openreview.net/forum?id=ekeyCgeRfC
- Solving a machine-learning mystery | MIT News | Massachusetts Institute of Technology https://news.mit.edu/2023/large-language-models-in-context-learning-0207
- Unlocking the Power of Many-Shot In-Context Learning in LLMs – Zilliz https://zilliz.com/learn/unlock-power-of-many-shot-in-context-learning-in-llms
- Many-Shot In-Context Learning – NIPS https://proceedings.neurips.cc/paper_files/paper/2024/file/8cb564df771e9eacbfe9d72bd46a24a9-Paper-Conference.pdf
- What is long context and why does it matter for AI? | Google Cloud Blog https://cloud.google.com/transform/the-prompt-what-are-long-context-windows-and-why-do-they-matter
- In-Context Learning with Long-Context Models: An In-Depth Exploration – ACL Anthology https://aclanthology.org/2025.naacl-long.605.pdf
- How is a LLM able to override its prior knowledge through In-Context Learning? https://ai.stackexchange.com/questions/45637/how-is-a-llm-able-to-override-its-prior-knowledge-through-in-context-learning
- [2111.02080] An Explanation of In-context Learning as Implicit Bayesian Inference – arXiv https://arxiv.org/abs/2111.02080
- An Explanation of In-context Learning as Implicit Bayesian Inference https://arxiv.org/pdf/2111.02080
- An Explanation of In-context Learning as Implicit Bayesian Inference – ICLR 2022 – YouTube https://www.youtube.com/watch?v=O4WMiIJwgd4
- AN EXPLANATION OF IN-CONTEXT LEARNING AS IMPLICIT BAYESIAN INFERENCE https://www.cl.uni-heidelberg.de/courses/ss25/the_mystery_of_in-context_learning_of_llms/papers/XieICLR2022.pdf
- Large Language Models Are Implicitly Topic Models: Explaining and Finding Good Demonstrations for In-Context Learning https://www.cl.uni-heidelberg.de/courses/ss25/the_mystery_of_in-context_learning_of_llms/papers/WangICML2023.pdf
- [2501.16825] Can Transformers Learn Full Bayesian Inference in Context? – arXiv https://arxiv.org/abs/2501.16825
- In-Context Learning for Full Bayesian Inference – OpenReview https://openreview.net/forum?id=a79bwlyUNp
- In-context Learning and Induction Heads – Transformer Circuits Thread https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html
- arXiv:2311.00237v3 [cs.CL] 3 Oct 2024 https://arxiv.org/pdf/2311.00237
- Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens – NIPS https://proceedings.neurips.cc/paper_files/paper/2024/file/01a8d63f9cb6dcbaa3092ccddd2075ac-Paper-Conference.pdf
- (PDF) Towards the Effect of Examples on In-Context Learning: A Theoretical Case Study https://www.researchgate.net/publication/384929372_Towards_the_Effect_of_Examples_on_In-Context_Learning_A_Theoretical_Case_Study
- In-Context Learning by Linear Attention: Exact Asymptotics and Experiments – OpenReview https://openreview.net/pdf?id=Jw3ck7FWZh
- Asymptotic theory of in-context learning by linear attention – arXiv https://arxiv.org/html/2405.11751v1
- Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? – arXiv https://arxiv.org/abs/2202.12837
- NeurIPS Poster Where does In-context Learning Happen in Large Language Models? https://nips.cc/virtual/2024/poster/95599
- Mitigating Copy Bias in In-Context Learning through Neuron Pruning – OpenReview https://openreview.net/forum?id=Hs1UTIOwKr
- Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning – arXiv https://arxiv.org/html/2406.14022v1
- Schema-learning and rebinding as mechanisms of in-context learning and emergence https://proceedings.neurips.cc/paper_files/paper/2023/hash/5bc3356e0fa1753fff7e8d6628e71b22-Abstract-Conference.html
- In-Context Learning through the Bayesian Prism – arXiv https://arxiv.org/html/2306.04891v2
- Best practices for LLM prompt engineering – Palantir https://www.palantir.com/docs/foundry/aip/best-practices-prompt-engineering
- Effective Prompts for AI: The Essentials – MIT Sloan Teaching & Learning Technologies https://mitsloanedtech.mit.edu/ai/basics/effective-prompts/
- Prompt engineering best practices for In-Context Learning : r … https://www.reddit.com/r/aipromptprogramming/comments/1g8uimj/prompt_engineering_best_practices_for_incontext/
- In-Context Learning best practices : r/PromptDesign – Reddit https://www.reddit.com/r/PromptDesign/comments/1g8uihx/incontext_learning_best_practices/
- What is chain of thought (CoT) prompting? | IBM https://www.ibm.com/think/topics/chain-of-thoughts
- Chain-of-Thought Prompting https://learnprompting.org/docs/intermediate/chain_of_thought
- Chain of Thought Prompting Guide – PromptHub https://www.prompthub.us/blog/chain-of-thought-prompting-guide
- Chain-of-Thought Prompting | Prompt Engineering Guide https://www.promptingguide.ai/techniques/cot
- Chain of Thought Prompting Explained (with examples) – Codecademy https://www.codecademy.com/article/chain-of-thought-cot-prompting
- 1月 1, 1970にアクセス、 https.www.promptingguide.ai/techniques/cot
- The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning – arXiv https://arxiv.org/abs/2504.05081
- Ultimate Guide to Prompt Engineering + Examples – Coralogix https://coralogix.com/ai-blog/ultimate-guide-to-prompt-engineering-examples/
- Comprehensive Guide to Prompt Engineering Techniques and Applications – Deepchecks https://www.deepchecks.com/comprehensive-guide-to-prompt-engineering-techniques-and-applications/
- Latest Modern Advances in Prompt Engineering: A Comprehensive Guide – Unite.AI https://www.unite.ai/latest-modern-advances-in-prompt-engineering-a-comprehensive-guide/
- Tree of Thoughts (ToT): Enhancing Problem-Solving in LLMs – Learn Prompting https://learnprompting.org/docs/advanced/decomposition/tree_of_thoughts
- In-Context Learning: Extreme vs. Fine-Tuning, RAG https://meta-quantum.today/?p=2990
- Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation – ACL Anthology https://aclanthology.org/2023.findings-acl.779.pdf
- Many-Shot In-Context Fine-Tuning for Large Language Model – arXiv https://arxiv.org/html/2506.11103v1
- Evaluating Large Language Models with Enterprise Benchmarks – ACL Anthology https://aclanthology.org/2025.naacl-industry.40.pdf
- Enterprise Benchmarks for Large Language Model Evaluation – arXiv https://arxiv.org/html/2410.12857v1
- Benchmarks – PRIMO.ai https://primo.ai/index.php/Benchmarks
- A Survey on In-Context Learning: The Paper | blog_posts – Weights & Biases – Wandb https://wandb.ai/vincenttu/blog_posts/reports/A-Survey-on-In-Context-Learning-The-Paper–Vmlldzo1MzAxNjA4
- Enhancing In-context Learning via Linear Probe Calibration https://proceedings.mlr.press/v238/abbas24a.html
- princeton-nlp/HELMET: The HELMET Benchmark – GitHub https://github.com/princeton-nlp/HELMET
- HELMET: How to Evaluate Long-context Models Effectively and Thoroughly – OpenReview https://openreview.net/forum?id=293V3bJbmE
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly https://arxiv.org/html/2410.02694v1
- What is a long context window? Google DeepMind engineers explain https://blog.google/technology/ai/long-context-window-ai-models/
- Long context | Gemini API | Google AI for Developers https://ai.google.dev/gemini-api/docs/long-context
- Why larger LLM context windows are all the rage – IBM Research https://research.ibm.com/blog/larger-context-window
- Mamba Explained – The Gradient https://thegradient.pub/mamba-explained/
- Mamba (Transformer Alternative): The Future of LLMs and ChatGPT? – Lazy Programmer https://lazyprogrammer.me/mamba-transformer-alternative-the-future-of-llms-and-chatgpt/
- Is Mamba Capable of In-Context Learning? – arXiv https://arxiv.org/html/2402.03170v2
- Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks https://huggingface.co/papers/2402.04248
- Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning – arXiv https://arxiv.org/html/2412.08955v1
- What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration https://neurips.cc/virtual/2024/poster/95185
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval – OpenReview https://openreview.net/pdf/46467af8ed3882a4ec91a6a3132ae897cb124e83.pdf
- Cross-Lingual Semantic Alignment in Large Language Models via Context-Aware Training https://www.preprints.org/manuscript/202503.0935/v1
- Beyond Capable: Accuracy, Calibration, and Robustness in Large Language Models https://insights.sei.cmu.edu/blog/beyond-capable-accuracy-calibration-and-robustness-in-large-language-models/
- Generative Calibration for In-context Learning – OpenReview https://openreview.net/forum?id=sxJU7X2ZG0¬eId=IfRNJI8w7f
- [2312.04021] A Study on the Calibration of In-context Learning – arXiv https://arxiv.org/abs/2312.04021
- Batch calibration: Rethinking calibration for in-context learning and prompt engineering https://research.google/blog/batch-calibration-rethinking-calibration-for-in-context-learning-and-prompt-engineering/
- Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks – arXiv https://arxiv.org/html/2401.05949v3
- Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning – ACL Anthology https://aclanthology.org/2024.emnlp-main.642.pdf
- [2311.09948] Hijacking Large Language Models via Adversarial In-Context Learning – arXiv https://arxiv.org/abs/2311.09948
- Hijacking Large Language Models via Adversarial In-Context Learning – OpenReview https://openreview.net/forum?id=rWn9hGiHMa
- In-Context Learning, Can It Break Safety? – OpenReview https://openreview.net/pdf?id=MHv9fS3M1R
- Ethical Implications of Bias in Machine Learning – ResearchGate https://www.researchgate.net/publication/323378868_Ethical_Implications_of_Bias_in_Machine_Learning
- Mitigating Label Biases for In-context Learning – ACL Anthology https://aclanthology.org/2023.acl-long.783.pdf
- 2022 Volume 4 Bias and Ethical Concerns in Machine Learning – ISACA https://www.isaca.org/resources/isaca-journal/issues/2022/volume-4/bias-and-ethical-concerns-in-machine-learning
- Machine Learning Ethics: Understanding Bias and Fairness | Vation Ventures Research https://www.vationventures.com/research-article/machine-learning-ethics-understanding-bias-and-fairness
- Bias in context: What to do when complete bias removal is not an option – PNAS https://www.pnas.org/doi/10.1073/pnas.2304710120
- In-context Continual Learning Assisted by an External Continual Learner – ACL Anthology https://aclanthology.org/2025.coling-main.487.pdf
- Overcoming catastrophic forgetting in neural networks – PNAS https://www.pnas.org/doi/10.1073/pnas.1611835114
- Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal – ACL Anthology https://aclanthology.org/2024.acl-long.77.pdf
- Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal – arXiv https://arxiv.org/html/2403.01244v1
- Model Deployment Made Easy: Bridging the Gap to Production | Pecan AI https://www.pecan.ai/blog/model-deployment-gap-ml-production/
- CHALLENGES IN THE DEPLOYMENT AND OPERATION OF MACHINE LEARNING IN PRACTICE – KIT https://publikationen.bibliothek.kit.edu/1000095028/32676755
- Challenges of deploying ML models in production | Anyscale https://www.anyscale.com/blog/challenges-of-deploying-ml-models-in-production
- Best Practices for Deploying Large Language Models in Production https://devsummit.infoq.com/presentation/boston2024/best-practices-deploying-large-language-models-production
- In-context learning vs RAG in LLMs: A Comprehensive Analysis – ADaSci https://adasci.org/in-context-learning-vs-rag-in-llms-a-comprehensive-analysis/
- When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks https://openreview.net/forum?id=Cw6lk56w6z
- Assessing the Limits of In-Context Learning beyond Functions using Partially Ordered Relation – arXiv https://arxiv.org/html/2506.13608v1
- In-context operator learning with data prompts for differential equation problems – PNAS https://www.pnas.org/doi/10.1073/pnas.2310142120
- Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches – arXiv https://arxiv.org/html/2501.03151v1
- dqxiu/ICL_PaperList: Paper List for In-context Learning – GitHub https://github.com/dqxiu/ICL_PaperList
- LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning – arXiv https://arxiv.org/html/2502.14644v3
- Modular Real-Time Adaptation for Large Language Models : r/OpenAI – Reddit https://www.reddit.com/r/OpenAI/comments/1lcot9p/modular_realtime_adaptation_for_large_language/


