プロンプトエンジニアリングのレビュー論文のまとめ：技術、応用、評価、課題、および将来展望

1. プロンプトエンジニアリング序論

1.1. 大規模モデルの台頭と効果的なインタラクションの必要性

近年、大規模言語モデル（LLM）や視覚言語モデル（VLM）/マルチモーダル大規模言語モデル（MLLM）の登場により、人工知能（AI）のパラダイムは大きく変化した ¹。これらのモデルは、膨大なデータセットで事前学習されており、広範な能力を持つ一方で、その潜在能力を最大限に引き出すためには効果的なガイダンスが必要となる ⁵。従来、特定のタスクにモデルを適応させる主要な手法はファインチューニングであったが、これには大量の計算リソースとタスク固有のデータセットが必要であり、コストと時間の面で大きな負担となる ⁷。

このファインチューニングの限界、すなわちリソースコストやデータ要件の高さが、事前学習済みモデルの重みを更新することなく、その挙動を制御する代替手法への強い需要を生み出した。この需要に応える形で登場したのがプロンプトエンジニアリングである。プロンプトエンジニアリングは、これらの強力な基盤モデルを、再トレーニングなしで特定のタスクや目的に向けて誘導するための重要なインターフェースとして急速に発展した ²。基盤モデルが強力かつ汎用的になるにつれて ¹、それらを適応させるためのファインチューニングのコスト ⁷ が課題となり、結果として、ファインチューニングを必要としないプロンプトエンジニアリング技術が不可欠なものとなったのである ²。

1.2. プロンプトエンジニアリングの定義：中核概念、目的、範囲

定義: 「プロンプト」とは、特定の応答を引き出すためにAIモデルに与えられる入力（テキスト、画像、コードなど）を指す ²。「プロンプトエンジニアリング」とは、これらのプロンプトを設計、作成、洗練、最適化し、AIモデル（特にLLM/VLM/MLLM）を望ましい、正確で、関連性の高い出力へと導くための技術および科学であると定義される ¹。これは、モデルの有用性と精度を最大化するために入力を構造化するプロセスである ³。

目的: 主な目的は、明確で文脈豊かな指示を与えることにより、AIモデルから望ましい、高品質で、正確かつ関連性の高い、一貫性のある出力を引き出すことである ¹。人間の意図と機械の出力との間のギャップを埋める役割を果たす ¹¹。

範囲: プロンプトエンジニアリングは、適切なフォーマット、単語、フレーズ、記号、例の選択 ²、指示の論理的な構造化 ¹⁵、文脈の提供 ¹、そしてプロンプトの反復的なテストと洗練 ¹³ を含む広範な活動を網羅する。これは反復的なプロセスである ²¹。

プロンプトの主要構成要素: 効果的なプロンプトは、多くの場合、指示（Instruction）、文脈（Context）、入力データ（Input Data）、そして場合によっては出力フォーマット指定子（Output Format Indicator）や例（Examples）を含む ¹。明確さ、具体性、曖昧さの回避が極めて重要である ¹。

プロンプトエンジニアリングは、当初は直感や創造性、試行錯誤に依存する「アート」としての側面が強調されていたが ¹¹、近年ではより体系的な「科学」または「エンジニアリング」分野へと進化しつつある。この進化は、構造化された技術、分類体系（タクソノミー）、最適化フレームワークの開発によって示されている ²。初期の記述では創造性や試行錯誤が重視されていたが ¹¹、最近の多くの調査研究は、分類体系の構築 ²、特定の名前付き技術（例：CoT、RAG）の定義、自動最適化手法の開発 ⁷ に焦点を当てている。さらに、「プロンプトウェアエンジニアリング」¹² のような概念の登場は、ソフトウェア工学の原則を明示的に適用しようとする動きを示している。この変化は、場当たり的な実践から、より構造化され、再現可能で、最適化可能な方法論へと分野が成熟していることを示唆している。

1.3. AIランドスケープにおけるプロンプトエンジニアリングの重要性と背景

重要性: プロンプトエンジニアリングは、事前学習済みモデルの性能と有用性を最大化するために不可欠である ¹。開発者はAIとのインタラクションと出力をより細かく制御できるようになる ¹⁸。試行錯誤を減らし、より関連性の高い正確な応答を得られるようにすることで、ユーザーエクスペリエンスを向上させる ¹⁸。多様なタスクやドメインへの適応性を可能にする ¹。生成後の労力とコストを削減する ²²。生成AIの時代において必須のスキルとなっている ¹³。

背景: その重要性は、GPT-3/4、BERT、PaLMのような強力で汎用的なLLMやVLM/MLLMの登場と普及に伴って増大した ¹。これらのモデルは入力の表現に非常に敏感であり ¹、プロンプトエンジニアリングはこの感受性に対処し、その潜在能力を引き出すために必要とされる ¹。これにより、焦点がモデルのトレーニングから入力設計へと移行した ⁷。

プロンプトエンジニアリングは、AIとのインタラクションと開発を民主化する側面を持つ。複雑なコーディングやモデルの再トレーニングではなく、主に自然言語による指示に焦点を当てることで、強力なAI機能を活用するための参入障壁を下げている ²。LLM/MLLMは強力な機能を提供するが ¹、従来のAI開発には高度な技術的専門知識（コーディング、ML理論、大規模データセット）が必要であった。プロンプトエンジニアリングは主に自然言語の指示を使用するため ²、専門知識があれば有利ではあるものの、基本的なインタラクションはより広範なユーザーにとってアクセスしやすくなっている ⁹。これにより、MLの専門家でなくても、特定のタスクに合わせてAIの挙動を利用したり、カスタマイズしたりすることが可能になり ²、AIアプリケーションへの参加が拡大している。

2. プロンプトエンジニアリング技術の分類体系

プロンプトエンジニアリングの分野は急速に発展しており、多様な技術が生み出されている。これらの技術は、モデルの能力を引き出し、特定のタスク要件を満たすために様々なアプローチを採用している。以下に、主要な調査研究 ² などで議論されている技術を分類し、概説する。

2.1. 基本的なプロンプト戦略

これらの戦略は、プロンプトエンジニアリングの基礎を形成し、多くの高度な技術の出発点となる。

ゼロショットプロンプティング (Zero-Shot Prompting): モデルにタスクを実行させる際に、具体的な例（デモンストレーション）を一切与えずに、タスクの説明や指示のみを提供する手法である ²。モデルが持つ事前学習された知識のみに依存する。比較的単純なタスクや、非常に能力の高いモデルに対して有効である ¹⁰。
フューショットプロンプティング / 文脈内学習 (Few-Shot Prompting / In-Context Learning, ICL): プロンプト内に少数の例（通常1〜5個程度）を含めることで、モデルを特定のタスクや望ましい出力形式に誘導する手法である ²。モデルが望ましいフォーマット、スタイル、タスクの論理を理解するのを助ける ²⁴。性能は、提示される例の選択、数、順序、フォーマットに敏感である ²⁴。例の選択を最適化するための技術（例：kNN類似度に基づく選択 ²⁴、Vote-K ³⁵）も研究されている。
指示追従 (Instruction Following): モデルに実行させたいタスクを明確に指示する基本的なアプローチ。しばしば、行動動詞を用い、長さ、フォーマット、対象読者などの制約を指定する ¹。これは、ほとんどのプロンプト技術の基本的な側面である。

2.2. 推論能力の強化

複雑な問題解決能力を引き出すために、モデルの思考プロセスを誘導する技術群。

思考の連鎖 (Chain-of-Thought, CoT) プロンプティング: モデルに最終的な回答に至るまでの中間的な推論ステップを生成させる手法 ²。数学、論理、常識推論などの複雑な推論タスクにおいて、特に大規模モデルで性能を向上させる ²。ゼロショットまたはフューショットの設定で実装可能である ²⁴。
CoTの派生と拡張: CoTを改善するために多数の派生技術が提案されている。

自動CoT (Auto-CoT): 推論連鎖の生成を自動化する ²。
自己整合性 (Self-Consistency): 複数の推論経路をサンプリングし、多数決で最終回答を選択する ²。頑健性を向上させる ²⁶。
Least-to-Mostプロンプティング: 問題を部分問題に分解し、順次解決する ³³。
思考の木 (Tree-of-Thoughts, ToT): 複数の推論経路を木構造で探索する ²。
思考のグラフ (Graph-of-Thoughts, GoT): ToTを任意のグラフ構造に一般化する ²。
その他の派生技術: LogiCoT、CoS、S2A、ThoT、Tab-CoT、Step-Back、Analogical、Complexity-based、Active Promptingなど ²。それぞれが論理、記号、注意、分解、相互作用といった特定の側面を対象としている。
自己洗練 / 自己批評 / 自己検証 (Self-Refinement / Self-Critique / Self-Verification): モデル自身に、生成した出力や推論をレビュー、批評、改善させるよう促す手法 ³³。Self-Refine、ReCoT、CoVe（Chain-of-Verification）などの技術が含まれる ³³。

2.3. 外部知識の統合

モデルの内部知識だけでは不十分な場合に、外部情報を活用する技術。

検索拡張生成 (Retrieval-Augmented Generation, RAG): 生成前に外部の知識ソース（文書、データベースなど）から関連情報を検索し、プロンプトを強化する手法 ²⁸。ハルシネーション（事実に基づかない情報の生成）を削減し、最新かつ事実に基づいた回答を提供することを目的とする ²⁸。CoTなどの他の技術と組み合わせることも可能である ³³。
ツール使用 / 拡張言語モデル (Tool Use / Augmented Language Models): LLMが内部的に実行できないタスク（計算、検索、コード実行など）を実行するために、外部APIやツールを呼び出すことを可能にする手法 ²⁴。例として、TALM ²⁴、Toolformer ²⁴、ART ⁵⁰、PAL ³³、ToRA ³³ などがある。

2.4. 自動プロンプト設計と最適化

手作業によるプロンプト作成の労力を削減し、場合によっては人間が設計したものよりも優れたプロンプトを自動的に発見することを目的とする技術群 ⁷。

目的: 効果的なプロンプトを自動的に発見し、手作業による労力を削減し、人間のパフォーマンスを超える可能性を追求する ⁷。
手法:

指示生成/洗練: LLM自体を用いてプロンプト指示を生成または洗練する（例：APE ²、Meta Prompting ²³）。
最適化ベース: プロンプトエンジニアリングを離散的、連続的、またはハイブリッドな空間上の最適化問題として定式化する ⁷。進化計算 ⁷、勾配ベース最適化（ソフト/連続プロンプト用）⁷、強化学習（RL）⁷、ベイズ最適化などの技術が用いられる。
特定のアルゴリズム: AutoPrompt ³³、GrIPS ³³、ProTeGi ³³、RLPrompt ³³、DP2O ³³、EvoPrompt ⁴⁸ など。
自動化はプロンプトエンジニアリングにおける主要なフロンティアであり、人間の直感を超えて体系的な探索と最適化を行うことで、プロセスをよりスケーラブル、効率的、かつ効果的にすることを目指している ²。手作業によるプロンプトエンジニアリングは効果的だが、労力がかかり専門知識を必要とするため ⁷、可能なプロンプト空間が広大であることも相まって、自動化への関心が高まっている。APEのようなLLMベースの生成、進化アルゴリズム、RL、勾配降下法などの自動化手法 ⁷ は、手作業の労力を削減し、パフォーマンスを向上させることを明確な目標としており ⁷、この重要でありながらしばしばボトルネックとなるプロセスを自動化する明確な傾向を示している。

2.5. マルチモーダルプロンプティング

テキストだけでなく、画像、音声、動画など複数のモダリティを扱うモデルに対してプロンプトエンジニアリングの原則を適用する技術 ²。

文脈: 複数のモダリティ（テキスト、画像、音声、動画）を扱うモデルにプロンプトエンジニアリングの原則を適用する ²。
視覚プロンプティング (Visual Prompting): テキストに加えて、視覚的な手がかり（バウンディングボックス、マスク、矢印、スケッチなど）を使用してMLLMをガイドする ⁵²。CoOp、CoCoOp、MaPLe ³、MemVP ⁵²、CRG ⁵²、PTP ⁵³、VPT ⁵³ などの技術がある。
テキストからの画像生成 (Text-to-Image Generation): Stable DiffusionやDALL-Eのようなモデルの出力を制御するためにプロンプトエンジニアリングが不可欠である ³⁸。特定のキーワード、スタイル修飾子（「マジックワード」）、ネガティブプロンプトの使用、効果的なプロンプトの構造化などが含まれる ³⁵。PromptCharmのようなシステムは、ユーザーをこのプロセスで支援する ³⁸。
マルチモーダルCoT/ICL: 推論や文脈内学習の技術をマルチモーダル設定に拡張する ³³。例：マルチモーダルCoT（DDCoT）、Chain-of-Images（CoI）³⁵。
中核となるプロンプトエンジニアリングの原則（例：明確性、文脈、フューショット、CoT）は、テキストを超えてマルチモーダルな入力と出力の複雑さを扱うために適応・拡張されており、プロンプトエンジニアリングのパラダイムが一般化していることを示している ³。プロンプトエンジニアリングは主にLLM（テキスト）で始まったが、MLLM/VLMは画像や音声といった新しいモダリティを導入した。研究では、これらのモデルにPEの概念を適用することが明確に議論されており ²、「視覚プロンプティング」⁵² や「マルチモーダルCoT」³⁵ のような技術は、テキストベースの技術と直接的に対応している。これは、構造化された入力を介してモデルをガイドするという基本的な考え方が、異なるデータタイプ間で成功裏に翻訳・適応されていることを示している。

表2.1: 主要なプロンプトエンジニアリング技術の概要

技術カテゴリ	具体的な技術例	概要	主な目的/用途	主要な特徴/派生	代表的な参照
基礎戦略	ゼロショットプロンプティング	例なしでタスク指示のみを与える	単純なタスク、高能力モデル	事前知識に依存	²
	フューショットプロンプティング (ICL)	少数の例をプロンプトに含める	タスク理解、フォーマット誘導	例の選択/順序が重要	²
	指示追従	タスク、制約を明確に指示	基本的なモデル制御	明確性、具体性が鍵	¹
推論強化	思考の連鎖 (CoT)	中間的な推論ステップを生成	複雑な問題解決	ゼロ/フューショット、大規模モデルで有効	²
	自己整合性 (Self-Consistency)	複数推論経路から多数決	頑健性向上	CoTと併用	²
	思考の木 (ToT) / グラフ (GoT)	複数推論経路を構造的に探索	より複雑な問題解決	CoTの拡張	²
	自己洗練/検証	モデル自身に出力を評価・改善させる	品質向上、エラー削減	CoVeなど	³³
外部知識統合	検索拡張生成 (RAG)	外部知識を検索してプロンプトを強化	ハルシネーション削減、最新情報提供	事実に基づくタスク	³³
	ツール使用	外部APIやツールを呼び出す	計算、検索、コード実行	Toolformer, ARTなど	²⁴
自動化	自動プロンプトエンジニア (APE)	LLMがプロンプトを生成・選択	手作業削減、性能向上	指示生成ベース	²
	最適化ベース手法	進化計算、RL、勾配法でプロンプト探索	最適プロンプト発見	連続/離散空間探索	⁷
マルチモーダル	視覚プロンプティング	視覚的手がかりでMLLMをガイド	マルチモーダルインタラクション	CoOp, MaPLeなど	³
	テキストからの画像生成プロンプティング	画像生成モデルの出力を制御	高品質な画像生成	スタイル修飾子、ネガティブプロンプト	³⁸
	マルチモーダルCoT/ICL	推論/ICLをマルチモーダルに拡張	マルチモーダル理解・推論	Chain-of-Imagesなど	³⁵

注: この表は代表的な技術をまとめたものであり、網羅的なリストではありません。参照は主要な議論を含むスニペットを示します。

3. 多様なドメインにおける応用

プロンプトエンジニアリングは、その柔軟性と適応性により、基礎的な自然言語処理タスクから、ソフトウェア開発、画像生成、さらには医療や教育といった専門分野に至るまで、極めて広範な領域で応用されている。

3.1. 中核的な自然言語処理 (NLP) タスク

プロンプトエンジニアリングは、質問応答、テキスト要約、機械翻訳、感情分析、情報抽出、テキスト生成といった基本的なNLPタスクにおいて、モデルの性能を向上させるために広く利用されている ¹。効果的なプロンプト設計により、これらのタスクにおける出力の精度、関連性、そして制御性を高めることができる ²。特に、⁸ のような調査研究では、様々なNLPタスクごとに有効なプロンプト技術を分類・整理する試みがなされている。

3.2. コード生成とソフトウェア工学 (SE)

ソフトウェア開発の分野でも、プロンプトエンジニアリングの活用が進んでいる。コードスニペットの生成、バグの発見と修正（デバッグ）、コードの意図や機能の説明、要件定義や設計といったソフトウェア工学（SE）タスクの自動化、開発者支援などに用いられている ⁴。

SEタスクに特化したプロンプトパターンも提案されており ⁴、例えば、CoTを用いて複雑なプログラミング課題の「解決計画」を生成するCodePLAN ⁴⁵ や、類似コード例の検索を組み合わせてプロンプトを構築するAceCoder ⁴⁵ などの技術が開発されている。また、特定のSEタスクにおいては、プロンプトエンジニアリングとファインチューニングのどちらがより効果的かという比較検討も行われている ⁴⁸。さらに、プロンプト開発プロセス自体にソフトウェア工学の原則を適用する「プロンプトウェアエンジニアリング」という新しい概念も提唱されており、これはプロンプト開発をより体系的かつ信頼性の高いものにすることを目指している ¹²。

ソフトウェア工学のような専門分野でプロンプトエンジニアリングを効果的に活用するには、一般的なプロンプト設計スキルに加えて、そのドメイン固有の知識が不可欠である。コード生成においては、単に自然言語で指示するだけでなく、プログラミング言語の構文、コーディング規約、アルゴリズムの論理、性能要件などを正確にプロンプトに反映させる必要がある ⁴。例えば、コードの正しさ、コンパイル可能か、効率的かといった点を考慮したプロンプト設計が求められる ²⁵。これは、効果的なプロンプトエンジニアリングが単なる言語的スキルではなく、対象ドメインに対する深い理解を必要とすることを示唆している。

3.3. 画像生成とマルチモーダルシステム

テキストから画像を生成するモデル（例：Stable Diffusion, DALL-E）の制御において、プロンプトエンジニアリングは中心的な役割を担う ²¹。高品質で意図通りの画像を得るためには、詳細な説明、スタイルを指定するキーワード（「マジックワード」と呼ばれることもある）、望ましくない要素を除外するためのネガティブプロンプト、そしてプロンプト全体の構造化が重要となる ³⁸。このプロセスは反復的な洗練を伴うことが多い ³⁸。

さらに、マルチモーダル大規模言語モデル（MLLM）に対しては、テキストだけでなく視覚的な手がかり（バウンディングボックス、矢印、マスクなど）を用いた「視覚プロンプティング」技術が開発されており、より直感的で豊かなインタラクションを可能にしている ⁵²。これらの技術は、画像理解、視覚的質問応答（VQA）、画像セグメンテーション、テキストや他のモダリティからの3Dモデル生成など、多様なマルチモーダルタスクに応用されている ³³。

3.4. 特定応用分野（医療、法律、金融、教育、サイバーセキュリティなど）

プロンプトエンジニアリングは、特定の専門分野においてもその価値を発揮している。

医療: 医療記録の要約、治療計画の提案支援、診断用語の標準化、患者からの問い合わせ（PMARs）への回答ドラフト作成、デジタルメンタルヘルス（分類、テキスト生成、質問応答）などに応用されている ¹。この分野では、特に精度と安全性が重要視されるため、慎重なプロンプト設計が不可欠である ¹。
教育: 個別学習支援、教材コンテンツ生成、学生の課題評価、プロンプトエンジニアリングスキルの教育自体にも活用されている ⁵。
サイバーセキュリティ: サイバー攻撃のシミュレーション、ソフトウェアの脆弱性発見、セキュリティメカニズムの開発とテストなどに利用される ²²。
その他: 法律分野での情報検索 ⁵⁰、金融分野でのアドバイス生成 ¹¹、創造的な執筆支援 ¹⁸、カスタマーサポートの自動化 ¹、マーケティングコンテンツ作成 ²⁰ など、応用範囲は多岐にわたる。

これらの多様な応用例は、プロンプトエンジニアリングの有効性が、単にタスクの種類だけでなく、応用されるドメインの文脈、リスク、固有の要件に強く依存することを示している。例えば、医療分野では人命に関わるため極めて高い精度と安全性が求められるのに対し ¹、クリエイティブライティングでは独創性や表現力が重視される ¹⁸。ソフトウェア工学ではコードの正確性や効率性が鍵となる ²⁵。したがって、画一的なアプローチは不十分であり、各ドメインの特性やニュアンスを深く理解し、それに合わせてプロンプトを設計・調整することが成功の鍵となる ¹。これは「文脈が王様である」という原則を裏付けている。

4. プロンプトエンジニアリングの有効性評価

プロンプトエンジニアリング技術の進歩に伴い、その有効性を客観的かつ信頼性高く評価することがますます重要になっている。評価は、特定のプロンプト戦略がどの程度目標を達成しているかを判断し、改善のための洞察を得る上で不可欠である。

4.1. 出力品質を評価するための指標

プロンプトによって生成されたAIの出力品質を評価するために、様々な指標が用いられている。

精度 (Accuracy): 生成された情報が事実として正しいか、あるいは意図された目標とどの程度一致しているかを示す指標 ³²。特に、質問応答、要約、医療や法律のような正確性が求められる分野で重要となる ⁶⁰。参照データや専門家の判断との比較によって測定されることが多い ⁵⁷。
関連性 (Relevance): 生成された出力が、元のプロンプトの意図にどれだけ密接に関連しているかを示す指標 ⁶⁰。特に複雑なプロンプトの場合、わずかな逸脱が意図しない結果につながる可能性がある。主観的な評価が必要な場合が多く、人間による評価や意味的類似度スコア（例：埋め込みベクトルのコサイン類似度）が用いられる ⁶⁰。
一貫性・可読性 (Coherence & Readability): 出力の論理的な流れ、明瞭さ、文法的な正しさ、全体的な理解しやすさを示す指標 ⁶。可読性スコア（例：Flesch-Kincaid）や人間による評価で測定される ⁵⁹。
完全性 (Completeness): 生成された応答が、要求された要素をすべて含んでいるかを示す指標 ⁶⁰。
一貫性/再現性 (Consistency): 同じプロンプトを複数回入力した場合に、モデルが一貫して類似した応答を生成するかどうかを示す指標 ⁴¹。複数回の実行結果を比較することで測定される ⁴¹。
具体性 (Specificity): 応答に含まれる詳細情報のレベルを示す指標 ⁶⁰。技術的な質問への回答や詳細な計画立案などで重要となる。
創造性 (Creativity): 生成された出力の新規性や独創性を示す指標 ⁶⁰。クリエイティブライティングなどで重要となるが、評価は非常に主観的である ⁶⁰。
トーン/スタイルへの準拠 (Adherence to Tone/Style): 望ましいペルソナやスタイル（例：教育的、簡潔、フォーマル）にどれだけ一致しているかを示す指標 ⁶⁰。
タスク固有指標: NLPタスクで一般的に用いられるBLEU、ROUGE、METEOR、F1スコア、CIDEr、MoverScore、S-BERTなども、特定の文脈でプロンプト評価に利用される ³²。

どの指標を選択するかは、タスクの性質と達成したい目標に大きく依存する ³²。多くの場合、複数の指標を組み合わせ、場合によっては重み付け平均を用いて総合的な評価スコアを算出する ⁴⁹。

4.2. 評価のためのベンチマークとデータセット

プロンプトエンジニアリング技術の性能を評価し比較するために、標準的なベンチマークや特定のドメインデータセットが利用される。MMLU ³⁷、GSM8K、HellaSwag、ARC、TruthfulQA ⁴⁶ のような一般的なNLPベンチマークや、臨床NLPタスクデータセット ⁴⁰、GPQA ³⁹、APPS ⁴⁵、Reddit Suicidality Dataset ³⁷ のようなドメイン固有のデータセットが例として挙げられる。

開発段階では検証セット（Validation Set）を使用し、最終的な評価は未知のデータ（Unseen Data）で行うことが、モデルの汎化性能を正しく評価し、過学習を防ぐ上で重要である ³²。しかし、特に公開されているベンチマークデータがモデルのトレーニングデータに含まれてしまう「データ汚染」の問題も指摘されており、真に未知のデータでの評価の必要性が強調されている ⁶。非公開ベンチマークも提案されているが、評価プロセスにおける透明性の問題や、テストデータが意図せずモデル改善に使われるリスクも存在する ⁶²。

4.3. 評価における方法論的課題

プロンプトエンジニアリングの評価には、いくつかの方法論的な課題が存在する。

主観性: 関連性、一貫性、創造性といった望ましい品質の多くは本質的に主観的であり、自動評価を困難にしている ⁶。人間による評価はしばしば必要となるが、コストがかかり時間も要する ⁶。
指標の限界: BLEUやROUGEのような標準的な指標は、意味的な内容や品質を完全には捉えきれない場合がある ⁵¹。また、指標自体が操作されたり、表面的な改善を示すだけであったりする可能性もある ⁶²。
不一致性/変動性: LLMの出力は、同じプロンプトに対しても一貫しない場合があり、信頼性の高い評価のためには複数回の試行が必要となる ³⁹。集約された指標だけでは、この変動性が隠れてしまう可能性がある ³⁹。
標準化の欠如: 評価設定（プロンプト、デコーディングパラメータ、指標、ベンチマーク）が研究ごとに異なるため、結果の比較が困難であり、知見の解釈に不一致が生じやすい ⁶。評価プロセスの詳細な文書化が不足していることも、この問題を悪化させている ⁶。
「有効性」の定義: 明確で測定可能な評価基準を定義することは難しいが、不可欠である ⁶⁰。どの程度の正しさを「合格」とするか（正解率の閾値）によって、認識されるパフォーマンスは劇的に変化する ³⁹。

これらの評価における課題（主観性、指標の限界、不一致性、標準化の欠如）は相互に関連し合い、プロンプトエンジニアリングの「科学的」な進歩における重大なボトルネックとなっている。どの技術が本当に優れているかを確実に判断するためには、その効果を一貫して正確に測定する方法が必要だが、現状の評価手法には多くの困難が伴う。評価手法の信頼性が低いと、技術の比較や改善が難しくなり ⁶、報告された結果の信頼性も揺らぐ ⁶²。したがって、評価方法論の改善は、経験的証拠に基づいたプロンプトエンジニアリング技術の厳密な検証と進歩を可能にするために不可欠である。

4.4. 評価におけるLLMの役割 (LLM-as-a-Judge)

近年、LLM自体を他のLLMの出力評価に利用する「LLM-as-a-Judge」というアプローチが注目されている ⁶。G-EVALやChatEvalのようなフレームワークが提案されている ³⁵。このアプローチには、スケーラビリティや、単純な指標では捉えきれないニュアンスを評価できる可能性があるという利点がある一方で、バイアス、グラウンドトゥルース（正解）の欠如、位置バイアス（提示順序による評価への影響）といったリスクも存在する ⁶。例えば、Chat Arenaのような人間による嗜好評価に依存する手法は、内容の正確さよりも応答のスタイルや流暢さを優先してしまう可能性がある ⁶²。

5. 主要な課題と限界

プロンプトエンジニアリングは強力な技術であるが、その実践と応用にはいくつかの重要な課題と限界が存在する。

5.1. プロンプトの感受性、頑健性、汎化性

LLMは、プロンプトのわずかな言い回しの違い、フォーマット、提示される例の選択や順序に対して非常に敏感に反応する ¹¹。これにより、プロンプトエンジニアリングはしばしば脆弱なものとなり、特定の条件下でうまく機能したプロンプトが、少し状況が変わると性能が低下する可能性がある ³⁹。あるモデルやタスクで効果的だったプロンプトが、他のモデルやタスクにうまく汎化しないことも多い ⁵⁰。入力や文脈の変動に対して頑健な性能を保証することは依然として課題である。

5.2. ハルシネーションの緩和と事実精度の確保

LLMは、もっともらしいが事実に基づかない、あるいは意味をなさない情報（ハルシネーション）を生成することがある ¹⁴。これは特に、信頼性が重視される応用分野において深刻な問題となる。RAG ⁴⁹ やCoVe ³³ のようなプロンプトエンジニアリング技術は、この問題を緩和することを目的としているが、ハルシネーションを完全に排除することは依然として大きな課題である ⁵⁰。

5.3. バイアス、公平性、倫理的配慮への対応

プロンプトは、意図せずにLLMのトレーニングデータに存在するバイアスを導入または増幅させてしまう可能性がある ¹⁰。公平性を促進し、有害なステレオタイプや差別的なコンテンツの生成を避けるためには、慎重なプロンプト設計が必要である ¹⁰。バランスの取れた例を選択する ³³、あるいは特定のプロンプト技術（例：AttrPrompt ³³）を用いることが有効な場合がある。特に医療のような機密性の高い分野では、プライバシー、同意、データの誤用といった倫理的な考慮が最優先されなければならない ¹⁰。

5.4. 解釈可能性と説明可能性のギャップ

特定のプロンプトがなぜうまく機能し、他のプロンプトが失敗するのかを理解することは、しばしば困難である ¹⁰。LLMは大部分がブラックボックスとして動作するため、その内部的な意思決定プロセスを解明することは難しい。この解釈可能性の欠如は、体系的なプロンプト設計やデバッグを妨げる要因となる ⁵⁰。CoTのような技術は、推論ステップを示すことで透明性を向上させることを目指している ²⁶。

5.5. セキュリティ脆弱性：プロンプトインジェクションとジェイルブレイク攻撃

LLMの能力向上と応用拡大に伴い、セキュリティ上の脆弱性が顕在化している。特にプロンプトを介した攻撃は深刻な脅威となっている。

プロンプトインジェクション (Prompt Injection): 悪意のある入力を介して、開発者が意図した元の指示を上書きし、LLMの挙動を操作しようとする攻撃 ¹⁴。これは、モデルが指示とユーザーデータを区別なく処理する性質を悪用する ⁶⁴。

種類: 直接インジェクション（ユーザー入力に悪意のあるプロンプトを直接含める）、間接インジェクション（LLMがアクセスする外部コンテンツに悪意のあるプロンプトを隠す）、コードインジェクション（悪意のあるコードを生成・実行させる）などがある ⁶⁴。
リスク: 機密情報（プロンプト自体、個人情報）の漏洩、有害または誤解を招くコンテンツの生成、不正なAPI呼び出しなどの未承認アクション、マルウェア生成などが含まれる ¹⁴。
ジェイルブレイク (Jailbreaking): LLMの安全ガードレールを回避し、禁止されているコンテンツ（有害、偏見、機密情報など）を生成させることを目的とした、特定のタイプのプロンプトインジェクション攻撃 ³³。
技術: ロールプレイング（例：悪意のあるハッカーになりきるよう指示）⁶⁷、プレフィックスインジェクション、拒否応答の抑制、スタイルインジェクション、ペイロード分割、仮想化、Base64エンコーディング、文字/単語反転（FlipAttack ⁶⁸）、ストーリーテリング、DAN (Do Anything Now)、マルチターン戦略（Crescendo、Bad Likert Judge）など、多様な手法が存在する ⁶⁷。マルチターン戦略は、特に安全違反を目的とする場合に効果的なことが多い ⁶⁷。
防御策: 入力サニタイズ/検証、出力フィルタリング、指示防御、言い換え、再トークン化、分離LLM（デュアルLLM）、テイントトラッキング（汚染追跡）、アクセス制御（最小権限の原則）、ガードレール/ファイアウォール、敵対的トレーニング、異常検知などが研究・実装されている ⁶³。しかし、攻撃手法も進化し続けており、防御は継続的な「いたちごっこ」の状態にある ⁶³。

LLMを高度に有能で指示に従順にすること（プロンプトエンジニアリングの目標）と、それらを安全で操作に対して頑健にすること（セキュリティ防御の目標）の間には、根本的な緊張関係が存在する。プロンプトエンジニアリングはモデルが複雑で微妙な指示に正確に従うことを目指すが [セクション1, 2参照]、プロンプトインジェクションやジェイルブレイクはまさにこの指示追従能力を悪用する ⁶⁴。一方で、防御策はしばしばモデルの挙動を制限したり、入出力をフィルタリングしたりすることを含み ⁶⁶、これは正当だが複雑なプロンプトに対するモデルの能力や応答性を制限する可能性がある。例えば、強力なガードレールは有害な出力を防ぐかもしれないが、境界線上にあるが正当な要求も拒否するかもしれない。入力サニタイズは悪意のある指示を除去するかもしれないが、良性のプロンプトから有用な文脈を削除してしまうかもしれない。したがって、指示追従の感受性を高めること（PEにとって良いこと）は、本質的にインジェクション/ジェイルブレイクの攻撃対象領域を増やすことになり、セキュリティと能力の間の根本的なトレードオフを生み出している。

表5.1: プロンプトハッキング/ジェイルブレイク技術と防御策の分類

攻撃カテゴリ	具体的な技術例	攻撃メカニズム	防御戦略例	関連参照
プロンプトインジェクション（一般）	直接インジェクション	ユーザー入力に悪意のある指示を混入	入力サニタイズ、指示防御、ガードレール	⁶⁴
	間接インジェクション	外部データソース（ウェブページ、文書）に悪意のある指示を埋め込む	データソース制限、テイントトラッキング、出力フィルタリング	⁶⁴
	コードインジェクション	悪意のあるコードを生成・実行させる	コード実行環境のサンドボックス化、出力検証	³⁵
ジェイルブレイク（安全回避）	ロールプレイング	モデルに特定の（しばしば悪意のある）役割を演じさせる	ガードレール、役割指示のフィルタリング	⁶⁷
	DAN (Do Anything Now)	モデルに制限を無視するよう直接指示	指示防御、ガードレール	⁶⁷
	ペイロード分割/難読化	悪意のある指示を分割またはエンコードして検出を回避	入力再構築、異常検知	⁶⁶
	文字/単語反転 (FlipAttack)	プロンプトの文字や単語の順序を反転させて理解を妨げる	入力正規化、異常検知	⁶⁸
	マルチターン戦略 (Crescendo, Bad Likert Judge)	複数回の対話を通じて徐々にモデルを誘導	対話履歴分析、状態監視型ガードレール	⁶⁷
データ漏洩（インジェクション経由）	プロンプト漏洩	システムプロンプトや内部情報を引き出すよう指示	出力フィルタリング、アクセス制御、ガードレール	³⁵
	PII/トレーニングデータ抽出	個人情報やトレーニングデータを生成させるよう誘導	データマスキング、出力フィルタリング、差分プライバシー	³⁵
全般的な防御			敵対的トレーニング、モデル堅牢化、デュアルLLMアーキテクチャ、アクセス制御（最小権限）、継続的な監視と更新	⁶³

注: この表は代表的な攻撃技術と防御戦略を分類したものであり、網羅的ではありません。防御戦略は複数の攻撃タイプに適用可能な場合があります。

6. 主要なレビュー論文と統合された知見

プロンプトエンジニアリングは急速に発展している分野であり、その全体像を把握するためには、既存のレビュー論文やサーベイ論文を参照することが不可欠である。ここでは、特に影響力が大きい、あるいは包括的なレビュー論文を特定し、その主要な貢献と知見を要約する。

6.1. 影響力のある調査研究の概要

提供された情報源に基づくと、以下の調査研究がプロンプトエンジニアリング分野における重要なレビューとして挙げられる。

arXiv:2402.07927: “A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications” ²

応用分野（推論、ハルシネーション削減など）に基づいて41以上の技術を分類。
様々なLLMとVLMにおける応用、データセット、長所と短所を詳述。
課題（バイアス、解釈可能性など）と将来の方向性（メタ学習、ハイブリッドアプローチなど）を議論。
arXiv:2406.06608: “The Prompt Report: A Systematic Survey of Prompting Techniques” ²⁷

広範な文献レビューに基づき、58のテキストベース技術と40のマルチモーダル技術を含む大規模な分類体系と33の用語からなる語彙集を提示。
ベストプラクティス、ガイドライン、セキュリティ（プロンプトハッキング）、評価に関するケーススタディを提供。
多言語プロンプティングもカバー。
arXiv:2310.14735: “Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review” ³

基礎的（ゼロ/フューショット）および高度な方法論（CoT、自己整合性など）をカバー。
VLMにおけるプロンプト手法（CoOp, CoCoOp, MaPLe）を検討。
AIセキュリティ（敵対的攻撃）と評価方法（主観的/客観的指標）についても議論。
arXiv:2502.11560: “A Survey of Automatic Prompt Engineering: An Optimization Perspective” ⁷

自動プロンプトエンジニアリングに焦点を当て、最適化理論（離散、連続、ハイブリッド空間）の観点から体系化。
基盤モデルベース、進化計算、勾配ベース、強化学習による手法を整理。
制約付き最適化やエージェント指向設計といった未踏のフロンティアを指摘。
arXiv:2407.12994: “A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks” ⁸

様々なNLPタスク（常識推論、数学的問題解決など）に基づいてプロンプト技術を分類。
各タスクにおける技術の性能、使用されたLLM、データセットを詳述。
その他の関連調査: VLMプロンプティング ⁵²、コード生成 ⁴⁵、評価手法 ⁶、指示追従 ⁴³ など、特定の側面に焦点を当てた調査も存在する。

6.2. 主要なレビューからの主な貢献と発見

これらの主要なレビュー論文は、プロンプトエンジニアリング分野の理解を深める上で重要な貢献をしている。

arXiv:2402.07927 は、応用ドメインに基づいた広範な技術カタログを提供し、各技術の文脈における有効性を示した ⁵⁰。また、バイアス、ハルシネーション、解釈可能性といった共通の課題と、自動化や倫理といった将来の方向性を明確にした ⁵⁰。
arXiv:2406.06608 (“Prompt Report”) は、用語の標準化と包括的な分類体系の構築に大きく貢献した ³⁴。マルチモーダルや多言語への拡張、セキュリティ問題（プロンプトハッキング）への言及、実践的なケーススタディによる評価のデモンストレーションも特徴的である ³⁵。
arXiv:2310.14735 は、基礎から応用、特にVLMにおける特有のプロンプト技術（CoOpなど）までを幅広くカバーし、セキュリティと評価の側面も統合的に扱っている点が重要である ³。
arXiv:2502.11560 は、自動化という特定のフロンティアに焦点を当て、最適化という統一的な視点から多様な手法を整理することで、この分野の理論的基盤と将来の研究方向性を示した ⁷。
arXiv:2407.12994 は、具体的なNLPタスクとプロンプト技術の関連性を詳細にマッピングすることで、実践者が特定のタスクに適した技術を選択する際の指針を提供した ⁸。

これらのレビューを総合すると、プロンプトエンジニアリングがLLM/VLMの能力を引き出すための不可欠な技術であること、多様な技術が開発されていること、自動化とマルチモーダル化が重要なトレンドであること、そして評価、セキュリティ、倫理が依然として大きな課題であることが共通認識として浮かび上がってくる。

6.3. 主要文献へのアクセス

研究者がこれらの重要なレビュー論文に容易にアクセスできるよう、以下に主要な論文の識別子とアクセス情報を示す。

表6.1: 主要なプロンプトエンジニアリング調査論文

論文タイトル	主要著者/年	arXiv ID / DOI	主な焦点	主要な貢献/発見	アクセスリンク
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications	Sahoo et al. (2024)	arXiv:2402.07927	応用分野別技術分類	41+技術カタログ、応用/課題/将来展望	https://doi.org/10.48550/arXiv.2402.07927 (⁵⁰)
The Prompt Report: A Systematic Survey of Prompting Techniques	Schulhoff et al. (2024)	arXiv:2406.06608	包括的分類体系、語彙、ベストプラクティス	58テキスト+40マルチモーダル技術、用語標準化、セキュリティ、評価事例	https://doi.org/10.48550/arXiv.2406.06608 (³⁴)
Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review	Chen et al. (2023/2024)	arXiv:2310.14735	基礎/応用技術、VLM、セキュリティ、評価	VLMプロンプティング(CoOp等)カバー、セキュリティと評価の統合	https://doi.org/10.48550/arXiv.2310.14735 (³)
A Survey of Automatic Prompt Engineering: An Optimization Perspective	Guo et al. (2025)	arXiv:2502.11560	自動プロンプトエンジニアリング、最適化視点	自動化手法の体系化（進化計算、RL、勾配法）、未踏領域指摘	https://arxiv.org/html/2502.11560v1 (⁷)
A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks	Vatsal & Dubey (2024)	arXiv:2407.12994	NLPタスク別技術分類	39技術を29 NLPタスクにマッピング、性能/LLM/データセット情報	https://doi.org/10.48550/arXiv.2407.12994 (⁸)
A Survey on Evaluation of Large Language Models	Chang et al. (2024)	(Referenced in ⁶)	LLM評価手法	評価の課題、限界、推奨事項	(DOI/URL not directly provided in snippets, but cited)
Visual Prompting in Multimodal Large Language Models: A Survey	Wu et al. (2024)	arXiv:2409.03076 (Implied by ⁵²)	VLM/MLLMにおける視覚プロンプティング	視覚プロンプト、プロンプト生成、合成推論、プロンプト学習のレビュー	https://arxiv.org/abs/2409.03076 (Example, actual ID might differ)

注: 一部の論文については、提供されたスニペットに直接的なDOIや最新バージョンへのリンクが含まれていない場合があります。arXiv IDを基に検索することでアクセス可能です。VLM SurveyのIDは推測です。

7. 将来の方向性と結論

プロンプトエンジニアリングは、AI、特に大規模基盤モデルとのインタラクション方法に革命をもたらした。その重要性は増す一方であり、研究開発は活発に続けられている。本セクションでは、この分野の新たなトレンド、未解決の研究課題、そして結論を述べる。

7.1. 新たなトレンド

プロンプトエンジニアリングの研究は、いくつかの明確な方向性を持って進展している。

自動化 (Automation): プロンプトの生成と最適化を自動化する技術への関心が高まっている ⁷。これには、LLM自身を用いたプロンプト生成（メタプロンプティング ²³ やAPE ²）や、進化計算、強化学習、勾配ベース最適化などのアルゴリズム的アプローチが含まれる ⁷。プロンプト自体のメタ学習 ⁵⁰ も将来的な方向性として考えられる。
マルチモーダル化 (Multimodality): テキスト、画像、音声、動画など、複数のモダリティを統合的に扱うMLLMのためのプロンプト技術が急速に進展している ³。視覚プロンプティングやマルチモーダルCoTなどがその例である。
解釈可能性と説明可能性 (Interpretability & Explainability): プロンプトがモデルの挙動にどのように影響を与えるかを理解するための手法開発が求められている ¹⁰。ブラックボックス問題を緩和し、信頼性を高める上で重要である。
セキュリティと頑健性 (Security & Robustness): プロンプトインジェクションやジェイルブレイク攻撃に対するより堅牢な防御策の開発が急務である ⁷。本質的により安全なモデルアーキテクチャやプロンプト設計も探求されている。
ドメイン特化と文脈適応 (Domain Specialization & Contextualization): 医療、ソフトウェア工学、科学研究といった特定のドメインに合わせてプロンプト技術を調整し、ドメイン知識をより効果的に統合する研究が進んでいる ⁴。また、対話の文脈に応じて動的にプロンプトを適応させる技術も開発されている ⁷。
効率性 (Efficiency): より少ない計算コストやより短いプロンプトで高い性能を達成する効率的なプロンプト技術の開発が求められている ⁴⁶。
ハイブリッドアプローチ (Hybrid Approaches): プロンプトエンジニアリングをファインチューニングや他の機械学習手法と組み合わせるアプローチ ²⁷ や、異なるプロンプト技術を組み合わせるハイブリッド戦略 ⁵⁰ が探求されている。
エージェントシステム (Agentic Systems): ツールを使用し、計画を立て、環境と対話できるLLMベースのエージェントのためのプロンプトエンジニアリングが新たな研究領域として浮上している ⁷。

7.2. 未解決の研究課題と機会

多くの進展にもかかわらず、プロンプトエンジニアリング分野には依然として重要な未解決問題と研究機会が存在する。

プロンプトの真の頑健性と汎化性をどのように達成するか？ ⁵⁰
普遍的に有効で標準化された評価方法論をどのように開発するか？ ⁶
複雑で新規なタスクに対して、プロンプトエンジニアリングプロセスを効果的に完全に自動化できるか？ ⁷
能力/柔軟性と安全性/セキュリティの間の根本的なトレードオフをどのように最適に管理するか？ (セクション5.5の議論参照)
外部知識やツールを信頼性高く、シームレスに統合するための最良の方法は何か？ ⁵⁰
プロンプトによって誘導されるシステムの解釈可能性を向上させ、信頼を構築するにはどうすればよいか？ ¹⁰
プロンプトベース学習の理論的基盤を探求し、より原理に基づいたアプローチを開発する ⁷。
低リソース言語やデータが少ないドメインにおけるプロンプトエンジニアリング技術を開発する ¹⁰。
公平性や安全性といった制約を満たすプロンプトを最適化する（制約付き最適化）⁷。

7.3. 結論

プロンプトエンジニアリングは、現代のAIエコシステムにおいて、特に大規模基盤モデルの能力を引き出し、制御するための中心的な役割を担っている。本レビューで概説したように、この分野は、当初の試行錯誤的なアプローチから、より体系的で多様な技術群へと急速に進化してきた。基礎的なゼロショット/フューショット学習から、複雑な推論を可能にする思考の連鎖、外部知識を活用するRAG、そしてプロンプト設計自体を自動化する試みまで、その範囲は広がり続けている。

応用範囲も、自然言語処理の中核タスクから、ソフトウェア開発、マルチモーダルインタラクション、さらには医療、教育、サイバーセキュリティといった専門分野にまで及んでいる。しかし、その急速な発展とともに、評価の難しさ、モデルの脆弱性（ハルシネーション、バイアス）、セキュリティ上の脅威（プロンプトインジェクション、ジェイルブレイク）、解釈可能性の欠如といった重要な課題も顕在化している。

今後の研究は、これらの課題に対処しつつ、自動化、マルチモーダル化、エージェントシステムといった新たなトレンドを追求していくことが期待される。評価方法論の標準化、セキュリティと能力のバランス、倫理的な配慮、そしてドメイン固有の要求への適応は、この分野の持続的な発展と、大規模基盤モデルの潜在能力を責任ある形で効果的に引き出すための鍵となるであろう。プロンプトエンジニアリングに関する研究は、AI技術の未来を形作る上で、引き続き極めて重要な位置を占めることは間違いない。

引用文献

プロンプトエンジニアリングの基本概念とその重要性について – 株式会社STYZ https://styz.io/contents/prompt-engineering-basics-importance
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications – arXiv https://arxiv.org/html/2402.07927v1
[2310.14735] Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review – arXiv https://arxiv.org/abs/2310.14735
Landscape and Taxonomy of Prompt Engineering Patterns in Software Engineering https://www.computer.org/csdl/magazine/it/2025/01/10893869/24sGnEvgnmw
プロンプトエンジニアリングの基本概念とその重要性について https://www.issoh.co.jp/column/details/3613/
A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations – ACL Anthology https://aclanthology.org/2024.emnlp-main.764.pdf
A Survey of Automatic Prompt Engineering: An Optimization Perspective – arXiv https://arxiv.org/html/2502.11560v1
[2407.12994] A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks – arXiv https://arxiv.org/abs/2407.12994
A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks – arXiv https://arxiv.org/html/2407.12994v1
Prompt engineering for digital mental health: a short review – Frontiers https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2024.1410947/full
What is Prompt Engineering? A Detailed Guide For 2025 – DataCamp https://www.datacamp.com/blog/what-is-prompt-engineering-the-future-of-ai-communication
(PDF) Promptware Engineering: Software Engineering for LLM Prompt Development https://www.researchgate.net/publication/389580858_Promptware_Engineering_Software_Engineering_for_LLM_Prompt_Development
AI時代に重要になる「プロンプトエンジニアリング」とは？具体例と設計の流れ – Qbook https://www.qbook.jp/column/1830.html
プロンプトエンジニアリングとは？ ChatGPTで代表的な12個のプロンプト例や作成のコツも解説 https://exawizards.com/column/article/dx/prompt-engineering/
プロンプトエンジニアリングとは | 脆弱性診断の標準化企業 SHIFT SECURITY https://www.shiftsecurity.jp/blog/20240729-3
Prompt Engineering for AI Guide | Google Cloud https://cloud.google.com/discover/what-is-prompt-engineering
What is prompt engineering? | SAP https://www.sap.com/resources/what-is-prompt-engineering
What is Prompt Engineering? – Generative AI – AWS https://aws.amazon.com/what-is/prompt-engineering/
Generative Artificial Intelligence for Teaching, Research and Learning: Prompt Engineering https://guides.library.ucdavis.edu/genai/prompt
Prompt Engineering: Key Concepts & Benefits – Mailchimp https://mailchimp.com/resources/prompt-engineering/
What Is Prompt Engineering? Definition and Examples – Coursera https://www.coursera.org/articles/what-is-prompt-engineering
What Is Prompt Engineering? | IBM https://www.ibm.com/think/topics/prompt-engineering
It’s not you; it’s my algorithm: how prompt engineering can save your relationship with AI – AWS https://phuse.s3.eu-central-1.amazonaws.com/Archive/2024/Connect/EU/Strasbourg/PAP_ML08.pdf
Prompt Engineering | Lil’Log https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
Enhancing Code With AI: A Software Engineer’s Prompt Guide – Interview Kickstart https://interviewkickstart.com/blogs/articles/enhancing-code-ai-prompt-engineering
Enhancing Large Language Model Performance through Prompt Engineering Techniques https://www.researchgate.net/publication/385046380_Enhancing_Large_Language_Model_Performance_through_Prompt_Engineering_Techniques
Exploring Prompt Engineering: A Systematic Review with SWOT Analysis – arXiv https://arxiv.org/html/2410.12843v1
Leveraging Prompt Engineering in Large Language Models for Accelerating Chemical Research | ACS Central Science https://pubs.acs.org/doi/10.1021/acscentsci.4c01935
Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review – arXiv https://arxiv.org/html/2310.14735v5
プロンプト・エンジニアリングとは – IBM https://www.ibm.com/jp-ja/think/topics/prompt-engineering
プロンプトエンジニアリングとは何ですか? – AWS https://aws.amazon.com/jp/what-is/prompt-engineering/
10 How to Evaluate the Performance of Your Prompt Engineering Model https://promptengineering.guide/article/10_How_to_Evaluate_the_Performance_of_Your_Prompt_Engineering_Model.html
The Prompt Report: A Systematic Survey of Prompt Engineering Techniques – arXiv https://arxiv.org/html/2406.06608v6
The Prompt Report: A Systematic Survey of Prompt Engineering Techniques – arXiv https://arxiv.org/abs/2406.06608
The Prompt Report: A Systematic Survey of Prompting Techniques – arXiv https://arxiv.org/html/2406.06608v1
The Role of Prompt Engineering in Improving Language Understanding and Generation https://www.semanticscholar.org/paper/The-Role-of-Prompt-Engineering-in-Improving-and-Lamba/eba3608b2798fcb28c2d852a3c80265e28468692
The Prompt Report – Sander Schulhoff https://trigaten.github.io/Prompt_Survey_Site/?ref=digitvibe.com
PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement https://arxiv.org/html/2403.04014v1
Technical Report: Prompt Engineering is Complicated and Contingent – Wharton AI & Analytics Initiative https://ai-analytics.wharton.upenn.edu/generative-ai-labs/research-and-technical-reports/tech-report-prompt-engineering-is-complicated-and-contingent/
An Empirical Evaluation of Prompting Strategies for Large Language … https://pmc.ncbi.nlm.nih.gov/articles/PMC11036183/
Evaluation of LLMs accuracy and consistency in the registered dietitian exam through prompt engineering and knowledge retrieval – PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC11718202/
How to Write Effective Prompts for Screening Biomedical Literature Using Large Language Models – Preprints.org https://www.preprints.org/manuscript/202502.0396/v1
Large Language Model Instruction Following: A Survey of Progresses and Challenges https://direct.mit.edu/coli/article/50/3/1053/121669/Large-Language-Model-Instruction-Following-A
Investigating the Impact of Prompt Engineering on the Performance of Large Language Models for Standardizing Obstetric Diagnosis Text: Comparative Study – PubMed Central https://pmc.ncbi.nlm.nih.gov/articles/PMC10884897/
A Survey On Large Language Models For Code Generation – arXiv https://arxiv.org/html/2503.01245v1
Optimizing Large Language Models: A Deep Dive into Effective Prompt Engineering Techniques – MDPI https://www.mdpi.com/2076-3417/15/3/1430
Full article: Improving Software Development Traceability with Structured Prompting – Taylor & Francis Online https://www.tandfonline.com/doi/full/10.1080/08874417.2025.2470919?src=exp-la
[PDF] EPiC: Cost-effective Search-based Prompt Engineering of LLMs for Code Generation https://www.semanticscholar.org/paper/a638321240d1f518c3117103d2453f6c7d74cdd9
Advancing Multimodal Large Language Models: Optimizing Prompt Engineering Strategies for Enhanced Performance – MDPI https://www.mdpi.com/2076-3417/15/7/3992
arxiv.org https://arxiv.org/abs/2402.07927
KalyanKS-NLP/LLM-Survey-Papers-Collection – GitHub https://github.com/KalyanKS-NLP/LLM-Survey-Papers-Collection
[PDF] Visual Prompting in Multimodal Large Language Models: A Survey | Semantic Scholar https://www.semanticscholar.org/paper/3d9a61fd73c4cec6810b80b0dc11f792ca5d0277
[PDF] Review of Large Vision Models and Visual Prompt Engineering | Semantic Scholar https://www.semanticscholar.org/paper/Review-of-Large-Vision-Models-and-Visual-Prompt-Wang-Liu/7619a98ef077c8f75e0bfb98953457649209e07e
プロンプトエンジニアリングとは？重要性や手法、設計のポイントについて – Braze https://www.braze.com/ja/resources/articles/prompt-engineering
Full article: Prompting AI Art: An Investigation into the Creative Skill of Prompt Engineering https://www.tandfonline.com/doi/full/10.1080/10447318.2024.2431761
Papers | Prompt Engineering Guide https://www.promptingguide.ai/papers
Prompt engineering on leveraging large language models in generating response to InBasket messages – Oxford Academic https://academic.oup.com/jamia/article/31/10/2263/7717344
The Impact of Prompt Engineering and a Generative AI-Driven Tool on Autonomous Learning: A Case Study – MDPI https://www.mdpi.com/2227-7102/15/2/199
Full article: Exploring prompt pattern for generative artificial intelligence in automatic question generation – Taylor and Francis https://www.tandfonline.com/doi/full/10.1080/10494820.2024.2412082
Measuring Prompt Effectiveness: Metrics and Methods – KDnuggets https://www.kdnuggets.com/measuring-prompt-effectiveness-metrics-and-methods
Evaluating Prompt Effectiveness: Key Metrics and Tools – Portkey https://portkey.ai/blog/evaluating-prompt-effectiveness-key-metrics-and-tools/
The Dark Art of AI Benchmarking – Why Performance Metrics Might Be Deceiving You https://promptengineering.org/the-dark-art-of-ai-benchmarking-why-performance-metrics-might-be-deceiving-you/
\tool: Automated Variant Analysis for Prompt Injection Attacks – arXiv https://arxiv.org/html/2312.11513v1
Prompt Injection Attacks in LLMs: What Are They and How to Prevent Them – Coralogix https://coralogix.com/ai-blog/prompt-injection-attacks-in-llms-what-are-they-and-how-to-prevent-them/
Prompt Injection: Overriding AI Instructions with User Input – Learn Prompting https://learnprompting.org/docs/prompt_hacking/injection
Every practical and proposed defense against prompt injection. – GitHub https://github.com/tldrsec/prompt-injection-defenses
Investigating LLM Jailbreaking of Popular Generative AI Web Products – Unit 42 https://unit42.paloaltonetworks.com/jailbreaking-generative-ai-web-products/
FlipAttack: Jailbreak LLMs via Flipping – arXiv https://arxiv.org/html/2410.02832v1
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models | AI Research Paper Details – AIModels.fyi https://www.aimodels.fyi/papers/arxiv/jailbreaklens-visual-analysis-jailbreak-attacks-against-large
\name: Visual Analysis of Jailbreak Attacks Against Large Language Models – arXiv https://arxiv.org/html/2404.08793v1
JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets – Semantic search for arXiv papers with AI https://axi.lims.ac.uk/paper/2407.03045
Effective prompting with ChatGPT for problem formulation in engineering optimization https://www.tandfonline.com/doi/full/10.1080/0305215X.2025.2450686?src=
Prompt Engineering for Conversational AI Systems: A Systematic Review of Techniques and Applications https://ijsrcseit.com/index.php/home/article/view/CSEIT25111276
[PDF] A Complete Survey on LLM-based AI Chatbots – Semantic Scholar https://www.semanticscholar.org/paper/42c08dc83138732377eb2e427cc793ccc1edfc42