以下のレポートは、元記事「Agents」(Chip Huyen, 2025年1月7日)をベースに構成しています。
目次
- はじめに
- エージェント概要 (Agent Overview)
- 2.1 エージェントとは何か
- 2.2 環境 (Environment) とアクション (Actions)
- 2.3 AIエージェントが注目される理由
- ツール (Tools)
- 3.1 ツールの役割:リードオンリーアクションとライトアクション
- 3.2 ツール分類:知識拡張ツール / 機能拡張ツール / 書き込みアクションツール
- 3.3 ツールを使うことで得られる効果
- 3.4 ツールセレクション(選択)の難しさ
- プランニング (Planning)
- 4.1 プランニングが重要になる理由
- 4.2 プランニングの基本構造
- 4.3 ファウンデーションモデルはプランニングできるのか?
- 4.4 FMプランナー vs RLプランナー
- 4.5 プラン生成 (Plan Generation)
- 4.6 関数呼び出し (Function Calling) とエージェント設計
- 4.7 マルチステップ制御フロー(Sequential, Parallel, If, Forループなど)
- 4.8 リフレクションとエラー訂正
- 4.9 ツール選択 (Tool Selection)
- エージェントの失敗モード (Failure Modes) と評価手法 (Evaluation)
- 5.1 プランニングの失敗 (Planning Failures)
- 5.2 ツールの失敗 (Tool Failures)
- 5.3 効率性の問題 (Efficiency Failures)
- 5.4 評価の具体的アプローチ
- エージェントの今後と展望
- 6.1 自律エージェントへの期待と懸念
- 6.2 セキュリティ・安全性
- 6.3 今後の研究・発展可能性
- 結論
1. はじめに
人工知能(AI)が社会に急速に浸透する中で、近年とりわけ注目を集めているのが「エージェント」という概念です。エージェントは古くからソフトウェア工学やロボティクスの分野で取り扱われてきましたが、2020年代半ばから急激に性能が向上したファウンデーションモデル(Foundation Models)の応用により、これまで「夢」や「研究上のデモンストレーション」だったはずの高度な自律エージェントが現実的なものとなりつつあります。
スタンフォード大学のChris Manning、UC BerkeleyのStuart Russell、OpenAIの研究者らをはじめ、多くの専門家が「高度に知的なエージェント」はAIの最終目標の一つであると指摘しています。Stuart RussellとPeter Norvigの名著「Artificial Intelligence: A Modern Approach」(初版1995年)でも、「合理的エージェント (rational agents) の設計と研究」をAI研究の中核に位置付けています。
本レポートでは、これらの背景や基礎的な概念、具体的にどのような技術が使われているか、そしてエージェントが陥りうる失敗モードや評価について、膨大な解説を試みます。特に本レポートは、LLM(大規模言語モデル)を“脳”とし、外部のツールを“手足”や“感覚器官”とするアプローチを中心に説明しています。
2. エージェント概要 (Agent Overview)
2.1 エージェントとは何か
エージェント(agent) という言葉は、ソフトウェア工学、AI、ユーザーインターフェース設計、ロボティクス、マルチエージェントシステムなど、幅広い文脈で使われてきました。各分野で定義は若干異なりますが、AIの文脈では以下がよく使われる定義です。
“エージェントとは、環境を観測(perceive)し、その環境に対して何らかの行動(act)を取れる存在のこと。”
— Russell & Norvig (1995), Artificial Intelligence: A Modern Approach
この定義から見ても分かるように、エージェントには大きく2つの柱があります。
- センサー (Sensors) または知覚:エージェントは何らかの方法で環境を観測する。
- アクチュエーター (Actuators) または行動:エージェントは観測した情報をもとに環境へ作用する行動をとる。
したがって、ソフトウェア的に環境を観測(データ取得)し、APIを叩く・ファイルシステムを編集する・レポートを生成するなどの行動をするAIプログラムも十分に「エージェント」と呼べます。例えば、LLMがウェブ検索ツールを使う→結果を読み取る→それを使ってさらに別のAPIを叩く、といった一連のやりとりも「観測と行動」です。
2.2 環境 (Environment) とアクション (Actions)
エージェントを定義づける最も重要な要素は**「どの環境において」「どのようなアクションが取れるか」**です。
- 環境:
- 例:自動運転車であれば「道路とそこに存在する他の車両、歩行者、信号などが含まれる物理空間」
- 例:ウェブ検索ボットであれば「インターネット上のウェブページがひとまずの環境」
- 例:チェスAIなら「チェス盤上の駒の配置状態」が環境
- アクション:
- 例:自動運転車であれば「ハンドル操作、アクセル、ブレーキ、ウインカー、車載コンピュータへの指示など」
- 例:ウェブ検索ボットなら「Google検索や特定WebAPIの呼び出し、ウェブサイトのスクレイピング」
- 例:チェスAIなら「合法手に基づく駒の移動のみ」
特にLLM系AIエージェントの場合は、環境として「コンピュータ(ファイルシステム・ターミナルなど)」や「ウェブ(検索エンジン・外部APIなど)」を想定し、アクションとして「特定の関数呼び出し」や「ファイルの読み書き」などが考えられます。
2.3 AIエージェントが注目される理由
- ファウンデーションモデルの汎用性向上
GPT-3, GPT-4, Claude, PaLMなどをはじめとするLLMは、単純なチャット応答だけでなく、コーディング、文章翻訳、要約など幅広いタスクに高精度に対応できるようになりました。これに外部ツールやAPIへのアクセス権を付与することで、より自律的なタスク完了が可能になります。 - マルチステップタスクへの対応
複数ステップを要するタスク(例:SQLデータベースから情報を取得し、さらに集計し、さらに可視化する)では、1ステップごとの誤りが最終結果に大きく影響します。エージェントが自動で「プロンプト→ツール呼び出し→結果検証→次のステップへ」と繰り返してくれるため、人間の介入を最小化できます。 - 大きな経済的価値
AIエージェントが「アシスタント」「営業支援」「コーチング」「カスタマーサポート」などあらゆる業務に広く活用され始めています。短期的にはまだ完全自律とはいかずとも、人間が高い付加価値を生み出す部分をサポートし、生産性を飛躍的に高めると期待されています。
3. ツール (Tools)
3.1 ツールの役割:リードオンリーアクションとライトアクション
エージェントが外部環境にアクセスし、情報を「取得」あるいは「変更」するためには、何らかの機能やAPIを呼び出す必要があります。本レポートでは便宜上、エージェントが使う「機能」や「API」のことを**「ツール (tool)」**と呼びます。ツールには大きく2種類があります。
- 読取り専用 (read-only) アクション
- 例:ウェブ検索(ネットから最新情報を取得する)、SQLクエリを投げてデータベースから結果を読み出す、画像キャプショナーで画像をテキスト化する、OCRでPDFをテキスト化する、など。
- エージェントはツールを用いて環境を観測する。
- 書き込み (write) アクション
- 例:SQLクエリでデータを更新・挿入・削除する、メール送信APIでメールを送る、ファイルを保存・編集する、決済APIで実際にお金を動かす、など。
- エージェントはこのツールを使って環境に作用する。
- 当然ながら「意図しない行動」が取られるリスクが高くなるため、セキュリティ設計が必須となる。
3.2 ツール分類:知識拡張ツール / 機能拡張ツール / 書き込みアクションツール
ツールはその役割や特性によっていくつかに分類できますが、ここでは3つに分けて説明します。
- 知識拡張 (Knowledge Augmentation)
- モデルに足りないドメイン知識、最新情報、企業内の非公開情報などを外部リソースから取得する。
- 例:
- テキスト検索リトリーバー
(例:言語モデルのコンテキストウィンドウに入りきらない文書を外部から要約して供給) - イメージ検索や商品データベース
- Web検索ツール
- 各種API(天気、ニュース、SNS、GitHubなど)
- テキスト検索リトリーバー
- 機能拡張 (Capability Extension)
- モデルが苦手とするタスクを補完する。
- 例:
- 計算ツール:電卓APIやPythonの
eval()
風の計算機能 - 単位変換ツール:lbs→kg、USD→JPYなど
- 翻訳ツール:モデルが苦手な言語へ翻訳する
- コード実行環境(コードインタープリター):データ処理やテストコードなどを実行し、その結果をフィードバック
- チャート描画ツール・LaTeXレンダラーなど、モデル単独ではできない形式へ変換するツール
- 計算ツール:電卓APIやPythonの
- 書き込みアクション (Write Actions)
- 外部状態を変化させるツール。高度かつ危険度の高い操作が含まれる。
- 例:
- データベース更新API
- メール送信API
- 決済API
- ファイルやシステム設定の編集権限
3.3 ツールを使うことで得られる効果
- 汎用性・柔軟性の向上
LLM単体では事実誤認やリアルタイム性の欠如が起こりやすいが、適切なツールを組み合わせることで正確性や最新性を補完できる。 - 推論コストの削減
例:LLMが苦手な算数を大規模言語モデル単独でやろうとするとトークン消費が大きくミスも多い。しかし外部計算ツールでサクッと答えを得ればコスト削減に繋がる。 - 新たなマルチモーダル対応
文字しか扱えないLLMでも、画像解析ツールや音声認識ツールと連携すれば画像・音声を扱えるようになる。
3.4 ツールセレクション(選択)の難しさ
- 多すぎるツールは学習コスト・利用難度が増す
ツールが増えれば増えるほど、モデルはどれを使ってよいか判断が複雑化する。ツールの一覧とその使い方がコンテキストとして入らなければならないケースも多く、プロンプトのトークンコストを圧迫する。 - ツール連携の整合性確保
あるツールの出力を別ツールの入力に流す場合、形式が合わないなどのバグが生じやすい。 - ツールの保守
ツールのAPIがバージョンアップされる・廃止されると、その変更をエージェントに教え直す必要がある。
ツール選択を誤ると、たとえ強力なLLMを使っていても、性能を出し切れない・あるいは無駄にコストがかかる可能性が高いです。実際の運用ではアブレーションスタディ(ツールを1つずつ外して性能差を測定)や使用頻度の可視化(どのツールが何回呼ばれたか)を行いながら選定を進めるのが一般的です。
4. プランニング (Planning)
4.1 プランニングが重要になる理由
- 複数ステップの誤り伝搬
例えば、「Salesデータベースをクエリ→追加情報が必要→再度クエリ→要約→提案生成→ユーザーへ回答」という流れで10ステップあるとすると、1ステップあたりの正答率が95%でも、連鎖で誤りが伝搬し最終結果が低品質になりがちです。 - 失敗コストの増大
エージェントが書き込み権限のあるツールを持つと、一度のミスでデータベースを破壊してしまうなど取り返しのつかない損失が発生する場合があります。 - ユーザーコスト(時間、金銭)
LLMのAPIコールは有料であることが多く、ステップ数が増えすぎるとコストが膨れ上がります。また、エラーを繰り返して時間を浪費するリスクもあります。
エージェントを成功裏に運用するためには、「無駄の少ない適切なプランの生成と、実行途中のフィードバックによる誤り修正」が欠かせません。
4.2 プランニングの基本構造
- 目標(Goal) と制約(Constraints) の理解
例:ユーザーが「予算5000ドル以内で2週間のインド旅行を手配したい」と言った場合の「目標=インド旅行」「制約=5000ドルを超えない」「期間=2週間」など。 - タスクの分解(デコンポジション)
大きなゴールを、より小さなサブタスクに分けていく。
例:フライト予約 / 現地移動手段の検討 / ホテル予約 / 観光地リストアップ / ビザ要否確認 等。 - 各サブタスクを解決するためのアクション列(プラン)を策定
- 例:Web検索ツールで航空券比較サイトをチェック→最安料金を取得→ユーザープロファイルから好みの航空会社や時間帯を考慮→決済APIへ予約リクエスト、など。
- プランの妥当性検証
- 不足・矛盾の有無、制約違反(例えば予算超過)がないかなどを確認。
- 実行とフィードバックループ
- サブタスクを実行→結果を確認→修正が必要ならプラン修正。
この流れは「人間が行う計画作業」とかなり似ています。AIエージェントにもほぼ同じことをやらせるわけですが、その際にLLMが一度に大きなプランをすべて考えるか、段階的に考えるかは実装設計に左右されます。
4.3 ファウンデーションモデルはプランニングできるのか?
Yann LeCunをはじめ、多くの研究者は「現在主流の**自己回帰言語モデル(autoregressive LLM)**には根本的な限界があるのでは」と指摘しています。具体的には、自己回帰モデルが生成するのは「単方向(左→右)」のトークン列であり、探索やバックトラックを本当にできるのかが疑問視されています。
一方で、実例としてGPT-4がチェスの指し手をある程度考えたり、複雑なコーディングタスクを段階的に解いていく様子から、LLMがまったくプランニングできないわけではない、という声もあります。
学術的には、プランニングは**「状態空間(ある状態から次の状態へ遷移する行動の探索問題)」としてしばしば定式化されます。チェスや将棋、迷路探索のようなゲームAIでは、ツリー探索や動的計画法、強化学習などの手法が使われてきました。LLMの場合、それを「言語的に表現された知識や論理」を用いて疑似的に実現しているとも言えます。
「ReAct (Yao et al., 2022)」や「Reflexion (Shinn et al., 2023)」では、LLMが手順を一歩ずつ進め、結果を振り返って(リフレクション)、必要に応じてやり直しや再計画を行う**という仕組みを提示しています。これは実質的にバックトラックや探索の一部をエミュレートする方法といえます。
4.4 FMプランナー vs RLプランナー
- RLプランナー (強化学習エージェント)
- エージェントが試行錯誤を通じて「方策 (policy)」を学習する。
- 訓練に大量のサンプルやシミュレータが必要。
- ゲームやロボティクスに昔から広く応用されてきた。
- FMプランナー (ファウンデーションモデルエージェント)
- LLMをプロンプト/微調整/推論などでプランニングモジュールとして使う。
- 訓練コストは比較的低い(会話や指示で何とかなる部分が大きい)。
- ただし「自力での試行錯誤」は限られた範囲でしか実行できず、失敗を踏まえたオンライン学習には追加仕組みが必要。
将来的にはRL + FMのハイブリッドが進む可能性が高いと予測されています。
4.5 プラン生成 (Plan Generation)
最もシンプルな方法は、LLMへのプロンプトだけでプランを生成させるアプローチです。
- 例:
システムプロンプトで「あなたの使える関数はA, B, Cです。ユーザーの入力に合わせてどの順序でどの関数を使うか考えて下さい。結果として(Plan: [A, B, C])の形で出力して下さい。」のように指示する。 - 欠点:
1回の出力で不完全なプランが出た場合にどうリトライするか。プランが巨大化しすぎる場合にどう制御するか。
一方で、計画と実行を分離し、まず「計画だけをLLMに生成させる→それが妥当かどうかを別の手順・別のモデル(あるいは人間)でチェック→合格なら実行させる」方法があります。これにより「実行途中で無駄をしすぎるリスク」を減らせます。
4.6 関数呼び出し (Function Calling) とエージェント設計
OpenAIやAnthropicなど多くのLLM APIでは、「Function Calling」や「ツール呼び出し」をサポートし始めています。ユーザーのクエリに応じ、モデルが自動的に「必要な関数の名前と引数」を出力し、開発者側がその情報をパースして実際のAPI呼び出しを行う、というワークフローです。
User: "40ポンドは何キログラムですか?"
LLM: (内部で計算ツールが必要だと推論)
→ `function_call: {"name": "lbs_to_kg", "arguments": {"lbs": 40}}`
開発者はこの{"lbs":40}
を受けて、実際にlbs_to_kg(40)
を呼び出し、結果(約18.144kg)を再度LLMに渡すなりユーザーに返すなりします。これが計画と実行の最も基本的な連携イメージです。
4.7 マルチステップ制御フロー(Sequential, Parallel, If, Forループなど)
計画の流れ(コントロールフロー)にはいろいろな形があり、以下のように分類できます。
- Sequential(直列)
ステップ1→2→3…と順番に実行していく。
例:SQLからデータ取得→その結果を要約→さらにグラフ生成→PDFで出力。 - Parallel(並列)
複数のツール呼び出しやサブタスクを同時並行で実行。
例:10サイトを同時にスクレイピングして結果を集約する。 - If文条件分岐
あるツール呼び出し結果によって、次のステップを変える。
例:在庫APIで在庫がゼロなら仕入れAPIを叩く、在庫があれば販売ページを更新する。 - Forループ
同じ処理を繰り返す。
例:CSVの各行に対して計算を実行→結果をまとめる。
LLMにこれらを直接書かせるには、自然言語による高レベル計画を出力させる→それを別の仕組みで(プログラム生成など)翻訳する、という手法がよく使われます。純粋にテキストとしてif (condition) then ...
のように書かせるよりは、「ユーザーが追記したルールベースのフロー制御」でラップするほうが安全・確実な場合が多いです。
4.8 リフレクションとエラー訂正
- リフレクション (Reflection)
- エージェントが自分の行動や中間結果を振り返り、「これは正しいか?」「何が不足しているか?」と考えるプロセス。
- 例:「SQLの結果が想定と違う。データ取得範囲が間違っていたかもしれない」と自己診断し、修正する。
- エラー訂正 (Error Correction)
- リフレクションで発覚した問題や不足点を踏まえて、新たなアクションや計画を立て直す。
たとえば、次のようなフローが典型的です。
- ユーザーからタスクを受け取る。
- プランを生成する。
- プランを実行し、途中で出てきた結果を検証する(ここでリフレクション)。
- 必要に応じてプランを修正して再実行。
- ゴールが達成されたと判断できれば終了、そうでなければさらに修正を繰り返す。
「ReAct (Yao et al., 2022)」はプランニングとアクション、リフレクションをステップごとに交互に行い、タスク完了まで続ける提案手法です。「Reflexion (Shinn et al., 2023)」では**評価モジュール(Evaluator)と自己反省モジュール(Self-Reflection)**を分け、エージェントが継続的に学習・改善する仕組みを持ち込みました。
4.9 ツール選択 (Tool Selection)
前述のとおり、ツールの数を増やしすぎると使いこなしが難しくなります。Chameleon (Lu et al., 2023)やGorilla (Patil et al., 2023)などの研究では、ツール(API)選択を最適化することで性能を向上させる試みが行われています。
ツールの追加は学習やプロンプト設計に影響し、ツールが多すぎるとコンテキスト量を圧迫する可能性があるため、次のようなアプローチで選定します。
- アブレーションスタディ:ツールを一つずつ外して性能評価→不要なら外す。
- ツール利用頻度の分析:ほとんど呼ばれていないツールは本当に必要か検討。
- 実行ログの監視:ツール呼び出し失敗率やエラー原因を調べ、特定のツールで失敗が多ければ改善策を講じる。
さらに最近では、エージェント自身が新しいツール(コード片)を生成し、それを「ライブラリ」に格納して再利用するというアプローチ(Voyager (Wang et al., 2023)など)も模索されています。
5. エージェントの失敗モード (Failure Modes) と評価手法 (Evaluation)
AIエージェントに特有の失敗パターンをいくつか見ていきましょう。評価とはすなわち「これら失敗をどれだけ防げているか」を測ることでもあります。
5.1 プランニングの失敗 (Planning Failures)
- ツール使用失敗
- 存在しないツールを呼び出す(例:
bing_search()
というツールを持っていないのに呼び出し) - 引数が不正(例:
lbs_to_kg()
が{"lbs": 40, "color": "red"}
のようにあり得ない引数を付ける) - 引数の型や数値が誤っている
- 存在しないツールを呼び出す(例:
- 目的未達成 (Goal Failure)
- タスク要求を満たさないまま終了してしまう
- 制約を無視する(予算5000ドル以内といいつつ7000ドルの旅程を組むなど)
- 完了判定ミス
- タスクが終わっていないのに「完了した」と判断してしまう
これらを評価するには、(タスク, ツールの一覧)というベンチマークを用意し、エージェントに複数回プランを生成させて何%が妥当なプランか、あるいはプランを完成させるのに平均何回の試行が必要かを測るなどの方法があります。
5.2 ツールの失敗 (Tool Failures)
ツール自体が正しく動かないケースもあれば、ツール同士の連携がうまくいかない(翻訳後のテキストエンコードが崩れるなど)こともあります。これはツール固有のテストが必要です。
- 例:イメージキャプショナーが誤ったキャプションを返す
- 例:SQLクエリ生成器が間違ったSQL文を組み立てる
- 例:中間フォーマットの変換ミス(JSONで返すはずがXMLになるなど)
5.3 効率性の問題 (Efficiency Failures)
ツールやステップを正しく使えているが、やたらと回数が多く非効率になっているケースです。APIコールが膨大になってコストが跳ね上がったり、ユーザーが結果を得るまでに時間がかかりすぎたりするなどの問題が起こりえます。
- 評価指標:
- タスク完了までの平均ステップ数
- タスク完了までの総APIコールコスト
- 平均所要時間
エージェントを評価する上で、「他の手段(人間が同じことをやる場合、もしくは単純なスクリプトでやる場合)と比べてメリットがあるか?」という観点も重要です。
5.4 評価の具体的アプローチ
- シナリオベーステスト
- 例:10種類のユーザーシナリオ(旅行予約、在庫検索、顧客対応など)を用意し、どれだけ成功/失敗するかを見る。
- 自動評価+人的評価のハイブリッド
- 部分的には自動で評価できる(ツール呼び出しの正当性やパラメータ正しさ)一方、最終的な出力が満足いくものかは人間が採点する必要があることも。
- ログ分析
- エージェントの実行ログを詳細に追跡し、どのステップでどんな結果が得られ、そこに無駄がないかチェックする。
6. エージェントの今後と展望
6.1 自律エージェントへの期待と懸念
- 期待:
- 大規模タスクの大部分を自動化し、人間がより創造的なタスクに注力できるようになる。
- 24時間自動で作業を続けられるため、ビジネスが飛躍的にスピードアップする。
- 懸念:
- 書き込みアクションによる大規模な被害(誤送信、誤削除、プライバシー侵害など)
- エージェントが与えられた目標を極端に追求し、倫理的に問題のある行動を取ってしまう可能性
6.2 セキュリティ・安全性
自律性が高いエージェントを実運用する場合、**「インターンに生データベースのDELETE権限を渡すのと同等のリスク」**があると考えるべきです。安全弁としては以下が挙げられます。
- 役割ベースアクセス制御 (Role-Based Access Control):
実験段階では読み取り専用だけ与え、本番環境の更新権限は段階的に許可するなど。 - アクション承認フロー:
リスクの高い操作は人間の最終承認が必要にする。 - プロンプト防御(Defensive Prompting):
ユーザーが悪意のある入力(プロンプトインジェクション)をしても、機密データ漏洩や書き込み被害を防ぐ設計。 - 監査ログの確保:
すべてのツール呼び出しとその結果を記録し、あとから調査できるようにする。
6.3 今後の研究・発展可能性
- LLMの長期記憶化
メモリシステムや知識ベースを使い、過去の失敗や成功を学習してより賢くなるエージェント。 - エージェント同士の連携(マルチエージェントシステム)
それぞれ専門を持つエージェント同士が協調し、大規模問題を解決。 - RLとの統合
LLMが得意な言語推論×RLが得意な試行錯誤学習の組み合わせで、さらに強力な自律エージェントが生まれる。
7. 結論
本レポートでは、エージェントとは何かという基本的な話から始まり、環境とアクション、ツールとプランニング、そしてエージェント固有の失敗モードと評価方法について詳しく解説しました。
- エージェントの定義:環境を観測し、行動する存在。AIではLLMがその「脳」を担う。
- ツールの重要性:単体ではできないことを可能にし、知識や機能を拡張する手段。しかし多すぎるツールは複雑性を高める。
- プランニングとリフレクション:マルチステップの問題を解決するためには計画とフィードバックループが不可欠。計画・実行の繰り返しこそが「自律性」の鍵。
- 失敗モードと評価:計画ミス・ツール呼び出しミス・効率低下など、様々な落とし穴がある。アブレーションスタディやログ分析などで継続的に改善する必要がある。
このようなエージェントアーキテクチャは、すでに企業の顧客対応やデータ分析、コーディング支援などに広く導入が始まっています。今後はさらに安全性・信頼性・継続学習の面で技術革新が起こり、「ほんの少しの手助けがある自律エージェント」から「高度に自律的に学習し、改善し続けるエージェント」へと進化していくでしょう。
補足:簡単な計算例(コードインタープリターの使用デモ)
本稿では主に理論や事例解説が中心でしたが、最後に簡単な例だけ示します。たとえば下記のようにPythonコードで何かしらの数値計算をする際、エージェントがコードインタープリターを呼び出して結果を得ることをイメージしてください。
ここでは「199,999 ÷ 292」を計算する例を示します。手動でも計算できますが、コードインタープリターで正確に計算してみます。
# 例:コードインタープリターで実行する想定
val = 199999 / 292
val
実行結果(例):
684.9263698630137
よって、199,999 ÷ 292 ≈ 684.92637 となります。
LLM自身はしばしば整数の四則演算でも間違った応答をすることがありますが、このようにツールを使えば確実性が高まります。
エージェントの概念は今後のAIエコシステムを大きく変える可能性が高いため, 引き続き研究開発や実運用事例の蓄積が進むことが期待されます。将来的には、「単なるチャットボット」から「高度なビジネスロジックや物理世界を操作する自律エージェント」へと発展し、私たちの生活を大きく支える基盤となるでしょう。