Gemini 2.0 Flash で処理できる PDF ファイルの仕様

Gemini 2.0 Flash は、Google が開発した大規模言語モデル (LLM) で、テキスト、画像、音声、動画など、さまざまな形式のデータを処理できます 1。本稿では、Gemini 2.0 Flash で処理できる PDF ファイルの仕様について詳しく解説します。

Gemini 2.0 Flash がサポートする入力形式

Gemini 2.0 Flash は、PDF の他に、テキスト、コード、画像、音声など、さまざまな形式のデータを入力として受け取ることができます。将来的には、画像と音声を出力として生成する機能も追加される予定です 1。このマルチモーダルな処理能力により、PDF に含まれるテキスト情報だけでなく、画像や図表なども含めた、より包括的な理解が可能になります 2

PDF ファイルの仕様

Gemini 2.0 Flash で処理できる PDF ファイルの仕様は以下の通りです 1

項目仕様
最大ファイルサイズ50 MB/ファイル
最大ページ数1,000 ページ
最大ファイル数3,000 ファイル
知識のカットオフ日2024年6月

Gemini 2.0 Flash は、PDF ファイルを画像として処理します 1。そのため、1ページの PDF は 1 つの画像として扱われます。処理できるページ数は、モデルがサポートできる画像の数に制限されます。

入力されたデータは、「トークン」と呼ばれる単位に分割され、モデルによって処理されます。Gemini 2.0 Flash が一度に処理できるトークンの最大数は 1,048,576 個です。これは「コンテキストウィンドウ」と呼ばれ、入力と出力のトークンの合計数の上限となります 1

処理可能な PDF ファイルの例

上記の仕様を満たす場合、Gemini 2.0 Flash は以下のような PDF ファイルを処理できます 1

  • 3,000 個の 1 ページ PDF ファイル
  • 300 ページの PDF ファイル 10 個
  • 1,000 ページの PDF ファイル 3 つ

出力形式

Gemini 2.0 Flash は、テキスト、コード、JSON 形式のデータを出力として生成できます 1

PDF 処理における制限事項

Gemini 2.0 Flash は、まだ試験運用版のモデルであるため 4、PDF 処理においていくつかの制限事項があります。

  • OCR 機能の欠如: Gemini 2.0 Flash は、PDF を画像として処理するため、スキャンされた PDF や画像ベースの PDF からテキストを抽出する OCR 機能は備わっていません。そのため、スキャンされた PDF を処理する場合は、事前に OCR ソフトウェアを使用してテキストデータに変換する必要があります。
  • 複雑なレイアウトへの対応: 表や図表が多いなど、複雑なレイアウトの PDF ファイルは、正しく処理できない場合があります。このような PDF を処理する場合は、レイアウトを簡素化するか、表や図表を別途処理する必要があります。
  • ファイルサイズ: ファイルサイズが大きすぎる PDF ファイルは、処理に時間がかかったり、エラーが発生したりする可能性があります。大きな PDF ファイルを処理する場合は、ファイルを分割して処理するか、より強力なモデルを使用する必要があります。
  • 特定のキーワード入力時のエラー: ユーザーフォーラムの情報によると、特定のキーワードを入力するとエラーが発生するケースが報告されています 5。これは、モデルの学習データに偏りがあることが原因と考えられます。
  • 長文 PDF 処理時のエラー: 同様に、長文の PDF ファイルを処理する際にエラーが発生するケースも報告されています 6。これは、コンテキストウィンドウの制限や、モデルの処理能力に限界があることが原因と考えられます。

リクエストレート制限

Gemini 2.0 Flash の API には、以下のレート制限があります 7

  • 1 分あたりのリクエスト数 (RPM): 10
  • 1 日あたりのトークン数 (TPM): 400万
  • 1 日あたりのリクエスト数 (RPD): 1,500

パフォーマンスと精度

Gemini 2.0 Flash の PDF テキストスキャン精度は、「rd-tablebench」ベンチマークで測定されています 8。このベンチマークは、「スキャンの質の悪いもの」「複数言語にまたがるもの」「複雑なテーブル構造を持つもの」など、さまざまな種類の PDF ファイルを使用して、モデルのテキストスキャン精度を評価するものです。Gemini 2.0 Flash は、このベンチマークで高いスコアを記録しており、複雑な PDF ファイルでも高精度にテキストを抽出できることが示されています。

今後の展望

Gemini 2.0 Flash は、まだ試験運用版であるため、今後さらに機能が向上する可能性があります。例えば、OCR 機能の追加や、複雑なレイアウトの PDF ファイルへの対応、処理速度の向上などが期待されます。これらの機能強化により、PDF 処理における制限事項が解消され、より幅広い用途で Gemini 2.0 Flash を活用できるようになると考えられます。

競合製品との比較

Gemini 2.0 Flash の競合製品としては、GPT-4 や Claude 2、LLaMA 2 などが挙げられます。これらの製品の PDF ファイルの仕様を以下の表にまとめました。

製品最大ファイルサイズ最大ページ数OCR 機能知識のカットオフ日その他
Gemini 2.0 Flash50 MB/ファイル1,000No2024年6月PDF を画像として処理、費用対効果が高い 9
GPT-4情報なし情報なし情報なし情報なし10
Claude 230 MB/ファイルClaude 3.5 Sonnet で視覚要素も分析する場合は 100 ページまで 11Yes情報なし1 チャットあたり最大 20 ファイルまで 11
LLaMA 2情報なし情報なし情報なし情報なし12

Gemini 2.0 Flash は、Claude 2 と比較して、最大ファイルサイズと最大ページ数が大きく、より多くの PDF ファイルを処理できます。また、GPT-4 と比較して、費用対効果が高いという利点があります 9

結論

Gemini 2.0 Flash は、50 MB 以下の PDF ファイルを最大 1,000 ページ、3,000 ファイルまで処理できます。PDF ファイルを画像として処理するため、OCR 機能は備わっていませんが、rd-tablebench ベンチマークで示されているように、複雑な PDF ファイルでも高精度にテキストを抽出できます。ただし、複雑なレイアウトへの対応や、長文 PDF 処理時のエラーなど、まだ制限事項も存在します。

Gemini 2.0 Flash は、まだ試験運用版のモデルですが、競合製品と比較して、処理できるファイルサイズが大きく、費用対効果が高いという利点があります。今後、OCR 機能の追加や、複雑なレイアウトへの対応など、さらなる機能向上が期待されます。これらの機能強化により、PDF 処理の精度が向上し、より幅広いユースケースで Gemini 2.0 Flash を活用できるようになると考えられます。