2024年後半以降に発表された主要なLLMのコンテキスト長を比較した一覧表を示します。
LLM名 | コンテキスト長(トークン数) | Developer | 特徴 | 情報源 |
---|---|---|---|---|
Mistral 7B Instruct v0.3 | 32,768 | Mistral AI | オープンソースで、32kトークンのコンテキスト長を備えています。 | Scalewayのドキュメント 1 |
DeepSeek Coder V2 | 128,000 | DeepSeek | コーディングに特化したLLMで、128kトークンという長いコンテキスト長をサポートしています。 | DeepSeek Coder V2のGitHubリポジトリ 2 |
Gemini Pro 2.0 | 2,097,152 | Googleが開発したマルチモーダルLLM。200万トークンという非常に長いコンテキスト長を誇ります。 | Google Cloudのドキュメント 3 |
考察
2024年後半以降に発表されたLLMでは、コンテキスト長が大幅に増加している傾向が見られます。特に、DeepSeek Coder V2 の128,000トークン、Gemini Pro 2.0の2,097,152トークンは、従来のLLMと比較して桁違いに長いコンテキスト長を誇ります。
コンテキスト長の増加は、LLMの応用範囲を拡大する上で重要な役割を果たします。例えば、Gemini Pro 2.0 のような長いコンテキスト長を持つLLMは、以下のようなタスクに特に有効です。
- 大量のテキストデータの処理: 長いドキュメントの要約、詳細な質問応答、複雑なコード生成など、大量のテキストデータを扱う必要があるタスクに効果的です。
- 複雑な推論: より多くの情報を考慮できるようになることで、LLMはより複雑な推論や問題解決が可能になります。
- より自然な対話: コンテキスト長が長くなることで、LLMは過去の会話内容をより長く記憶できるようになり、より自然で人間らしい対話が可能になります。
今後の展望
LLMのコンテキスト長は、今後もさらに長くなっていくと予想されます。コンテキスト長の増加に伴い、LLMはより多くの情報を処理できるようになり、自然言語処理の分野でさらなる革新が起きると期待されます。
しかし、コンテキスト長の増加には、計算コストの増加、メモリ容量の制限、過学習のリスクなど、いくつかの課題も存在します。これらの課題を克服するために、効率的なアルゴリズムやハードウェアの開発、適切な学習方法の研究などが重要となります。
引用文献
1. Understanding the Mistral-7b-instruct-v0.3 model | Scaleway Documentation, 2月 8, 2025にアクセス、 https://www.scaleway.com/en/docs/managed-inference/reference-content/mistral-7b-instruct-v0.3/
2. github.com, 2月 8, 2025にアクセス、 https://github.com/deepseek-ai/DeepSeek-Coder-V2
3. Gemini 2.0 | Generative AI on Vertex AI – Google Cloud, 2月 8, 2025にアクセス、 https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2