トランスフォーマーアーキテクチャの歴史は、自然言語処理(NLP)や人工知能(AI)の分野において重要な進化を遂げてきました。以下に、トランスフォーマーの歴史を年表形式で詳述します。
2017年
- 論文発表: “Attention is All You Need”が発表され、トランスフォーマーアーキテクチャが初めて紹介されました。この論文では、自己注意機構(Self-Attention)を用いたモデルが提案され、従来のRNNやCNNに代わる新しいアプローチとして注目されました。これにより、長距離依存関係を効率的に学習できるようになり、並列処理が可能となりました111。
2018年
- BERTの登場: GoogleがBERT(Bidirectional Encoder Representations from Transformers)を発表しました。BERTは双方向の文脈を考慮した事前学習モデルであり、NLPタスクにおいて大幅な性能向上を実現しました。BERTは、トランスフォーマーのエンコーダ部分を利用し、マスクされた言語モデル(Masked Language Model)として訓練されました23。
2019年
- GPT-2のリリース: OpenAIがGPT-2(Generative Pre-trained Transformer 2)を発表しました。これはトランスフォーマーのデコーダ部分を使用したモデルであり、大規模なデータセットで事前学習され、多様なテキスト生成タスクに対応できる能力を持ちました。GPT-2は、その生成能力から多くの注目を集めました25。
2020年
- T5とXLNet: GoogleがT5(Text-to-Text Transfer Transformer)を発表し、すべてのNLPタスクをテキスト変換問題として定式化しました。また、XLNetも登場し、BERTの双方向性をさらに進化させたモデルとして注目されました。これにより、トランスフォーマーアーキテクチャはますます多様化しました3。
2021年
- GPT-3の登場: OpenAIがGPT-3を発表し、そのパラメータ数は1750億に達しました。GPT-3は少数ショット学習(Few-Shot Learning)やゼロショット学習(Zero-Shot Learning)においても高い性能を示し、多くのアプリケーションで利用されるようになりました5。
2022年
- CLIPとDALL-E: OpenAIがCLIP(Contrastive Language–Image Pretraining)とDALL-Eを発表しました。CLIPは画像と言語の関連性を学習し、DALL-Eはテキストから画像を生成する能力を持つモデルです。これらはトランスフォーマーアーキテクチャの多モーダル応用の一例です3。
2023年
- LLaMAとChatGPT: MetaがLLaMA(Large Language Model Meta AI)を発表し、高性能なオープンソースモデルとして注目されました。また、OpenAIはChatGPTという対話型AIシステムを提供し、多くのユーザーに利用されるようになりました。この時期には、トランスフォーマー技術が商業的にも広く普及しました5。
2024年
- 進化するトランスフォーマー: トランスフォーマーアーキテクチャはさらに進化し続け、新しいバリエーションや改良版が次々と登場しています。特に効率性や解釈可能性の向上が求められ、多くの研究者が新しい手法やアプローチに取り組んでいます。
このように、トランスフォーマーアーキテクチャはその誕生以来急速に進化し、多くの革新的なモデルや技術が生まれています。その影響は自然言語処理だけでなく、画像処理や音声認識など多くの分野にも及んでいます。