Transformerモデルと最先端モデルとのギャップ

はじめに

2017年に発表された「Attention Is All You Need」 ([1706.03762] Attention Is All You Need) 、従来主流であったリカレントニューラルネットワークに代わりTransformerと呼ばれる新しいアーキテクチャを提案し、機械翻訳で当時の最先端性能を達成しました ([1706.03762] Attention Is All You Need) Transformerは自己注意機構(Self-Attention)に基づき並列計算に適した構造を持ち、訓練効率の大幅な向上にも成功しました ([1706.03762] Attention Is All You Need) この論文は自然言語処理(NLP)分野に革命をもたらし、その後わずか数年で大規模言語モデル(LLM)へと発展しNLPのみならず他の分野(画像認識、計算生物学など)にも大きな影響を与えています (Understanding Large Language Models) 本レポートでは、2017年のTransformerモデルと現在の最先端AIモデルの進化を比較し、特に以下の観点で最新研究動向を整理します。各節で詳細を述べ、最後に比較表を提示します。

  • マルチモーダル化(画像・音声・テキストの統合)
  • 基盤モデル化(GPT-4、PaLM、Geminiなどの巨大モデル)
  • 軽量化技術(Low-Compute Models(LCM)などによるモデル効率化)
  • その他の進化(スパース化、アテンション最適化、新しい事前学習手法 など)

Transformer (2017) の概要と限界

「Attention Is All You Need」で提案されたTransformerは、エンコーダ・デコーダ構造の各層で自己注意とフィードフォワード層を組み合わせた6層から成るモデルでした。パラメータ数は約1億程度(ベースモデル)で (Attention Is All You Need – Wikipedia) 当時の機械翻訳データセット(WMT2014など数百万文対)で学習され、従来より高いBLEUスコアを達成しています ([1706.03762] Attention Is All You Need) このモデルはマルチヘッド注意による効果的な文脈情報の捉え方を示し、畳み込みやリカレンスを使わずに高品質な翻訳を短い学習時間で実現しました ([1706.03762] Attention Is All You Need) しかし、当初のTransformerは単一モーダル(テキストのみ)かつタスク固有(機械翻訳)であり、モデル規模も現在から見れば小規模でした。また自己注意の計算量は入力長の二乗に比例するため、長文入力や大規模データへの適用にはスケーラビリティの課題が残っていました。

マルチモーダル化の進展

Transformerの成功後、研究者たちはその手法を他のモーダルにも拡張しました。まず視覚分野では2019年頃から「CNN特徴量+Transformerエンコーダ」という形で画像認識に応用する試みが始まり、画像を低解像度のパッチ列とみなしてTransformerで処理する手法で成果が出ました (Multimodal Learning with Transformers A Survey | Qiang Zhang) 特に2020年のVision Transformer (ViT)は、画像を直接パッチに分割してTransformerに入力し、従来の畳み込みネットワークに匹敵する精度を達成した画期的研究です (Multimodal Learning with Transformers A Survey | Qiang Zhang) 音声認識でもTransformerベースのモデル(例:Speech-Transformer)によりRNNを使わない手法が登場しました。

さらにマルチモーダル(複数モーダル統合)への発展も急速に進みました。2019年のVideoBERTはTransformerを初めて動画と言語の両方にまたがるタスクに適用し、その可能性を示しました (Multimodal Learning with Transformers A Survey | Qiang Zhang) 以降、ViLBERTLXMERTなど画像と言語のペアデータを使った多数のマルチモーダル事前学習モデルが登場し、画像キャプション生成や視覚質問応答などで精度を押し上げています (Multimodal Learning with Transformers A Survey | Qiang Zhang) 中でもCLIP(2021年、OpenAI)は画像と言語の大規模事前学習により、画像を説明文にマッチングすることでオープンセット分類を可能にした成功例で、ラベルなし画像にもテキスト情報から意味付けできる画期を開きました (Multimodal Learning with Transformers A Survey | Qiang Zhang) CLIPは事前学習後に一切の追加学習なしで画像認識をゼロショットで行えることを示し、マルチモーダルAIのマイルストーンとなりました (Multimodal Learning with Transformers A Survey | Qiang Zhang)

現在の最先端モデルはマルチモーダル対応が標準化しつつあります。例えばGPT-4(OpenAI, 2023)はテキストに加えて画像を入力として受け取ることができる大規模マルチモーダルモデルの一例です ([2303.08774] GPT-4 Technical Report – arXiv) またGoogle DeepMindのGemini(2023)は当初からテキスト・コード・音声・画像・動画といった複数モーダルをネイティブに統合できるよう設計・学習された最新の基盤モデルであり (Introducing Gemini: Google’s most capable AI model yet) マルチモーダルな理解と推論能力で既存モデルを凌ぐ性能を示しています (Introducing Gemini: Google’s most capable AI model yet) Geminiのように最初から異種のデータを統合して学習するアプローチにより、従来は別々のモデルで対処していた視覚と言語などの情報を単一モデルでシームレスに扱えるようになっています (Introducing Gemini: Google’s most capable AI model yet) (Introducing Gemini: Google’s most capable AI model yet)

基盤モデル化とモデルの大規模化

Transformer以降、NLPでは事前学習した汎用モデルを様々なタスクにファインチューニングして流用する手法が定着しました。その延長で登場したのが基盤モデル(Foundation Model)と呼ばれる非常に大規模な事前学習モデルです。基盤モデルとは「広範なデータで自己教師的に大規模学習され、様々な下流タスクに適応可能なモデル」を指す概念で (Foundation model – Wikipedia) GPTシリーズやBERTといった大規模言語モデルはその典型例です (Foundation model – Wikipedia) 従来は個別タスクごとにモデルを一から学習していましたが、基盤モデルはテキストや画像の膨大なデータで汎用知識を学習しておき、必要に応じタスクに特化させる「土台」として機能します (Foundation model – Wikipedia) このアプローチによって、一つのモデルが翻訳、質問応答、文章要約など多様なNLP課題に対応できるようになりました。近年では言語以外にも、画像生成のDALL-E、画像と言語のFlamingo (Foundation model – Wikipedia) 音楽生成のMusicGen、ロボット制御のRT-2 (Foundation model – Wikipedia) ど、各分野で基盤モデルが研究・開発されています。

特に言語モデル分野では、2018年のBERT(3.4億パラメータ) (Foundation model – Wikipedia) 来パラメータ数とデータ量の継続的な増大によって性能が飛躍的に向上しました。2020年のGPT-3は約1750億パラメータという巨大なモデルで、少量の入力例だけで新しいタスクをこなすFew-shot学習能力を示し注目されました (Foundation model – Wikipedia) Googleも2022年にPaLMを発表し、こちらは5400億パラメータに及ぶデコーダ専用のTransformerモデルです (PaLM – Wikipedia) PaLMは論理推論やコード生成など幅広いタスクで当時の最先端を上回る性能を示しました (PaLM – Wikipedia) これらのモデルはインターネット由来の大規模テキスト(数千億トークン規模)で自己回帰的言語モデルとして学習されており、学習コストは極めて高いものの下流での汎用性が高いのが特徴です (Foundation model – Wikipedia)

最新の基盤モデルとしては、前述のGPT-4(OpenAI, 2023)やPaLM 2(Google, 2023)、そしてGemini(Google DeepMind, 2023)などが挙げられます。GPT-4は正式なパラメータ数は非公開ですがGPT-3を上回る規模と性能を持ち、各種試験で人間レベルの成績を収めるなど話題となりました。またPaLM 2は多言語能力や推論力を強化した改良版として公開され、Google Bardなどのサービスに組み込まれています。Geminiは上述の通りマルチモーダルかつ汎用的なAIを目指す最新モデルで、UltraProNanoと異なる規模のバリエーションが発表されました (The Best AI Model in the World: Google DeepMind’s Gemini Has …) (Introducing Gemini: Google’s most capable AI model yet) 総じて、2017年当時のTransformerが数日で学習できる1億規模モデルだったのに対し、現在の基盤モデルは数百億~数兆パラメータ級で学習にも膨大な計算資源を要します (Foundation model – Wikipedia) これにより言語理解・生成能力は飛躍的に向上しましたが、同時に計算コストやエネルギー消費の問題も生じています。

モデルの軽量化技術(Low-Compute Models)

近年のモデル巨大化に伴い、限られた計算資源で高速にモデルを動作させる軽量化技術も盛んに研究されています。Knowledge Distillation(知識蒸留)はその代表例で、大きなモデルで学習した知識を小さなモデルに継承させる手法です。例えばDistilBERTはBERT大型モデルから知識蒸留で得られたモデルで、パラメータ40%削減・推論60%高速化しながらも性能の約97%を保持できることが報告されています ([1910.01108] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter) このように蒸留を用いるとモデルサイズを大幅に圧縮しつつ精度劣化を最小限に抑えられるため、デプロイ用途で重宝されています。

量子化(Quantization)も効果的な軽量化技術です。モデルの重みを32ビット浮動小数から8ビットや4ビット整数に縮小して格納・演算するもので、モデルサイズと計算を大幅削減できます。最新の研究では、大規模言語モデルを4ビット精度に量子化しても非量子化モデルと遜色ない性能を維持できることが示されています (A Comprehensive Evaluation of Quantization Strategies for Large Language Models) 実際、GPT-3クラスのモデルでも後処理で4ビット量子化する実装が登場しており、研究コミュニティで注目されています。もっとも極端な量子化では精度低下が問題となるため、適切な再学習や補正によって劣化を抑える工夫もされています。

他にも重みのプルーニング(剪定)による不要パラメータの削減や、Transformer構造自体の改良による効率化(後述)も活発です。また近年は大規模モデルの一部パラメータのみを調整する軽量チューニング手法(LoRAなど)も提案され、巨大モデルをそのまま圧縮せずに効率よくタスク適応させるアプローチも取られています。総じて、モデル圧縮・効率化の技術は推論コストやデバイス上での実行を現実的にするため不可欠であり、研究の重要テーマになっています。

その他の進化 (スパース化・アテンション最適化・事前学習手法)

スパース化とMixture-of-Experts

モデルのスパース化とは、全てのパラメータを常に使うのではなく、一部のパラメータのみを動的に活性化させて計算を効率化する手法です。Googleが提案したSwitch TransformerはMixture-of-Experts (MoE) と呼ばれる手法で、この考え方を大規模言語モデルに適用しました ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) 具体的には、複数の専門家ネットワーク(FFNブロック)を用意し、入力ごとにその中の一部だけを選択して通すことで、パラメータ総数は非常に大きくても各入力あたりの計算量は一定になるようにしています ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) Switch TransformerではこのMoEのルーティングを簡潔化し、通信コストや学習安定性の問題を克服する工夫を行った結果、同等の計算資源でモデルの事前学習を最大7倍高速化できたと報告されています ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) さらに1兆を超えるパラメータを持つ超巨大モデルの学習にも成功し、従来のDense(全パラメータ活性)モデルより大幅な高速化を達成しました ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) このようなスパース化手法により、モデル容量を飛躍的に増やしつつ実行効率を保つアプローチが現実味を帯びています。ただし、スパース化モデルは実装やハードウェア最適化が難しく、万能ではないものの、今後のさらなるモデルスケーリングの鍵として注目されています。

アテンションの最適化と長距離依存処理

Transformerの核心である自己注意機構は入力長に対し二乗オーダーの計算量を要するため、長い入力シーケンスへの対応が課題でした。そこで、この計算効率やメモリ使用量を改善する数多くの「X-former」系モデルが提案されています ([2009.06732] Efficient Transformers: A Survey) 例えばReformerLinformerは近似手法や低次元射影により計算量を削減し、LongformerBigBirdは注意範囲を局所的またはスパースに制限することで長文に対応しました ([2009.06732] Efficient Transformers: A Survey) またPerformerはランダム特徴マップに基づく近似で注意計算を線形時間にし、Transformer-XLは長い文脈をセグメント間で記憶する再帰的アテンションを導入しています。これらの派生モデル群によって、数万トークンに及ぶ長文や高解像度の系列データをTransformerで処理可能になりつつあります。さらにFlashAttentionのように注意計算のアルゴリズム実装を最適化しGPU上で高速化する手法も登場し、大規模モデルの学習・推論を支えています。昨今の最先端モデル(GPT-4やPaLM 2など)では、これら効率的アテンション機構や長距離処理手法を取り入れ、コンテキスト長の拡大高速推論を実現しています。

新たな事前学習・適応手法

Transformer以降、事前学習タスクそのものにも革新がありました。BERT (2018) はマスク言語モデルという自己教師タスクを導入し、文中の隠された単語を当てる訓練で汎用言語理解を獲得する手法を確立しました。この双方向事前学習により、従来の左から右への予測(GPT系列)とは異なる文脈の捉え方が可能になり、多くのNLPタスクで精度向上に寄与しました。またT5 (2019) はテキストを一貫して「テキストからテキスト」への変換問題として扱い、スパンマスクなど多様なノイズ付加からの再構成を学習するデノising事前学習を提案しました。これらにより事前学習タスクの設計が広がり、言語以外のドメインでも自己教師タスクが考案されています。

近年特に注目すべきは、指示調整(Instruction Tuning)人間フィードバックによる調整です。前者は多種多様なタスクの指示と入出力例を用いてモデルを追加微調整することで、未知の指示に対する汎用的な応答能力を高める手法です。GoogleのFLANやMetaのT0などは、事前学習済みモデルに数百種類ものNLPタスクデータで再学習を行い、未知タスクへのゼロショット性能を向上させました。後者の人間フィードバック調整は、OpenAIのInstructGPTChatGPTで用いられたアプローチで、モデル出力に対する人間の評価を報酬信号として強化学習で最適化するものです ([2203.02155] Training language models to follow instructions with human feedback) ([2203.02155] Training language models to follow instructions with human feedback) 例えばInstructGPTでは、人間が望ましい振る舞いをする回答例を与えてモデルを微調整し、さらにモデル出力の優劣を人手でランク付けしたデータを用いて人間の意図に沿うようモデルを調教しました ([2203.02155] Training language models to follow instructions with human feedback) その結果、わずか13億パラメータのInstructGPTが、元の1750億パラメータGPT-3より人間評価で好ましい応答を生成するという報告もあります ([2203.02155] Training language models to follow instructions with human feedback) このようにモデルをアラインメント(人間の価値観や意図との整合)させる新たな訓練手法が開発され、単に精度指標を追求するだけでなく安全性・有用性を高める方向に進化しています。

また、外部知識の統合も新たな潮流です。生成モデルに検索や知識ベースへのアクセスを組み合わせ、事前知識にない問いにも動的に対応する研究(Retrieval-Augmented Generationなど)が進んでいます。これによりモデルパラメータ内に全てを記憶させずとも最新知識を扱えるようになり、モデルの軽量化やアップデート性の向上につながっています。

比較表(2017年 vs. 現在のモデル)

以上の観点をまとめ、2017年当時のTransformerと現在の最先端モデルの違いを表に整理します。

比較項目2017年: Transformer (Attention Is All You Need)2023年: 最先端のモデル
モデル規模1億パラメータ規模 (Attention Is All You Need – Wikipedia) 6層エンコーダ+6層デコーダ。数百億~数兆パラメータ級のLLM(GPT-4やPaLM等) (PaLM – Wikipedia) 層数も数十~上百に及ぶ。
学習データとタスクタスク固有のデータで教師あり学習(例: 機械翻訳データ) ([1706.03762] Attention Is All You Need)大規模雑多データでの自己教師学習(インターネット全域のテキストなど) (Foundation model – Wikipedia) 学習後に指示調整や追加微調整 ([2203.02155] Training language models to follow instructions with human feedback)
モーダル対応単一モーダル(テキストのみ) ([Multimodal Learning with Transformers A SurveyQiang Zhang](https://www.zhqiang.org/multimodality-survery/#:~:text=Transformers%20are%20emerging%20as%20promising,to%20other%20modalities%2C%20such%20as)) 画像や音声への適用は別個のモデル。
アーキテクチャ構造Encoder-Decoder型Transformer。全結合Attentionに基づく標準構造。多様な派生: Decoder単体型(GPT系)、Encoder単体型(BERT系)、RNN的拡張(Transformer-XL)やメモリ付き、あるいはMoEによるスパース化 ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) どタスクに応じ改良。
注意機構の計算O(n^2)の自己注意。最大512~1024トークン程度の文脈長が典型。効率的注意により長文処理可能(数万トークン級) ([2009.06732] Efficient Transformers: A Survey) 例: Longformer, Reformer等で計算削減。高速実装(FlashAttention)も登場。
代表的性能機械翻訳で当時SOTA達成(英独BLEU 28.4など) ([1706.03762] Attention Is All You Need) 他タスクも良好。多様なベンチマークで人間水準に迫る(GPT-4は法律・医療試験で高スコア等)。汎用的言語理解・推論能力が飛躍的向上 (Introducing Gemini: Google’s most capable AI model yet)
モデル活用の流れタスクごとにモデルを個別訓練(例:翻訳モデル、要約モデルを別々作成)。基盤モデルを事前学習で用意し、下流タスクに転移学習 (Foundation model – Wikipedia) 一モデル多タスクが可能。
軽量化・効率化当時は特になし(モデル自体比較的小さい)。軽量化技術が必須:蒸留で小型モデルへ圧縮 ([1910.01108] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter) 量子化4bitで性能維持 (A Comprehensive Evaluation of Quantization Strategies for Large Language Models) スパース化MoEで計算削減 ([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) ど多数。

おわりに

2017年のTransformer誕生以来、この数年でAIモデルは飛躍的な発展を遂げました。単一の注意メカニズムに基づくモデルからスタートし、現在ではテキスト・画像・音声を統合するマルチモーダルAIや、世界中の知識を内包する基盤モデルが実現しています。その規模はパラメータ数・学習データともに桁違いに拡大し、言語理解・生成能力は当時と比べ物にならないほど高度化しました。一方で、モデル巨大化に伴う計算コストの課題に対しては知識蒸留や量子化といったモデル圧縮技術や、MoE・効率的アテンションによる計算最適化の工夫が進められています。さらに、モデルの学習手法も多様化し、自己教師による事前学習に加え、指示チューニングや人間フィードバックでモデルを人間の意図に沿わせる方向へと進化しています。

総括すると、「Attention Is All You Need」で示されたTransformerの基盤は現在の最先端モデルの原点であり続けながら、マルチモーダル化・巨大化・効率化・高機能化のあらゆる面で拡張されています。今後もアーキテクチャの改良と学習戦略の進歩により、Transformerを中心としたAIモデルはさらなる性能向上と新たな応用領域の開拓が期待されます。