LLM(大規模言語モデル)において、シーケンス内に未知の語彙が登場する際、その処理は複数のステップを通じて行われます。以下に、解説をステップごとに提供します。
1. トークン化 (Tokenization)
LLMは、通常、生のテキストを直接扱うことはなく、まず入力テキストをトークンと呼ばれる単位に分割します。トークンは単語単位やサブワード単位であり、特定のアルゴリズムに従って分解されます。
- サブワードトークン化: 多くの最新のLLMでは、BPE(Byte Pair Encoding)やSentencePieceのようなサブワードトークン化手法が用いられます。この手法では、完全な単語に分割するのではなく、頻出する部分(サブワード)に基づいて分割されます。例えば、「unbelievable」という単語がモデルの辞書にない場合でも、「un」「believe」「able」のように分割して処理できるようにします。
- 未知の語彙のケース: モデルの語彙リスト(トークン辞書)に存在しない未知の単語が登場した場合、モデルはその単語をさらに小さなサブワードや文字単位のトークンに分割します。BPEは特にこれに強力で、未知の単語であっても、訓練データに基づく既知のサブワードで構成されたトークン列として処理します。
2. エンコーディング (Encoding)
トークン化されたシーケンスは、そのままではモデルに入力できないため、これをベクトル表現に変換します。通常、この処理は埋め込み層(Embedding Layer)によって行われます。
- 埋め込みベクトルへの変換: 各トークンには、事前に訓練された埋め込みベクトルが割り当てられます。これにより、モデルは各トークンを高次元の連続的な数値空間にマッピングできます。既知のトークンは、それに対応する埋め込みベクトルが使用されます。
- 未知の語彙のエンコーディング: 未知の単語が登場した場合、その単語は通常、既知のサブワードに分解されるため、そのサブワードの埋め込みベクトルが使用されます。モデルは、そのサブワードベクトルを組み合わせて、未知の語彙に対する近似的な意味を持つ表現を生成します。たとえば、”unbelievablz” のようなタイプミスであっても、”un” と “believable” という既存の部分に分割され、近い意味の推定が可能です。
3. 位置エンコーディング (Positional Encoding)
トークンの順序情報は、言語処理において極めて重要です。そのため、モデルは各トークンに対して位置エンコーディングを加えます。これはトークンが文中でどの位置にあるかを示す情報です。
- 未知の語彙への適用: 未知の語彙が含まれる場合でも、位置エンコーディングは他のトークンと同様に適用されます。モデルは、未知のトークンであっても、その文脈に基づく処理を行うため、単語の順序や関係性が重要です。
4. アテンションメカニズム (Attention Mechanism)
ここでモデルが文脈を考慮しながら、トークン同士の関係性を学習します。トランスフォーマーモデルは、特に自己アテンション (Self-Attention) によって、シーケンス全体における各トークン間の依存関係を計算します。
- 未知の語彙とアテンション: 未知の語彙であっても、そのトークン(もしくはトークンに分割されたサブワード)は他のトークンと同様に、アテンションメカニズムによって他のトークンとの関係性が計算されます。これにより、未知の語彙も文脈に基づいて意味的な位置付けが行われます。
5. デコード (Decoding)
最終的に、エンコーディングされたベクトル表現を基に、モデルは次のトークンを予測します。この予測は確率分布に基づいて行われ、どのトークンが最も適切かが決定されます。
- 未知の語彙が含まれる場合の予測: 未知の語彙が含まれていた場合でも、モデルは文脈に基づいて次のトークンを予測します。サブワードベースのアプローチにより、モデルは未知の語彙からも意味を推測し、次のトークンを適切に予測することができます。
- 生成モード: もし生成タスクであれば、モデルは未知の語彙に対しても、サブワードや文脈情報から推定して新たな語彙や文章を生成します。
6. 未知語の一般化 (Generalization to Unseen Words)
LLMの大きな利点の一つは、訓練データにない新しい語彙にも対処できる一般化能力です。これにより、新しい単語やネーミング、俗語が登場しても、それらを理解し文脈に適応させることができます。
- 意味の推論: 例えば、訓練データに存在しない技術用語や新造語が入力された場合でも、モデルはその周辺文脈やサブワードから、類推的にその単語の意味を推測することができます。
- 類似単語の学習: LLMは語彙間の類似性を学習しているため、未知の単語が既知の単語に類似している場合、それに基づいた適切な処理を行うことが可能です。
7. 補完的な技術 (Back-off Strategies)
場合によっては、モデルがまったくの未知語や非常に希少な語彙に遭遇することがあります。このようなケースに対しては、いくつかの補完的な技術や戦略が用いられます。
- 未定義トークン (Unknown Token, [UNK]): 完全に未知の単語で、分割も不可能な場合、一部のモデルでは[UNK](Unknown)トークンが使用されることがあります。しかし、BPEなどのサブワードトークン化を用いるモデルでは、完全に未知となるケースは非常に少ないです。
- スペル補正や編集距離ベースの推定: 特に生成タスクやスペルミスの処理においては、未知語がスペルミスであると仮定し、既知の語彙に基づく補正を行うことも可能です。
まとめ
LLMがシーケンス内の未知の語彙を処理する際には、以下のような高度なメカニズムが組み合わさって機能します:
- トークン化により、未知語をサブワードや文字レベルに分割。
- 埋め込みベクトルを用いて既存の知識に基づき意味的な近似を生成。
- アテンションメカニズムを使って文脈に基づいた関連性を計算。
- デコードプロセスにより、次のトークンを文脈的に予測。
- 一般化能力により、新しい語彙に対する推論を実行。
これらのステップは、LLMが未知の語彙に柔軟かつ効率的に対処するために不可欠です。