GPT-4を用いたアイスランド語の保存:AIによる言語文化の保護

https://openai.com/index/government-of-iceland/

(出所)https://openai.com/index/government-of-iceland/

アイスランドは北大西洋の中央に位置する島国であり、活気ある技術産業と急成長する観光業を誇ります。しかし、その370,000人の市民のほとんどが英語や他の第二言語を話す一方で、アメリカやヨーロッパとの統合が進む中で、アイスランド語が危機に瀕しています。急速なデジタル化に直面しているアイスランド語は、今後数世代で事実上の消滅の危機にさらされる可能性があります。

アイスランド語の文化的重要性

アイスランドの人々は、アイスランド語が豊かな文化遺産と国のアイデンティティに深く結びついていることを大切にしています。アイスランド政府は新しい概念に対して「借用語」ではなくアイスランド語の用語を作り出す言語計画部門を設けており、例えばコンピュータは「数の女預言者」を意味する「tölva」と呼ばれています。こうした努力により、言語はその独自性を保ち、古ノルド語のルーツに密接に結びついています。

GPT-4を用いた言語保存の取り組み

アイスランドの大統領グズニ・ヨハンネソン氏のイニシアチブのもと、アイスランドはOpenAIと提携し、GPT-4を使用してアイスランド語の保存に取り組んでいます。このパートナーシップは、GPT-4の能力を新たな地域に拡大するだけでなく、他の少数言語の保存にも役立つリソースを作り出す一歩として構想されました。

Almannarómurの役割

非営利の言語技術センターであるAlmannarómurのCEO、ヨハンナ・ヴィグディス・グズムンズドッティル氏は、「人工知能が言語、文化、歴史の保存だけでなく、経済的繁栄を支えるために使われることを確実にしたい」と述べています。彼女は、「アイスランド語は特異なケースだが、他の少数言語のための先駆者となり、AIの格差を回避する機会を見出した」と述べています。

GPT-4の強化と改善

GPTモデルはインターネット上の膨大なテキストで訓練されており、大部分が英語や他の主要言語です。これにより、GPTは小規模な言語では同じ能力や理解の幅を持たないことがあります。この課題に対処するため、Miðeind ehfのCEO、ヴィルヤルムル・ソルステインソン氏は、アイスランド語の文法や文化知識を訓練するために40人のボランティアチームを組織しました。

人間のフィードバックを用いた強化学習(RLHF)

人間のテスターがGPT-4にプロンプトを与え、生成された4つの回答から最適なものを選び、理想的な回答を作成するプロセスです。このデータを使用して、GPT-4の応答をさらに改善します。RLHFを使用することで、わずか100の例で結果を生成できるため、デジタル言語データが少ない他の少数言語にも適用可能です。

具体的な応用例

以下の表は、GPT-4の改善例を示しています。

プロンプト(英語)GPT-3の回答ChatGPTの回答GPT-4の回答
Donald Duckをアイスランド語でどう呼ぶ?Donald Duck heitir á íslensku Donaldi Kjáni(誤訳)Donald Duck heitir sama nafni á íslensku og ensku(誤訳)Donald Duck heitir Andrés Önd á íslensku(正解)

GPT-4はGPT-3.5に比べてアイスランド語が大幅に向上していますが、依然として文法的な誤りや「翻訳調」の表現、文化的知識の不足が見られます。これを改善するために、MiðeindのチームはGPT-4に適切なアイスランド語の文法と文化知識を訓練する作業を続けています。

結論

アイスランドは、GPT-4を用いてアイスランド語の保存と普及に努めています。この取り組みは、他の少数言語の保存にも役立つ可能性があり、AIの力を使って言語文化を保護するための模範的なプロジェクトです。AI技術の進歩が、言語の保存と経済的繁栄を支える新しい道を開くことを期待しています。