SONAR

SONARは、Meta(旧Facebook)が開発した多言語・マルチモーダル対応の固定サイズ文埋め込み空間です。この技術は、200以上の言語に対応し、テキストや音声など複数のモダリティのデータを統一的なベクトル表現に変換することが可能です。これにより、異なる言語間やモダリティ間での類似性検索や推論が容易になります。

SONARは、従来の文埋め込み手法であるLASER3やLabSEと比較して、xsimやxsim++といった多言語類似性検索タスクにおいて優れた性能を示しています。特に、文全体を単一のベクトルで表現することで、トークンレベルのクロスアテンションを使用せずに高品質な埋め込みを実現しています。

さらに、SONARは音声データにも対応しており、言語固有の音声エンコーダを用いることで、音声セグメントを同じ埋め込み空間にマッピングできます。これにより、音声とテキストの間での類似性検索や統合が可能となり、マルチモーダルなアプリケーションへの応用が期待されています。

SONARの詳細や実装については、Metaの公式GitHubリポジトリで公開されています。また、Hugging Faceのモデルカードでも情報が提供されています。

SONARの開発は、Metaが提唱する大規模概念モデル(LCM)の一環として位置づけられており、言語やモダリティの壁を越えた統一的な表現を目指しています。これにより、長い文脈の理解や多様なテキスト生成タスクで高い性能を発揮することが期待されています。

SONARの技術的な詳細やその応用については、以下の論文や記事が参考になります。