コサイン類似度

コサイン類似度とは、2つのベクトルの向きの類似度を測る指標です。ベクトルの内積を用いて定義されます。

コサイン類似度の定義

2つのベクトル a と b のコサイン類似度 cosθ は以下の式で求められます。

LaTex記法

cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{\|\vec{a}\| \|\vec{b}\|}
  • a⋅b はベクトル a と b の内積です。
  • ||a||と||b||はそれぞれベクトル a と b の大きさ(L2ノルム)です。

コサイン類似度の意味

コサイン類似度は、2つのベクトルが作る角 θ のコサインとなります。

  • コサイン類似度が 1 のとき、2つのベクトルは完全に同じ向きを向いています。
  • コサイン類似度が 0 のとき、2つのベクトルは直角に交わっています。
  • コサイン類似度が -1 のとき、2つのベクトルは逆向きになっています。

コサイン類似度の応用例

コサイン類似度は、自然言語処理、情報検索、機械学習などの分野で広く用いられています。

  • 自然言語処理では、文書の類似度を計算するために用いられます。
  • 情報検索では、検索クエリと文書の類似度を計算するために用いられます。
  • 機械学習では、画像認識や音声認識などのタスクで用いられます。

コサイン類似度のメリット

  • ベクトルの大きさの影響を受けない
  • 計算が簡単
  • 直感的に理解しやすい

コサイン類似度のデメリット

  • ベクトルの成分の値に影響を受ける
  • 高次元空間では精度が低下する

コサイン類似度とその他の類似度指標

コサイン類似度以外にも、ユークリッド距離やマンハッタン距離などの類似度指標があります。それぞれの指標にはメリットとデメリットがあり、用途に応じて使い分ける必要があります。