コサイン類似度とは、2つのベクトルの向きの類似度を測る指標です。ベクトルの内積を用いて定義されます。
コサイン類似度の定義
2つのベクトル a と b のコサイン類似度 cosθ は以下の式で求められます。
LaTex記法
cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{\|\vec{a}\| \|\vec{b}\|}
- a⋅b はベクトル a と b の内積です。
- ||a||と||b||はそれぞれベクトル a と b の大きさ(L2ノルム)です。
コサイン類似度の意味
コサイン類似度は、2つのベクトルが作る角 θ のコサインとなります。
- コサイン類似度が 1 のとき、2つのベクトルは完全に同じ向きを向いています。
- コサイン類似度が 0 のとき、2つのベクトルは直角に交わっています。
- コサイン類似度が -1 のとき、2つのベクトルは逆向きになっています。
コサイン類似度の応用例
コサイン類似度は、自然言語処理、情報検索、機械学習などの分野で広く用いられています。
- 自然言語処理では、文書の類似度を計算するために用いられます。
- 情報検索では、検索クエリと文書の類似度を計算するために用いられます。
- 機械学習では、画像認識や音声認識などのタスクで用いられます。
コサイン類似度のメリット
- ベクトルの大きさの影響を受けない
- 計算が簡単
- 直感的に理解しやすい
コサイン類似度のデメリット
- ベクトルの成分の値に影響を受ける
- 高次元空間では精度が低下する
コサイン類似度とその他の類似度指標
コサイン類似度以外にも、ユークリッド距離やマンハッタン距離などの類似度指標があります。それぞれの指標にはメリットとデメリットがあり、用途に応じて使い分ける必要があります。