MENU

生成AI教育・研修・コンサルティング

相関行列と混同行列の違い

🔹 結論：相関行列 vs 混同行列

項目	相関行列（Correlation Matrix）	混同行列（Confusion Matrix）
目的	数値データ同士の「関係性の強さ」を把握	分類モデルの「予測と実際の正しさ」を評価
対象の問題	回帰・多変量解析などの連続値分析	分類（Classification）などの離散値予測
扱う値の種類	相関係数（連続変数間の-1〜1の数値）	件数（実測 vs 予測の件数）
表現形式	正方の行列（変数×変数）	正方の行列（クラス数×クラス数）
用いる場面	データ分析の前処理・可視化など	モデル評価（精度、再現率、F1スコアなどの算出）
見た目の特徴	相関係数を色や数値で表示（例：ヒートマップ）	件数が書かれたクロス表（TP, FP, FN, TNを含む）

🔍 Part 1: 相関行列（Correlation Matrix）

🔸 相関行列とは

変数Aと変数Bの相関関係（= 関連の強さ）を、数値（相関係数）で示した表です。

値の範囲は -1.0 ~ +1.0
+1.0：完全に同じ傾向で動く
-1.0：完全に逆の傾向で動く
0：まったく関連なし

🔸 使う場面

多変量データの関係性分析
変数の選定（相関が強すぎるものを排除など）
回帰モデルや主成分分析（PCA）の前処理

🔍 Part 2: 混同行列（Confusion Matrix）

🔸 混同行列とは

分類モデルの性能を評価するための表で、
「予測がどれだけ正しかったか」を実際のクラスと予測されたクラスのクロス集計で表します。

例えば、2値分類の場合（例：スパム or 非スパム）：

	実際: Positive	実際: Negative
予測: Positive	TP（True Positive）	FP（False Positive）
予測: Negative	FN（False Negative）	TN（True Negative）

この表が混同行列です。

🔸 混同行列から得られる評価指標

Accuracy（正解率）：全体で正しく当てた割合
Precision（適合率）：予測したうち、どれくらい正しかったか
Recall（再現率）：実際に正解だったもののうち、どれだけ拾えたか
F1 Score：Precision と Recall の調和平均

🎯 相関行列と混同行列の違いを図解で

✅ 相関行列：連続値の関係性の視覚化

相関係数（連続変数の関係性）
ヒートマップで表現

👇 例：身長・体重・収入の相関を見る
（※前回表示したヒートマップのようなもの）

✅ 混同行列：分類モデルの評価

「正解 vs 予測」の件数を集計

👇 例：がん診断の分類精度（2クラス）

	実際: がん	実際: 正常
予測: がん	TP=50	FP=5
予測: 正常	FN=10	TN=35

この情報をもとに：

Accuracy = (TP+TN)/全体 = (50+35)/100 = 85%
Precision = TP / (TP + FP) = 50 / (50 + 5) ≈ 90.9%
Recall = TP / (TP + FN) = 50 / (50 + 10) ≈ 83.3%

こちらがご要望の混同行列（Confusion Matrix）のヒートマップ表示です。

この混同行列の読み方

混同行列の各セルには、「予測と実際がどうだったか」の件数が表示されています。

	予測: 0（正常）	予測: 1（がん）
実際: 0（正常）	7（TN）	2（FP）
実際: 1（がん）	2（FN）	9（TP）

✅ 指標の意味（この例に基づいて）

TP（True Positive）= 9
→ 「がん」と予測して、実際にもがんだった件数
TN（True Negative）= 7
→ 「正常」と予測して、実際にも正常だった件数
FP（False Positive）= 2
→ 「がん」と予測したが、実際は正常（= 誤診）
FN（False Negative）= 2
→ 「正常」と予測したが、実際はがん（= 見逃し）

🎯 このモデルの性能をざっくり評価すると？

Accuracy（正解率） = (TP + TN) / 全体 = (9 + 7) / 20 = 80%
Precision（適合率） = TP / (TP + FP) = 9 / (9 + 2) ≈ 81.8%
Recall（再現率） = TP / (TP + FN) = 9 / (9 + 2) ≈ 81.8%
F1スコア ≈ 81.8%

モデルはまずまずの性能ですが、「2件の見逃し（FN）」がある点は重要です。特に医療など見逃しが致命的な場面では、Recallを重視する必要があります。

🎨 視覚的にわかりやすい理由

青の色濃さで「件数の多さ」が直感的にわかる
数字と位置で「何が正解で何が間違いだったか」が一目瞭然

🧠 違いを一言で

相関行列は「変数間のつながり」を見るためのツール
混同行列は「モデルの当たり・はずれ」を見るためのツール