正規化と正則化

正規化 (Normalization) と正則化 (Regularization) の包括的分析：その相違点、数学的基礎、および概念的交錯

I. 序論：機械学習における二つの「規範化」

機械学習およびデータサイエンスの分野において、「正規化 (Normalization)」と「正則化 (Regularization)」は、モデルの性能を最適化するために不可欠な技術です。しかし、これら二つの用語は、特に日本語訳において「規範化する」「標準的な状態にする」という類似のニュアンスを持つため、初学者から実務家まで広く混同されがちです。本レポートの目的は、この混同を解消し、両者の根本的な目的、数学的メカニズム、および適用のタイミングにおける決定的相違点を、専門的見地から包括的に解明することにあります。

A. 混乱の核心：なぜ「正規化」と「正則化」は混同されるのか

この混乱には複数の要因が絡み合っています。

用語の類似性: 前述の通り、言語的な類似性が直感的な理解を妨げます。
「標準化」という第三の概念: データ処理の文脈では、データを特定の範囲（例：0から1）に収める「正規化（Min-Maxスケーリング）」と、データを平均0・分散1に変換する「標準化（Z-scoreスケーリング）」がしばしば区別されます ¹。しかし、文献によってはZ-scoreスケーリングを「Zスコアの正規化」と呼ぶこともあり ²、用語法自体に揺れが存在します。
概念的交錯: 後述する「バッチ正規化 (Batch Normalization)」のように、一方（正規化）の名称を持ちながら、他方（正則化）の効果を併せ持つ技術の存在が、両者の境界をさらに曖昧にしています ³。

本レポートではこの混乱を解きほぐすため、広義の「正規化 (Normalization)」を「データスケーリング技術全般（Min-Maxと標準化を含む）」¹ と定義し、それを「正則化 (Regularization)」（モデルの過学習抑制技術）⁶ と明確に対比します。

B. 本質的対立軸：「データ」への介入 vs. 「モデル」への介入

本レポートが提示する中心的テーゼは、両者の違いはその介入対象にある、という点です。

正規化 (Normalization): 機械学習モデルにデータを入力する「前」に、その「データ（入力特徴量）」自体を調整する前処理 (Preprocessing) です ¹。
正則化 (Regularization): モデルがデータを学習する「最中」に、その「モデル（パラメータや予測関数）」自体に制約を加える最適化手法 (Optimization Technique) です ⁷。

C. 共通のメタゴールと概念的交錯点

両者は異なる手段を用いますが、究極的なメタゴール（上位目的）は共通しています。それは、「モデルの学習プロセスを改善し、最終的により安定し、より高性能な予測モデルを構築すること」です ³。正規化は主に学習の「速度と安定性」に寄与し ⁹、正則化は「汎化性能（未知のデータへの予測精度）」に寄与します ⁸。

この共通のメタゴールが、両者の境界を曖昧にします。特に「バッチ正規化 (Batch Normalization)」³ は、その名に反して「正規化（学習の安定化）」³ と「正則化（過学習の抑制）」¹⁰ の両方の効果を併せ持つことが示されています。この二重性こそが、本クエリの核心的な混乱点であると特定できます。

D. レポートの構成

本レポートは以下の構成で両者の異同を詳述します。第II章では「正規化（データスケーリング）」、第III章では「正則化（過学習抑制）」のメカニズムと手法を詳細に分析します。第IV章では両者の決定的相違点を比較表を用いて明確にし、第V章では本レポートの核心である「バッチ正規化」などの概念的交錯点を深く掘り下げます。最後に、第VI章で実践的なガイドラインを提示します。

II. データ前処理としての「正規化 (Normalization)」

「正規化」は、数学や統計学においてデータを扱いやすいように整えることを指し、機械学習においてはデータ前処理の不可欠なステップです ¹。その目的は、入力特徴量のスケール（尺度）を統一することにあります ⁵。

A. 目的と必要性：なぜスケールを揃えるのか (Why Scale?)

処理が施されていない、スケールの異なるデータ（例：年齢 [15-90] と年収 [2,000,000-50,000,000]）をそのままモデルに入力すると、重大な問題が発生します ¹。

1. 勾配降下法の安定化と収束の高速化

多くの機械学習モデル（特にニューラルネットワークや線形回帰）は、勾配降下法（Gradient Descent）を用いて損失関数を最小化するパラメータを探索します。特徴量のスケールが大きく異なると、損失関数の等高線は非常に偏った楕円形（細長い谷）になります。このような地形では、勾配降下法は谷の急な斜面を「跳ね返る (bounce)」ようにジグザグに進み、最適解への収束が著しく遅くなります ⁹。

正規化によって各特徴量のスケールが揃うと、損失関数の等高線はより円形に近くなります。これにより、オプティマイザは最短距離で最小値（最適解）に効率的に収束でき、学習が高速化・安定化します ⁹。なお、AdagradやAdamのような先進的なオプティマイザは、この問題を内部で緩和する機能も持ちますが、正規化の重要性が下がるわけではありません ⁹。

2. 特徴量の影響力の不均衡の是正

「年齢」（例：0-100）と「収入」（例：0-100,000）を比較した場合、収入の数値は年齢の約1,000倍大きくなります ⁵。距離ベースのアルゴリズム（k-NN）やカーネルベース（SVM）、そしてパラメータベースのモデル（線形回帰、ニューラルネットワーク）は、数値の絶対値の大きさに影響を受けます ²。

正規化を行わない場合、モデルは（それが本質的に重要でなくても）「収入」という特徴量を「年齢」よりも遥かに重要であると誤って解釈し、収入の値に過度に依存した予測を行います ⁵。正規化は、すべての特徴量を「同じ土俵」に立たせ、モデルが各特徴量の真の重要性を学習できるようにするために不可欠です ⁹。

3. 数値的安定性の確保（NaNトラップの回避）

特徴量の値が極端に大きい場合（例：$24,917,482$ ⁹）、それを二乗する（例：損失計算や多項式特徴量）と、コンピュータの浮動小数点精度の上限を超え、「NaN (Not a Number)」が発生することがあります ⁹。

一度NaNが計算に混入すると、それ以降のすべての計算（勾配計算、重み更新）がNaNとなり、モデルの学習は完全に破綻します。これは「NaNトラップ」と呼ばれます。正規化は、すべての値を小さな範囲（例：0から1）に収めることで、この数値的な破綻を未然に防ぐ、極めて重要な実務的役割を果たします ⁹。

B. 主要なスケーリング手法の詳細分析

正規化（広義のスケーリング）には複数の手法が存在し、データの特性に応じて使い分けられます ¹。

1. Min-Maxスケーリング (Min-Max Scaling)

定義: データセット内の最小値 ($X_{\text{min}}$) と最大値 ($X_{\text{max}}$) を使用し、以下の式で変換します 2。

$$X_{\text{norm}} = \frac{X – X_{\text{min}}}{X_{\text{max}} – X_{\text{min}}}$$
特性: データを厳密に ** の範囲**にスケーリングします ²。
適応: ニューラルネットワークやSVMなど、入力が特定の範囲内にあることを要求（または推奨）するアルゴリズムに適しています ²。特にニューラルネットワークでは、入力が0近辺にあるとシグモイド関数などの活性化関数が最も感度が高い（勾配が立つ）領域で動作できるため、勾配消失問題を防ぎ学習を促進する効果が期待できます。
弱点: $X_{\text{min}}$ と $X_{\text{max}}$ に直接依存するため、外れ値（極端に大きい/小さい値）に非常に脆弱です ¹。

2. Z-score正規化（標準化, Standardization）

定義: データセットの平均 ($\mu$) と標準偏差 ($\sigma$) を使用し、以下の式で変換します 2。

$$X_{\text{std}} = \frac{X – \mu}{\sigma}$$

（注：2 には $X_{std} = \sigma X / \mu$ という記述がありますが、これは一般的なZ-scoreの定義とは異なります。本レポートでは 2 の標準的な定義を採用します。）
特性: データを平均 0、標準偏差 1の分布に変換します ¹。範囲はには固定されません。
適応: 線形回帰、ロジスティック回帰、k-meansなど、データの分布が正規分布であることを仮定する（またはその恩恵を受ける）アルゴリズムに適しています ²。

3. その他のスケーラー（頑健性）

RobustScaler: Min-MaxやZ-scoreが外れ値に弱いという欠点を克服する手法です。平均や標準偏差の代わりに、外れ値の影響を受けにくい**中央値（Median）と四分位範囲（IQR）**を使用してスケーリングします ²。外れ値を含むことが疑われるデータセットに対して堅牢（Robust）な選択肢です ²。
MaxAbsScaler: 各特徴量の最大絶対値でスケーリングし、データを[-1, 1]の範囲に収めます ²。この手法の重要な特性は、ゼロの値を保持（維持）することです。そのため、テキスト分類（Tf-Idfなど）やレコメンデーションシステムで用いられる「疎なデータ (Sparse Data)」の処理に適しています ²。

C. 主要なスケーリング手法の比較

手法名	数式 (X: 元の値)	変換後の範囲	外れ値への感度	主な用途・適応アルゴリズム
Min-Maxスケーリング	$X_{\text{norm}} = \frac{X – X_{\text{min}}}{X_{\text{max}} – X_{\text{min}}}$		高い ¹	ニューラルネットワーク(NN), SVM ²
Z-score正規化 (標準化)	$X_{\text{std}} = \frac{X – \mu}{\sigma}$	平均 0, 標準偏差 1	中程度	線形回帰, ロジスティック回帰, k-means ²
RobustScaler	（中央値とIQRを使用）	（IQRに依存）	低い ²	外れ値や歪んだ分布を含むデータ ²
MaxAbsScaler	$X_{\text{scaled}} = \frac{X}{\max(	X	)}$	[-1, 1]

III. 過学習抑制技術としての「正則化 (Regularization)」

「正則化」は、正規化とは全く異なる概念であり、モデルの学習プロセス自体に介入する技術です。その主な目的は、モデルが訓練データに過度に適合しすぎる「過学習（Overfitting）」を防ぎ、未知のデータに対する予測精度、すなわち**汎化性能（Generalization Performance）**を向上させることです ⁶。

A. 目的と必要性：なぜモデルを制約するのか (Why Constrain?)

1. 過学習（Overfitting）の定義

過学習とは、機械学習モデルが訓練データ（学習データ）を学習する際、データの本質的なパターン（シグナル）だけでなく、そのデータ特有の「ノイズ」や「ランダムな変動」まで学習（記憶）してしまう状態を指します ⁸。

その結果、モデルは学習データに対しては非常に高い精度（例：99.9%）を示しますが、新しい未知のデータ（テストデータ）に対しては著しく低い精度しか出せなくなります ¹³。これは、モデルが「パターンを理解する」という汎化の能力を失い、「訓練データの答えを記憶 (memorized)」してしまったことに起因します ¹²。

2. 過学習の原因

過学習の一般的な原因として、過度に複雑なモデル（例：パラメータが多すぎるニューラルネットワーク、深すぎる決定木）や、不十分な訓練データ、あるいは訓練のしすぎ（Too many training epochs）が挙げられます ¹²。

3. 正則化の役割：複雑性へのペナルティ

正則化は、この「過度な複雑性」を能動的に抑制する技術です ⁶。機械学習におけるモデルの「複雑性」とは、具体的にはモデルのパラメータ（重み $w$）の値が極端に大きくなることを指します ⁸。訓練データの全データ点を無理に通過しようとする「乱雑な線」は、数学的には巨大な重み $w$ の値によって実現されます ¹³。

正則化は、モデルが最小化しようとする通常の「損失関数」（データへの適合度）に、意図的に**「ペナルティ項」（モデルの複雑さ）**を追加します ⁶。

$$\text{新しい損失関数} = \text{元の損失関数 (適合度)} + \lambda \times \text{ペナルティ項 (複雑さ)}$$

これにより、モデルは「訓練データへの適合度 (Fit)」と「モデルの単純さ (Simplicity)」との間のトレードオフを解くことを強制されます ⁸。正則化は、重みを小さく保つ（単純さを保つ）インセンティブを与えることで、ノイズへの過剰な適合を防ぎ、モデルの汎化性能を向上させます ⁸。

B. パラメータペナルティによる正則化

ペナルティ項の定義によって、いくつかの主要な正則化手法が存在します。

1. L2正則化 (Ridge回帰)

定義: 損失関数に、重みの二乗和（L2ノルムの二乗）をペナルティ項として加えます 11。

$$\text{ペナルティ項} = \lambda \sum_{i} |w_i|^2$$
特性: 重みが大きくなるほどペナルティが指数関数的に増加するため、極端に大きな重みを強く抑制します。重みを「全体的に小さく」¹¹ ゼロに近づけますが、正確にゼロにはしにくいという特徴があります ⁸。
効果: 最も一般的で安定した正則化手法であり、モデルの学習を安定させ、より滑らかで単純な解（汎化性能の高いモデル）を導きます ¹¹。

2. L1正則化 (Lasso回帰)

定義: 損失関数に、重みの絶対値和（L1ノルム）をペナルティ項として加えます 15。

$$\text{ペナルティ項} = \lambda \sum_{i} |w_i|$$
特性: L2との決定的な違いは、重要でない特徴量に対応する重みを正確にゼロにできる点です ¹⁶。
効果: 不要なパラメータ（特徴量）を削減する ¹⁷ ことで、特徴量選択 (Feature Selection) を自動的に行う効果があります。モデルが本質的に疎（スパース）である場合に特に有効です ¹⁶。

3. L1 vs. L2 の幾何学的解釈

なぜL1は重みをゼロにし、L2はゼロにしにくいのでしょうか。これはペナルティ項（制約）の形状に起因します。2次元の重み ($w_1, w_2$) 空間において、L2正則化の制約範囲（$w_1^2 + w_2^2 \le C$）は「真円」を描きます。一方、L1正則化の制約範囲（$|w_1| + |w_2| \le C$）は「ひし形（ダイヤモンド）」を描きます。

損失関数（お椀の等高線）¹⁷ が最適解（お椀の底）を求めて外側に広がっていく際、L2の「円」には接線上の点で接するため、通常 $w_1, w_2$ 共にゼロではない値になります。しかし、L1の「ひし形」には、その「角（頂点）」で接する可能性が非常に高くなります。ひし形の角は軸上にあるため（例：$w_1=0, w_2=C$）、パラメータの一つが正確にゼロになります。これがL1がスパース性（疎性）を生む数学的な理由です。

4. Elastic Net

L1ペナルティとL2ペナルティの両方を組み合わせた（足し合わせた）手法です ¹¹。L1の特徴量選択能力とL2の学習の安定性を両立する「良い所取り」を目指したもので、双方のハイパーパラメータ（$\lambda_1$ と $\lambda_2$）で効果のバランスを調整します ¹⁷。

5. ハイパーパラメータ $\lambda$ (ラムダ) の役割

$\lambda$ はペナルティの強さを制御するハイパーパラメータです ¹⁷。

$\lambda$ が大きい: ペナルティが強すぎ、モデルは重みを極端に小さくせざるを得ず、訓練データすら学習できない「未学習（Underfitting）」状態になります ¹⁴。
$\lambda$ が小さい: ペナルティが弱すぎ、正則化の効果が得られず「過学習（Overfitting）」します ¹⁴。

したがって、$\lambda$ は「程良い値」に調整する必要があり、この調整（仮学習でのテスト）は正則化を成功させる上で極めて重要です ¹⁷。

C. その他の正則化手法

ペナルティ項の追加以外にも、過学習を抑制する多様な技術が存在します。

1. ドロップアウト (Dropout)

ニューラルネットワーク特有の強力な正則化手法です ¹¹。

メカニズム: 学習中、各ミニバッチの処理ごとに、隠れ層のニューロンを「ランダムに」「一時的に」無効化（ドロップ）します ¹¹。
効果: これにより、ネットワークは特定のニューロンや特徴の組み合わせに過度に依存できなくなります ³。学習のイテレーションごとに異なる（ニューロンが欠けた）小さなサブネットワークで学習が行われる ²⁰ ことになり、これは実質的に、無数のサブネットワークの予測をアンサンブル（集団学習）³ しているのと同様の効果をもたらします。アンサンブル学習は汎化性能を高める非常に強力な手法であり、Dropoutはその安価な近似手法と解釈できます。

2. 早期停止 (Early Stopping)

メカニズム: ¹² が「学習のしすぎ」が過学習の原因であると指摘している点に直接対処します。学習プロセス中に、訓練データとは別の「検証（Validation）データ」に対する誤差（または精度）を監視します。訓練誤差は下がり続けても、検証誤差が上昇に転じた（悪化した）瞬間に学習を停止します ¹¹。
効果: モデルが汎化性能のピークを過ぎて、訓練データのノイズを記憶し始める直前で学習を打ち切る、非常にシンプルかつ効果的な正則化手法です ¹¹。

D. 主要な正則化手法の比較

手法名	メカニズム	主な効果	特徴量選択の有無	主な適用モデル
L1正則化 (Lasso)	損失関数に $\lambda \sum	w_i	$ を追加	スパース性（重みを0にする）
L2正則化 (Ridge)	損失関数に $\lambda \sum	w_i	^2$ を追加	重みを全体的に小さくし、学習を安定化 ¹¹
Elastic Net	L1とL2のペナルティを両方追加	L1とL2の利点を両立 ¹¹	あり（L1の比率による）	線形モデル
ドロップアウト (Dropout)	ニューロンをランダムに非活性化	暗黙的なアンサンブル学習 ³	なし	ニューラルネットワーク ¹¹
早期停止 (Early Stopping)	検証誤差の悪化で学習を停止	過学習が始まる最適点で停止 ¹⁸	なし	ニューラルネットワーク（反復学習）

IV. 核心的対比：正規化 vs. 正則化 (The Core Contrast)

第II章と第III章の分析に基づき、両者の決定的相違点を明確にします。

A. 決定的相違点の再定義

⁵ の洞察に基づき、両者の違いは以下の3点で明確に定義されます。

作用対象 (Target):

正規化: 「データ（入力特徴量）」のスケールを調整します ⁵。
正則化: 「モデル（予測関数、パラメータ $w$）」の複雑性を調整（制約）します ⁷。

目的 (Purpose):

正規化: 特徴量の「スケール（尺度）」を揃え、学習の安定化・高速化を図ります ⁵。
正則化: モデルの「複雑性（Complexity）」を抑制し、過学習を防ぎ汎化性能を向上させます ⁵。

実行タイミング (Timing):

正規化: 学習プロセスの「前 (Before)」に行うデータ前処理です ¹。
正則化: 学習プロセスの「最中 (During)」に損失関数の一部として適用される最適化手法です ⁸。

この違いを直感的なメタファーで表現するならば、「正規化」は「オーケストラが演奏する前の楽器のチューニング」に例えられます。バイオリン（特徴量A）の音量が大きすぎ、フルート（特徴量B）の音量が小さすぎると、良い演奏（学習）ができません ⁵。全楽器の音量（スケール）を揃える作業（前処理）が正規化です ⁹。

一方、「正則化」は「演奏中の指揮者によるディレクション」です。特定の楽器（パラメータ）が暴走して「音が大きくなりすぎる（重みが巨大化する）」¹⁴ のを防いだり（L2）、あるいは「その楽器は不要だから黙っていなさい（重みをゼロにする）」¹⁶ と指示したり（L1）します。演奏（学習）そのものに介入し、全体の調和（汎化性能）を取る作業が正則化です。

B. 正規化 vs. 正則化 – 概念的比較

比較項目	正規化 (Normalization)	正則化 (Regularization)
主目的	学習の安定化と高速化 ⁹	過学習（Overfitting）の抑制と汎化 ⁶
作用対象	データ（入力特徴量） ⁵	モデル（パラメータ $w$, 予測関数） ⁷
実行タイミング	学習の「前」（データ前処理） ¹	学習の「最中」（損失関数へのペナルティ） ⁸
解決する問題	スケールの不均一性、勾配降下の非効率性、NaNトラップ ⁵	モデルの過度な複雑性、訓練データへのノイズの学習 ⁸
主な手法	Min-Maxスケーリング, Z-score正規化（標準化）, RobustScaler ²	L1, L2正則化, Elastic Net, ドロップアウト, 早期停止 ¹¹

V. 高度なトピック：概念が交錯する領域 (The Intersection)

両者の違いは明確ですが、現代の深層学習（Deep Learning）においては、この二つの概念が交錯する領域が存在します。これが混乱の最大の源泉です。

A. バッチ正規化 (Batch Normalization) の二重性

バッチ正規化（Batch Normalization, BN）は、深層学習において学習を劇的に高速化・安定化させる技術として広く用いられています ²¹。

メカニズム: BNは、ニューラルネットワークの各層の**入力（活性化関数の前の出力）**を、ミニバッチ単位で正規化（平均0、標準偏差1にスケーリング）する技術です ³。

1. BNの「正規化」としての側面（学習の高速化）

BNは、各層の入力分布を学習中に安定させる（内部共変量シフトの抑制）ことで、勾配降下法を安定させ、学習プロセスを大幅に加速します ³。これは、第II章で見たデータ正規化が学習全体を安定させるのと同様の「正規化」効果です ²¹。

2. BNの「正則化」としての側面（過学習の抑制）

³ などの研究や分析は、BNが正則化の効果を併せ持つことを明確に指摘しています。なぜ、単なるスケーリングであるはずのBNが正則化として機能するのでしょうか。

その鍵は、BNが全訓練データから計算した「真の」平均・標準偏差ではなく、ランダムに選ばれた「ミニバッチ」の平均・標準偏差（ノイズの乗った推定値）を使って正規化を行う点にあります ³。

その結果、同じ訓練サンプルであっても、どのミニバッチに含まれるかによって、毎回異なるスケーリングとシフト（＝ノイズ）が加えられることになります。この確率的なノイズ注入が、モデルが特定の入力パターンやニューロンの出力に過剰に依存するのを防ぎます ³。結果として、これはDropout ³ のような正則化効果（汎化性能の向上）をもたらします ⁴。

3. 他の正則化手法との相互作用

BNが正則化効果を持つという事実は、他の正則化手法との併用において重大な実務的影響を及ぼします。

BNとDropout: ⁴ での実験では、BNとDropoutの併用が必ずしも良い結果をもたらさず、場合によっては再び過学習する可能性が示唆されています。これは、両者が異なる（あるいは競合する）ノイズ注入メカニズムを持つため、その相互作用の調整が難しくなることを示唆しています。
BNとL2正則化: ²² は、「BNとL2は正則化として一緒には機能しない」という、さらに強力な分析結果を示しています。L2正則化は、重み $w$ の**大きさ（ノルム）を小さくしようとペナルティを課します。一方、BNは、層の出力 $Xw$ をその標準偏差 $\sigma(Xw)$ で割ります。この $\sigma(Xw)$ は $w$ のスケールに比例します。L2が $w$ を小さくしても、BNが $\sigma(Xw)$（これも小さくなる）で割り戻してしまうため、実質的な出力スケールが変わりません。これにより、L2ペナルティの効果が相殺（キャンセル）**されてしまうのです ²²。

B. データ拡張（Data Augmentation）と正則化

²¹ は、「データ拡張」をDropoutやBNと並べて「学習を改善するトリック」としてリストアップしています。データ拡張（例：画像の回転、反転、ノイズ追加）は、既存のデータから新しい（あり得たかもしれない）データを人工的に生成し、訓練データを「増やす」技術です。

過学習の根本原因の一つは「不十分な訓練データ」です ¹²。データ拡張は、モデルがより多様なデータに触れることを強制します。これにより、モデルは表面的な特徴（例：特定の向き）ではなく、本質的なパターンを学習せざるを得なくなります。これは、モデルが訓練データを「記憶」するのを防ぎ、汎化性能を向上させるため、実質的な（暗黙の）正則化手法として機能します。

VI. 結論と実践的ガイドライン

本レポートでは、「正規化」と「正則化」という二つの重要な概念について、その定義、目的、メカニズム、および両者の異同を詳細に分析しました。

A. 異同の最終要約

「異」（Difference）: 正規化は「データ（入力）」に対する「前処理」であり、目的は「スケーリング（学習安定化）」です ⁷。正則化は「モデル（重み）」に対する「学習中の制約」であり、目的は「過学習抑制（汎化）」です ⁷。
「同」（Similarity）: 究極的なメタゴールとして、両者とも「最適化プロセスに介入し、より速く、より安定し、より汎化性能の高いモデルを得る」という共通の目的を持っています ³。

B. 混乱の源泉の再確認

両者の境界を曖昧にする要因は二つあります。第一に、用語の混乱（「正規化」と「標準化」）¹。第二に、バッチ正規化 (BN) のような、「正規化」のメカニズムを用いながら「正則化」の効果を併せ持つ両義的な技術の存在です ³。

C. 実践的ガイドライン（専門家からの提言）

機械学習の実践において、以下のガイドラインを推奨します。

G1: 正規化（スケーリング）はいつ使うか？

勾配降下法を用いるモデル（ニューラルネットワーク、線形回帰）や、距離ベースのモデル（SVM, k-NN）を使用する場合、学習の前に必ず適用するべきです ⁵。
指針: データの分布が不明瞭で外れ値が疑われる場合はRobustScaler ² を、外れ値がなくNNを用いる場合はMin-Max ² を、正規分布を仮定するモデルにはZ-score ² を推奨します。

G2: 正則化はいつ使うか？

モデルが訓練データの精度（Accuracy）は高いが、検証データの精度が低い、すなわち過学習 (Overfitting) が観測された場合に適用します ¹³。

G3: どの正則化手法を選ぶか？

汎用: L2正則化（Ridge）が最も安定的で、第一選択肢となります ¹¹。
特徴量選択が必要な場合: L1正則化（Lasso）を使用し、不要な特徴量をゼロにします ¹⁶。
ニューラルネットワークの場合: Dropout ¹⁹ または早期停止 ¹⁸ が非常に効果的です。

G4: バッチ正規化（BN）を使用する場合の注意点

BNはそれ自体が強力な正則化効果を持つことを認識する必要があります ⁴。
BNを使用する場合、DropoutやL2正則化は不要になるか、あるいは効果を減らす（または干渉する） ⁴ 可能性があります。併用する場合は、その相互作用を理解した上で慎重なハイパーパラメータ調整が不可欠です。

D. 最終的な結論

「正規化」と「正則化」は、その名前に惑わされず、「データをスケーリングする技術」と「モデルの複雑性を抑制する技術」という、その目的と作用対象によって明確に区別することが、機械学習の実践において不可欠です。両者の違いを正確に理解し、適切に使い分けることが、高性能なモデルを構築するための鍵となります。

引用文献

機械学習における正規化とは？標準化との使い分けや人気言語を … https://www.tryeting.jp/column/6038/
機械学習のためのデータ前処理とは？｜ピュア・ストレージ https://www.purestorage.com/jp/knowledge/what-is-data-preprocessing.html
Regularization: Batch-normalization and Drop out | by aditi kothiya | Analytics Vidhya https://medium.com/analytics-vidhya/everything-you-need-to-know-about-regularizer-eb477b0c82ba
Batch Normalization and Dropout: A Combined Regularization Approach – Learn OpenCV https://learnopencv.com/batch-normalization-and-dropout-as-regularizers/
When to normalize or regularize features in Data Science https://datascience.stackexchange.com/questions/60192/when-to-normalize-or-regularize-features-in-data-science
11月 15, 2025にアクセス、 https://aismiley.co.jp/ai_news/regularization/#:~:text=%E6%AD%A3%E5%89%87%E5%8C%96%E3%81%A8%E3%81%AF%E3%80%81%E3%83%A2%E3%83%87%E3%83%AB,%E3%82%92%E5%90%91%E4%B8%8A%E3%81%95%E3%81%9B%E3%82%8B%E3%81%93%E3%81%A8%E3%81%A7%E3%81%99%E3%80%82
What is the difference between normalisation and regularisation in machine learning https://stackoverflow.com/questions/47014365/what-is-the-difference-between-normalisation-and-regularisation-in-machine-learn
Overfitting and Regularization in ML – GeeksforGeeks https://www.geeksforgeeks.org/machine-learning/overfitting-and-regularization-in-ml/
Numerical data: Normalization | Machine Learning – Google for Developers https://developers.google.com/machine-learning/crash-course/numerical-data/normalization
[1809.00846] Towards Understanding Regularization in Batch Normalization – arXiv https://arxiv.org/abs/1809.00846
正則化とは？機械学習における重要性と手法を解説 – AIsmiley https://aismiley.co.jp/ai_news/regularization/
Why Overfitting Hurts Your Machine Learning Models & How to Prevent It https://randomresearchai.medium.com/why-overfitting-hurts-your-machine-learning-models-how-to-prevent-it-8d4b2d6b4db0
How to Fix Overfitting and Underfitting | by Tahir | Oct, 2025 https://medium.com/@tahirbalarabe2/how-to-fix-overfitting-and-underfitting-4cf8f383ea96
11月 15, 2025にアクセス、 https://developers.google.com/machine-learning/crash-course/overfitting/regularization#:~:text=AI%2Dgenerated%20Key%20Takeaways&text=L2%20regularization%20is%20a%20technique,increasing%20the%20risk%20of%20overfitting.
正則化の種類と目的 L1正則化 L2正則化について – AVILEN AI Trend https://ai-trend.jp/basic-study/neural-network/regularization/
Regularization in Machine Learning – GeeksforGeeks https://www.geeksforgeeks.org/machine-learning/regularization-in-machine-learning/
過学習を防ぐ「正則化」とは？ http://marupeke296.com/IKDADV_DL_No12_regularization.html
Overfitting: L2 regularization | Machine Learning – Google for Developers https://developers.google.com/machine-learning/crash-course/overfitting/regularization
Dropout：ディープラーニングの火付け役、単純な方法で過学習を防ぐ – DeepAge https://deepage.net/deep_learning/2016/10/17/deeplearning_dropout.html
深層学習で用いられる「ドロップアウト」とは。なぜ使われるかを理解しよう https://datastudydock.com/dropout/
Training Neural Networks: Normalization, Regularization etc. – Deep Learning, CMU https://deeplearning.cs.cmu.edu/F20/document/slides/lec8.optimizersandregularizers.pdf
Batch Norm and L2 Regularization – Hello, world! I’m Lori https://loribeehive.github.io/lori-blog/L2/