猫好きエンジニアのメモ置き場: 11月 2025

数式をいっぱい書きたい衝動に駆られたので、最近勉強したヤツを書いてみる。

機械学習の課題の一つとして、過学習が挙げられる。

これは、訓練データに対しては精度は高いが、未知のデータに対しては誤差が大きくなり、汎化ができていない状態のこと。端的に言えば、教科書通りに問題を解くことはできても、応用問題は解けないような感じ。

そこで、訓練データに対する誤差である 訓練誤差 と、未知のデータに対する誤差である 汎化誤差 について、簡単な例で計算をしてみる。

前提

状況設定

簡単な例として、入力 $x$ に対して出力 $y$ があり、線形関係 $y=ax$ が期待されているものとする。

例えば、以下のような状況のこと。

速さが一定 (等速直線運動) であるとき、経過時間を入力としたときの移動距離
抵抗が一定であるとき、電圧を入力としたときの電流 (オームの法則)
物体がすべてエネルギーに変換されるとき、物体の質量を入力としたときのエネルギー ($E=mc^2$)

実際の関係とノイズ

線形関係 $y=ax$ が期待されているものの、実際の観測では多少のズレ (ノイズ) が発生する。

いま、 $N$ 回の観測を行うとする。

$i$ 番目の観測において、入力 $x_i$ に対して出力が $y_i$ で、ノイズが $\varepsilon_i$ とすると、実際の関係は以下の通り。

$$ y_i = a x_i + \varepsilon_i \quad (i = 1, 2, \dots, N) $$

ただし、 $\varepsilon_i$ は観測ごとに独立であり、期待値 $E[\varepsilon_i] = 0$ 、分散 $V[\varepsilon_i] = \sigma^2$ とする。

このノイズの仮定は、平均値や期待値を取っていくと $0$ であることが期待され、分散が一定であることでどこでも同じ程度のばらつきである (偏りがない) ことを仮定している。

なお、入力 $x_i$ とノイズ $\varepsilon_i$ は独立である。

基本的な計算と略記

まず、頻出する和の記号について、以下の略記を導入する。

$$ \begin{align*} x の二乗和 & & S_{xx} &= \sum_{i=1}^N x_i^2 \\ x と \varepsilon の積和 & & S_{x \varepsilon} &= \sum_{i=1}^N x_i \varepsilon_i \\ \varepsilon の二乗和 & & S_{\varepsilon \varepsilon} &= \sum_{i=1}^N \varepsilon_i^2 \\ \end{align*} $$

次に、入力データ $X = ( x_1, x_2, ..., x_N )$ を固定して、いくつかの条件付き期待値と分散を計算しておく。

ノイズ $\varepsilon_i$ の条件付き期待値と分散は、入力 $x_i$ と独立であることから、以下の通り。

$$ \begin{align*} E[\varepsilon_i | _X] = E[\varepsilon_i] = 0 \\ V[\varepsilon_i | _X] = V[\varepsilon_i] = \sigma^2 \end{align*} $$

$x$ と $\varepsilon$ の積和 $S_{x \varepsilon}$ の条件付き期待値と分散は、以下の通り。

$$ \begin{align*} E[S_{x \varepsilon} | _X] &= E \left[ \left. \sum_{i=1}^N x_i \varepsilon_i \right| _X \right] \\ &= \sum_{i=1}^N x_i E[\varepsilon_i | _X] \quad (\because 期待値の線形性) \\ &= 0 \quad (\because E[\varepsilon_i | _X] = 0) \end{align*} $$

$$ \begin{align*} V[S_{x \varepsilon} | _X] &= V \left[ \left. \sum_{i=1}^N x_i \varepsilon_i \right| _X \right] \\ &= \sum_{i=1}^N V[x_i \varepsilon_i | _X] \quad (\because X を固定し， \varepsilon_i は互いに独立) \\ &= \sum_{i=1}^N x_i^2 V[\varepsilon_i | _X] \quad (\because 分散の斉次性) \\ &= \sigma^2 S_{xx} \quad (\because V[\varepsilon_i | _X] = \sigma^2) \end{align*} $$

$\varepsilon$ の二乗和 $S_{\varepsilon \varepsilon}$ の条件付き期待値は、以下の通り。

$$ \begin{align*} E[S_{\varepsilon \varepsilon} | _X] &= E[S_{\varepsilon \varepsilon}] \\ &= E \left[ \sum_{i=1}^N \varepsilon_i^2 \right] \\ &= \sum_{i=1}^N E[\varepsilon_i^2] \quad (\because 期待値の線形性) \\ &= \sum_{i=1}^N V[\varepsilon_i] \quad (\because E[\varepsilon_i^2] = V[\varepsilon_i] + (E[\varepsilon_i])^2) \\ &= N \sigma^2 \quad (\because V[\varepsilon_i] = \sigma^2) \end{align*} $$

予測モデル

次に、予測モデルを考える。

今回は線形関係 $y=ax$ が期待されているため、予測モデルは入力 $x$ に対して以下の通り。

$$ \hat{y} = \hat{a} x $$

これが意味するのは、例えば $i$ 番目の入力 $x_i$ に対して、予測と実測の観測値は以下の通りになる。

$$ \begin{align*} 予測 & & \hat{y_i} &= \hat{a} x_i \\ 実測 & & y_i &= a x_i + \varepsilon_i \end{align*} $$

つまり、実測に対する予測の誤差は $y_i - \hat{y_i}$ という式で表現できる。

当然ながら誤差をできるだけ小さくしたいので、最小二乗法を使って誤差が小さくなるような $\hat{a}$ を推定する。

誤差の二乗和は以下の通り。

$$ \sum_{i=1}^N ( y_i - \hat{y_i} )^2 = \sum_{i=1}^N ( y_i - \hat{a} x_i )^2 $$

これが最小になるような $\hat{a}$ を求めたいので、 $\hat{a}$ で微分して $0$ になるときを計算する。

$$ \begin{align*} \frac{d}{d \hat{a}} \sum_{i=1}^N ( y_i - \hat{a} x_i )^2 = 0 &\iff \frac{d}{d \hat{a}} \sum_{i=1}^N ( y_i^2 - 2 \hat{a} x_i y_i + \hat{a}^2 x_i^2 ) = 0 \\ &\iff -2 \sum_{i=1}^N x_i y_i + 2 \hat{a} \sum_{i=1}^N x_i^2 = 0 \\ &\iff \hat{a} = \frac{1}{S_{xx}} \sum_{i=1}^N x_i y_i \end{align*} $$

これで、誤差が小さくなるような推定量 $\hat{a}$ を、最小二乗法によって求めることができた。

また、実際の関係 $y_i = a x_i + \varepsilon_i$ を代入すると、推定量 $\hat{a}$ は実際の係数 $a$ を用いて、以下のように表現することができる。

$$ \begin{align*} \hat{a} &= \frac{1}{S_{xx}} \sum_{i=1}^N x_i y_i \\ &= \frac{1}{S_{xx}} \sum_{i=1}^N x_i ( a x_i + \varepsilon_i ) \\ &= \frac{1}{S_{xx}} \sum_{i=1}^N ( a x_i^2 + x_i \varepsilon_i ) \\ &= \frac{1}{S_{xx}} \left( a \sum_{i=1}^N x_i^2 + \sum_{i=1}^N x_i \varepsilon_i \right) \\ &= \frac{1}{S_{xx}} ( a S_{xx} + S_{x \varepsilon} ) \\ &= a + \frac{S_{x \varepsilon}}{S_{xx}} \end{align*} $$

意味としては、推定量 $\hat{a}$ は、実際の係数 $a$ にノイズに由来する項を足したものととらえることができる。

推定量 $\hat{a}$ の期待値

まず、入力 $X$ を固定した条件付き期待値は、以下の通り。

$$ \begin{align*} E[\hat{a} | _X] &= E \left[ \left. a + \frac{S_{x \varepsilon}}{S_{xx}} \right| _X \right] \\ &= a + \frac{1}{S_{xx}} E[S_{x \varepsilon} | _X] \\ &= a \quad (\because E[S_{x \varepsilon} | _X] = 0) \end{align*} $$

また、無条件期待値は、繰り返し期待値の法則から、以下の通り。

$$ E[\hat{a}] = E_X [ E[\hat{a} | _X] ] = E_X [a] $$

ここで $E_X[\cdot]$ は、 $X$ の確率分布に対する期待値を表している。

しかし、 $a$ は $X$ に依存していないため、推定量 $\hat{a}$ の無条件期待値は、以下の通り。

$$ E[\hat{a}] = a $$

つまり、推定量 $\hat{a}$ は不偏、すなわち、期待値が真の値と一致していて平均的なズレがない、ということを意味している。

推定量 $\hat{a}$ の分散

まず、入力 $X$ を固定した条件付き分散は、以下の通り。

$$ \begin{align*} V[\hat{a} | _X] &= V \left[ \left. a + \frac{S_{x \varepsilon}}{S_{xx}} \right| _X \right] \\ &= V \left[ \left. \frac{S_{x \varepsilon}}{S_{xx}} \right| _X \right] \quad (\because 分散の位置母数に対する不変性) \\ &= \frac{1}{(S_{xx})^2} V[S_{x \varepsilon} | _X] \quad (\because 分散の斉次性) \\ &= \frac{1}{(S_{xx})^2} \cdot \sigma^2 S_{xx} \\ &= \frac{\sigma^2}{S_{xx}} \end{align*} $$

また、無条件分散は、分解公式より以下の通り。

$$ \begin{align*} V[\hat{a}] &= E_X [ V[\hat{a} | _X] ] + V_X [ E[\hat{a} | _X] ] \\ &= E_X \left[ \frac{\sigma^2}{S_{xx}} \right] + V_X[a] \\ &= \sigma^2 E \left[ \frac{1}{S_{xx}} \right] \end{align*} $$

ここで $V_X[\cdot]$ は、 $X$ の確率分布に対する分散を表している。

この期待値は $x$ の分布に依存するため、これ以上の計算は難しい。

そのため、 $V[\hat{a}]$ の近似値を考える。

いま、 $x_i$ を確率変数と見たとき、互いに独立で $E[x_i] = 0, V[x_i] = \sigma_x^2$ とする。

大数の法則より、標本数 $N$ が十分に大きければ、標本平均は期待値に収束するため、以下のように近似できる。

$$ \frac{1}{N} \sum_{i=1}^N x_i^2 \approx E[x_i^2] $$

これを用いると、 $S_{xx}$ の近似値は以下の通り。

$$ \begin{align*} S_{xx} & \approx N \cdot E[x_i^2] \\ &= N \cdot V[x_i] \quad (\because E[x_i^2] = V[x_i] + (E[x_i])^2 = V[x_i]) \\ &= N \sigma_x^2 \end{align*} $$

よって、 $V[\hat{a}]$ の近似値は、以下の通り。

$$ \begin{align*} V[\hat{a}] &= \sigma^2 E \left[ \frac{1}{S_{xx}} \right] \\ & \approx \sigma^2 \cdot \frac{1}{ N \sigma_x^2 } = \frac{\sigma^2}{ N \sigma_x^2 } \end{align*} $$

つまり、標本数 $N$ が多いほど、入力のばらつき $\sigma_x^2$ が大きいほど、推定が安定することを示している。

訓練誤差

訓練誤差とは、学習に使用した訓練データに対して、どの程度正しく予測できるかを測る指標である。

定義より、訓練データにおける平均二乗誤差を計算する。

$$ \begin{align*} \mathrm{Err}_{train} &= \frac{1}{N} \sum_{i=1}^{N} ( y_i - \hat{y_i} )^2 \\ &= \frac{1}{N} \sum_{i=1}^{N} ( a x_i + \varepsilon_i - \hat{a} x_i )^2 \\ &= \frac{1}{N} \sum_{i=1}^{N} \left \lbrace ( a - \hat{a} )^2 x_i^2 + 2 ( a - \hat{a} ) x_i \varepsilon_i + \varepsilon_i^2 \right \rbrace \\ &= \frac{1}{N} \left \lbrace ( a - \hat{a} )^2 \sum_{i=1}^{N} x_i^2 + 2 ( a - \hat{a} ) \sum_{i=1}^{N} x_i \varepsilon_i + \sum_{i=1}^{N} \varepsilon_i^2 \right \rbrace \\ &= \frac{1}{N} \left \lbrace ( a - \hat{a} )^2 S_{xx} + 2 ( a - \hat{a} ) S_{x \varepsilon} + S_{\varepsilon \varepsilon} \right \rbrace \end{align*} $$

ここで、推定量 $\hat{a}$ の計算結果から、

$$ a - \hat{a} = - \frac{S_{x \varepsilon}}{S_{xx}} $$

であるため、

$$ \begin{align*} \mathrm{Err}_{train} &= \frac{1}{N} \left \lbrace ( a - \hat{a} )^2 S_{xx} + 2 ( a - \hat{a} ) S_{x \varepsilon} + S_{\varepsilon \varepsilon} \right \rbrace \\ &= \frac{1}{N} \left \lbrace \frac{(S_{x \varepsilon})^2}{(S_{xx})^2} \cdot S_{xx} - 2 \cdot \frac{S_{x \varepsilon}}{S_{xx}} \cdot S_{x \varepsilon} + S_{\varepsilon \varepsilon} \right \rbrace \\ &= \frac{1}{N} \left \lbrace \frac{(S_{x \varepsilon})^2}{S_{xx}} - 2 \cdot \frac{(S_{x \varepsilon})^2}{S_{xx}} + S_{\varepsilon \varepsilon} \right \rbrace \\ &= \frac{1}{N} \left \lbrace - \frac{(S_{x \varepsilon})^2}{S_{xx}} + S_{\varepsilon \varepsilon} \right \rbrace \end{align*} $$

訓練誤差 $\mathrm{Err}_{train}$ の期待値

まず、入力 $X$ を固定した条件付き期待値は、

$$ \begin{align*} E[ (S_{x \varepsilon})^2 | _X ] &= V[ S_{x \varepsilon} | _X ] + (E[ S_{x \varepsilon} | _X ])^2 \\ &= V[ S_{x \varepsilon} | _X ] \quad (\because E[ S_{x \varepsilon} | _X ] = 0) \\ &= \sigma^2 S_{xx} \end{align*} $$

を用いて、以下のように計算できる。

$$ \begin{align*} E[ \mathrm{Err}_{train} | _X ] &= E \left[ \left. \frac{1}{N} \left \lbrace - \frac{(S_{x \varepsilon})^2}{S_{xx}} + S_{\varepsilon \varepsilon} \right \rbrace \right| _X \right] \\ &= \frac{1}{N} \left \lbrace - \frac{ E[ (S_{x \varepsilon})^2 | _X ] }{S_{xx}} + E[ S_{\varepsilon \varepsilon} | _X ] \right \rbrace \\ &= \frac{1}{N} \left( - \frac{ \sigma^2 S_{xx} }{S_{xx}} + N \sigma^2 \right) \quad (\because E[ S_{\varepsilon \varepsilon} | _X ] = N \sigma^2) \\ &= \sigma^2 \left( 1 - \frac{1}{N} \right) \end{align*} $$

また、この結果から分かる通り $X$ に依らないため、訓練誤差の無条件期待値も同様に、以下の通りに計算できた。

$$ E[\mathrm{Err}_{train}] = \sigma^2 \left( 1 - \frac{1}{N} \right) $$

汎化誤差

汎化誤差とは、未知の新しいデータに対して、どの程度正しく予測できるかを測る指標である。

いま、学習に使用しなかった新しい入力 $x'$ に対して出力 $y'$ を観測するものとする。

このとき、先程の $\varepsilon_i$ とは異なる独立なノイズ $\varepsilon'$ を用いて、以下の通りになる。

$$ y' = a x' + \varepsilon' $$

ただし、 $\varepsilon'$ は、期待値 $E[\varepsilon'] = 0$ 、分散 $V[\varepsilon'] = \sigma^2$ とする。

また、予測値は、学習で得られた推定量 $\hat{a}$ を用いて、以下のように書ける。

$$ \hat{y'} = \hat{a} x' $$

定義より、二乗誤差を計算する。

$$ \begin{align*} \mathrm{Err}_{gen} &= (y' - \hat{y'})^2 \\ &= ( a x' + \varepsilon' - \hat{a} x' )^2 \\ &= (a - \hat{a})^2 (x')^2 + 2 (a - \hat{a}) x' \varepsilon' + (\varepsilon')^2 \end{align*} $$

汎化誤差 $\mathrm{Err}_{gen}$ の期待値

まず、入力 $X$ を固定した条件付き期待値を計算する。

それぞれの項の条件付き期待値を順番に考える。まずは、第 1 項の条件付き期待値から。

推定量 $\hat{a}$ は、訓練データ $x_i$ とノイズ $\varepsilon_i$ の関数だった。

一方で、新しい入力である $x'$ は訓練データとは独立な値であるため、期待値の計算について以下が成立する。

$$ E[(a - \hat{a})^2 (x')^2 | _X] = E[(a - \hat{a})^2 | _X] \cdot E[(x')^2 | _X] $$

ここで、分散と期待値の関係から、以下の式が成り立っている。

$$ \begin{align*} V[\hat{a} | _X] &= E[ ( \hat{a} - E[\hat{a} | _X] )^2 | _X ] \\ &= E[(\hat{a} - a)^2 | _X] \end{align*} $$

また、新しい入力 $x'$ は、訓練データの入力 $x_i$ と同じ確率分布から得られるものと仮定できるため、以下の式が成り立っている。

$$ \begin{align*} E[(x')^2 | _X] &= V[x' | _X] + (E[x' | _X])^2 \\ &= V[x' | _X] \quad (\because E[x' | _X] = E[x'] = E[x_i] = 0) \\ &= \sigma_x^2 \quad (\because V[x' | _X] = V[x'] = V[x_i] = \sigma_x^2) \end{align*} $$

よって、以下のように書ける。

$$ \begin{align*} E[(a - \hat{a})^2 (x')^2 | _X] &= E[(a - \hat{a})^2 | _X] \cdot E[(x')^2 | _X] \\ &= V[\hat{a} | _X] \cdot V[x_i] \\ &= \frac{\sigma^2}{S_{xx}} \cdot \sigma_x^2 \end{align*} $$

続いて、第 2 項は、 $x'$ と $\varepsilon'$ は互いに独立、かつ、 $\varepsilon'$ の平均が $0$ なので、 $0$ となる。

そして、第 3 項は、以下の通り。

$$ \begin{align*} E[(\varepsilon')^2] &= V[\varepsilon'] + (E[\varepsilon'])^2 \\ &= V[\varepsilon'] \quad (\because E[\varepsilon'] = 0) \\ &= \sigma^2 \end{align*} $$

以上より、汎化誤差の条件付き期待値は、以下の通り。

$$ \begin{align*} E[ \mathrm{Err}_{gen} | _X ] &= E[(a - \hat{a})^2 (x')^2 | _X] + 2 \cdot E[(a - \hat{a}) x' \varepsilon' | _X] + E[(\varepsilon')^2] \\ &= \frac{\sigma^2}{S_{xx}} \cdot \sigma_x^2 + \sigma^2 \end{align*} $$

汎化誤差の無条件期待値は、推定量の分散の近似計算したときと同様、 $S_{xx} \approx N \sigma_x^2$ を用いると、以下のように近似できる。

$$ \begin{align*} E[\mathrm{Err}_{gen}] &= E_X[ E[\mathrm{Err}_{gen} | _X] ] \\ & \approx \frac{\sigma^2}{N \sigma_x^2} \cdot \sigma_x^2 + \sigma^2 \\ &= \sigma^2 \left( 1 + \frac{1}{N} \right) \end{align*} $$

訓練誤差と汎化誤差の比較

ここまでで、訓練誤差と汎化誤差の期待値を求めることができた。

$$ \begin{align*} E[\mathrm{Err}_{train}] &= \sigma^2 \left( 1 - \frac{1}{N} \right) \\ E[\mathrm{Err}_{gen}] &\approx \sigma^2 \left( 1 + \frac{1}{N} \right) \end{align*} $$

この結果から、訓練誤差と汎化誤差の関係について、いくつかの重要な性質が分かる。

訓練誤差は汎化誤差を過小評価する

まず、両者の差を計算すると、以下の通り。

$$ E[\mathrm{Err}_{gen}] - E[\mathrm{Err}_{train}] \approx \sigma^2 \left( 1 + \frac{1}{N} \right) - \sigma^2 \left( 1 - \frac{1}{N} \right) = \frac{2\sigma^2}{N} $$

つまり、 $E[\mathrm{Err}_{train}] < E[\mathrm{Err}_{gen}]$ であり、訓練誤差は汎化誤差を 常に過小評価 する。

この差 $2 \sigma^2 / N$ は、標本数 $N$ が大きくなるほど小さくなるが、常に正の値である。

標本数の影響

標本数 $N$ の大きさによって、訓練誤差と汎化誤差がどう変化するかを考える。

$N \to \infty$ のとき: $E[\mathrm{Err}_{train}] \to \sigma^2$、$E[\mathrm{Err}_{gen}] \to \sigma^2$
$N$ が小さいとき: $E[\mathrm{Err}_{train}]$ は $\sigma^2$ より小さく、$E[\mathrm{Err}_{gen}]$ は $\sigma^2$ より大きい

つまり、標本数が十分に大きければ、訓練誤差と汎化誤差の差は小さくなり、両方とも真のノイズの分散 $\sigma^2$ に近づく。

一方、標本数が少ないと、訓練誤差は真の誤差を過小評価し、汎化誤差は過大評価する傾向がある。

楽観性バイアス

訓練誤差が汎化誤差を過小評価する現象は、楽観性バイアス (optimism bias) と呼ばれる。

これは、モデルが訓練データに最適化されているため、訓練データに対しては過度に良い性能を示すことに起因する。

したがって、モデルの性能を評価する際に訓練誤差のみを見ると、未知のデータに対する性能を 楽観的に 評価してしまう危険がある。

結果の解釈と過学習

過学習との関連

今回の例では、単純な線形モデル $y=ax$ を扱ったが、より複雑なモデルを使用すると、訓練誤差と汎化誤差の差はさらに大きくなる。

一般に、モデルの複雑度が高くなるほど、以下の傾向がある。

訓練誤差 : モデルがより柔軟になり、訓練データにより正確にフィットするため、減少する
汎化誤差 : モデルがノイズまで学習してしまい、未知のデータに対する予測精度が低下するため、増加する

このような状態を 過学習 (overfitting) と呼ぶ。

モデル選択の重要性

訓練誤差と汎化誤差のトレードオフを考慮すると、以下のような指針が得られる。

訓練誤差のみでモデルを評価しない : 訓練誤差は楽観性バイアスを持つため、未知のデータに対する性能を正しく反映しない
テストデータやバリデーションデータで評価する : 学習に使用していないデータで評価することで、汎化性能をより正確に把握できる
クロスバリデーションを活用する : データを複数の分割に分けて評価することで、汎化性能の推定精度を向上させる

今回の計算結果が示すこと

今回の計算では、最も単純な線形モデルでさえ、訓練誤差と汎化誤差の間に $2 \sigma^2 / N$ の差が生じることを示した。

これは、どんなに単純なモデルでも、訓練データだけで評価すると性能を過大評価してしまうことを意味している。

より複雑なモデルでは、この差はさらに大きくなるため、適切な評価手法の重要性がより高まる。

まとめ

本記事では、線形モデル $y=ax$ を例に、訓練誤差と汎化誤差を理論的に計算して、その性質を明らかにした。

主要な結果は以下の通り。

$$ \begin{align*} 訓練誤差の期待値 & & E[\mathrm{Err}_{train}] = \sigma^2 \left( 1 - \frac{1}{N} \right) \\ 汎化誤差の期待値 & & E[\mathrm{Err}_{gen}] \approx \sigma^2 \left( 1 + \frac{1}{N} \right) \\ 差 & & E[\mathrm{Err}_{gen}] - E[\mathrm{Err}_{train}] \approx \frac{2 \sigma^2}{N} \end{align*} $$

これらの結果から、以下の重要な知見が得られる。

訓練誤差は汎化誤差を常に過小評価する（楽観性バイアス）
標本数 $N$ が大きいほど、両者の差は小さくなる
どんなに単純なモデルでも、訓練データのみでの評価は不十分である

機械学習モデルの実務においては、以下の点に注意する必要がある。

訓練データとは別のテストデータやバリデーションデータで、性能を評価する
クロスバリデーションなどの手法を用いて、汎化性能を適切に推定する
訓練誤差が低くても、汎化誤差が高い場合は過学習を疑う

猫好きエンジニアのメモ置き場

2025-11-08

訓練誤差と汎化誤差の計算

前提

状況設定

実際の関係とノイズ

基本的な計算と略記

予測モデル

推定量 $\hat{a}$ の期待値

推定量 $\hat{a}$ の分散

訓練誤差

訓練誤差 $\mathrm{Err}_{train}$ の期待値

汎化誤差

汎化誤差 $\mathrm{Err}_{gen}$ の期待値

訓練誤差と汎化誤差の比較

訓練誤差は汎化誤差を過小評価する

標本数の影響

楽観性バイアス

結果の解釈と過学習

過学習との関連

モデル選択の重要性

今回の計算結果が示すこと

まとめ

ラビット・チャレンジ - Stage 4. 深層学習後編 (Day 4)

2025-11-08

訓練誤差と汎化誤差の計算

前提

状況設定

実際の関係とノイズ

基本的な計算と略記

予測モデル

推定量 $\hat{a}$ の期待値

推定量 $\hat{a}$ の分散

訓練誤差

訓練誤差 $\mathrm{Err}_{train}$ の期待値

汎化誤差

汎化誤差 $\mathrm{Err}_{gen}$ の期待値

訓練誤差と汎化誤差の比較

訓練誤差は汎化誤差を過小評価する

標本数の影響

楽観性バイアス

結果の解釈と過学習

過学習との関連

モデル選択の重要性

今回の計算結果が示すこと

まとめ

ラビット・チャレンジ - Stage 4. 深層学習 後編 (Day 4)

ラビット・チャレンジ - Stage 4. 深層学習後編 (Day 4)