2025-12-17

ラビット・チャレンジ - Stage 1. 応用数学

提出したレポートです。

絶対書きすぎですが、行間を埋めたくなるので仕方ない。


Rabbit Challenge - Stage 1. 応用数学

第 1 章 線形代数

行列

行列 は、数値や変数を長方形の形に並べたものである。

$$ A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{pmatrix} $$

単位行列

単位行列 は、対角成分がすべて $1$ で、それ以外の成分がすべて $0$ の正方行列である。

$$ I = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} $$

単位行列は、積演算における単位元である。

つまり、任意の正方行列 $A$ に対して、$AI = IA = A$ が成り立つ。

正則行列・逆行列

正方行列 $A$ に対して、

$$ AB = BA = I $$

を満たす正方行列 $B$ が存在する場合、$A$ を 正則行列 と呼ぶ。

また、このときの $B$ を $A$ の 逆行列 と呼び、$A^{-1}$ と表す。

逆行列は、積演算における逆元である。

$$ A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, \quad A^{-1} = \begin{pmatrix} -2 & 1 \\ 3/2 & -1/2 \end{pmatrix} $$

行列式

行列式 は、正方行列に対して定義されるスカラー量であり、行列の性質を表す指標である。

その性質とは、主に以下が挙げられる。

  • 行列が正則である(逆行列がある)かどうか
    • 行列式が $0$ でない場合、行列は正則である
  • 線形変換における面積・体積の変化率
    • 例えば、行列式が $-2$ なら、面積・体積が $2$ 倍になり、向きが反転することを意味する

例えば、2 次正方行列の行列式は、次のように計算される。

$$ \begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc $$

固有値・固有ベクトル

正方行列 $A$ に対して、

$$ A \boldsymbol{x} = \lambda \boldsymbol{x} $$

を満たす非零ベクトル $\boldsymbol{x}$ とスカラー $\lambda$ が存在するとき、非零ベクトル $\boldsymbol{x}$ を $A$ の 固有ベクトル 、スカラー $\lambda$ を $A$ の 固有値 と呼ぶ。

例として、次の正方行列 $A$ の固有値と固有ベクトルを考える。

$$ A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix} $$

固有値 $\lambda$ が満たすべき方程式より、

$$ \begin{align*} & A \boldsymbol{x} = \lambda \boldsymbol{x} \\ & \iff (A - \lambda I) \boldsymbol{x} = 0 \\ & \iff \det(A - \lambda I) = 0 \end{align*} $$

よって、

$$ \begin{align*} \det(A - \lambda I) &= \begin{vmatrix} 4 - \lambda & 1 \\ 2 & 3 - \lambda \end{vmatrix} \\ &= (4 - \lambda)(3 - \lambda) - 1 \cdot 2 \\ &= \lambda^2 - 7 \lambda + 10 \\ &= (\lambda - 2)(\lambda - 5) \end{align*} $$

方程式 $\det(A - \lambda I) = 0$ を解くと、固有値は $\lambda_1 = 2$ 、$\lambda_2 = 5$ と求められる。

それぞれの固有値に対応する固有ベクトルは、次の連立方程式を解くことで求められる。

$$ (A - \lambda I) \boldsymbol{x} = 0 $$

$\lambda_1 = 2$ の場合、

$$ \begin{align*} & \begin{pmatrix} 2 & 1 \\ 2 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = 0 \\ & \iff \begin{cases} 2 x_1 + x_2 = 0 \\ 2 x_1 + x_2 = 0 \end{cases} \\ & \iff x_2 = -2 x_1 \\ & \iff \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} x_1 \\ -2 x_1 \end{pmatrix} = x_1 \begin{pmatrix} 1 \\ -2 \end{pmatrix} \end{align*} $$

となり、固有ベクトルは $k \begin{pmatrix} 1 \\ -2 \end{pmatrix}$ ( $k$ は任意の非零スカラー ) となる。

$\lambda_2 = 5$ の場合、

$$ \begin{align*} & \begin{pmatrix} -1 & 1 \\ 2 & -2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = 0 \\ & \iff \begin{cases} - x_1 + x_2 = 0 \\ 2 x_1 - 2 x_2 = 0 \end{cases} \\ & \iff x_2 = x_1 \\ & \iff \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} x_1 \\ x_1 \end{pmatrix} = x_1 \begin{pmatrix} 1 \\ 1 \end{pmatrix} \end{align*} $$

となり、固有ベクトルは $k \begin{pmatrix} 1 \\ 1 \end{pmatrix}$ ( $k$ は任意の非零スカラー ) となる。

固有値分解

行列 $A$ に対して、

$$ A = P \Lambda P^{-1} $$

を満たす正則行列 $P$ と対角行列 $\Lambda$ が存在して、$\Lambda$ の対角成分が $A$ の固有値であるようなものを $A$ の 固有値分解 と呼ぶ。

例として、次の正方行列 $A$ の固有値分解を考える。

$$ A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix} $$

前節で求めた固有値と固有ベクトルを用いると、

$$ P = \begin{pmatrix}1 & 1 \\ -2 & 1 \end{pmatrix}, \quad \Lambda = \begin{pmatrix}2 & 0 \\ 0 & 5 \end{pmatrix} $$

よって、

$$ \begin{align*} A &= P \Lambda P^{-1} \\ &= \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 0 & 5 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix}^{-1} \\ &= \begin{pmatrix}1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix}2 & 0 \\ 0 & 5 \end{pmatrix} \begin{pmatrix}1/3 & -1/3 \\ 2/3 & 1/3 \end{pmatrix} \\ \end{align*} $$

直交行列

直交行列 は、列(または行)が互いに直交し、長さ 1 であるベクトルから構成される正方行列であり、$Q^T Q = I$ を満たす。

この性質から、$Q^T Q = Q Q^T = I$ より、転置行列と逆行列が等しい正方行列とも言える。

対称行列

対称行列 は、転置行列と等しい正方行列である。

特異値・特異値分解

$m \times n$ 行列 $A$ に対して、

$$ A = U \Sigma V^T $$

を満たす $m \times m$ 直交行列 $U$ 、$n \times n$ 直交行列 $V$ 、$m \times n$ 行列 $\Sigma$ が存在して、

$$ \Sigma = \begin{pmatrix} \begin{matrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \end{matrix} & O \\ O & O \end{pmatrix} $$

を満たすようなものを $A$ の 特異値分解 と呼び、$\sigma_1, \sigma_2, \ldots, \sigma_r$ を $A$ の 特異値 と呼ぶ。

求め方としては、以下の通り。

  1. 行列 $A^T A$ の固有値・固有ベクトルを求める
  2. 行列 $A A^T$ の固有値・固有ベクトルを求める
  3. 固有値の平方根が特異値となる
  4. 固有ベクトルを用いて直交行列 $U$ 、$V$ を構成する

なぜ、この方法で特異値分解を計算できるのか?

細かい部分の確認は省略して、なぜこの方法で特異値分解を計算できるのかを説明する。

【$A^T A$ の固有値分解】

まず、確認は省略するが、$A^T A$ は対称行列であり、直交行列で対角化できる。

$n \times n$ 行列 $A^T A$ の固有値分解は、以下のように書ける。

$$ A^T A = V \Lambda V^T $$

  • $V = ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n )$
    • $A^T A$ の固有ベクトルを列に持つ直交行列
  • $\Lambda = \text{diag} ( \lambda_1, \lambda_2, \ldots, \lambda_n )$
    • $A^T A$ の固有値を対角成分に持つ対角行列

【目標】

ここから目標とするのは、特異値分解の形 $A = U \Sigma V^T$ であるため、両辺の右から $V$ を掛けて $A V = U \Sigma$ の形を目指す。

$$ \begin{align*} A V &= A \cdot ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n ) \\ &= ( A \boldsymbol{v}_1, A \boldsymbol{v}_2, \ldots, A \boldsymbol{v}_n ) \\ U \Sigma &= ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m ) \cdot \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q ) \\ &= ( \sigma_1 \boldsymbol{u}_1, \sigma_2 \boldsymbol{u}_2, \ldots ) \end{align*} $$

  • $U = ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m )$
    • ベクトル $\boldsymbol{u}_i$ を列に持つ $m \times m$ 直交行列
  • $\Sigma = \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q )$
    • $\sigma_i$ を対角成分に持つ $m \times n$ 対角行列
    • $q = \min(m, n)$

両辺の第 $i$ 列を比較すると、

$$ A \boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i $$

となるような $\sigma_i$ と $\boldsymbol{u}_i$ を定義すればよい。

【$\sigma_i$ と $\boldsymbol{u}_i$ の定義】

ここで、以下のように定義したとする。

$$ \begin{align*} \sigma_i &= \sqrt{\lambda_i} \\ \boldsymbol{u}_i &= \frac{1}{\sigma_i} A \boldsymbol{v}_i \end{align*} $$

このとき、$A A^T$ の固有値 $\sigma_i^2$ に対応する固有ベクトルが $\boldsymbol{u}_i$ であることが示されれば、目標の形を達成できる。

すなわち、

$$ A A^T \boldsymbol{u}_i = \sigma_i^2 \boldsymbol{u}_i $$

を示せばよい。

左辺から変形すると、

$$ \begin{align*} A A^T \boldsymbol{u}_i &= A A^T \cdot \frac{1}{\sigma_i} A \boldsymbol{v}_i \quad ( \because \boldsymbol{u}_i の定義 ) \\ &= \frac{1}{\sigma_i} A ( A^T A ) \boldsymbol{v}_i \\ &= \frac{1}{\sigma_i} A ( \lambda_i \boldsymbol{v}_i ) \quad ( \because ( A^T A ) \boldsymbol{v}_i = \lambda_i \boldsymbol{v}_i ) \\ &= \frac{\lambda_i}{\sigma_i} A \boldsymbol{v}_i \\ &= \frac{\lambda_i}{\sigma_i} ( \sigma_i \boldsymbol{u}_i ) \quad ( \because \boldsymbol{u}_i の定義 ) \\ &= \lambda_i \boldsymbol{u}_i \\ &= \sigma_i^2 \boldsymbol{u}_i \quad ( \because \sigma_i の定義 ) \end{align*} $$

これにより、$A A^T$ の固有値 $\sigma_i^2$ に対応する固有ベクトルが $\boldsymbol{u}_i$ であることが示された。

【結論】

以上より、行列 $A$ について、

  • 右特異ベクトル $\boldsymbol{v}_i$ は、$A^T A$ の固有ベクトル
  • 特異値 $\sigma_i$ は、$A^T A$ の固有値の平方根
  • 左特異ベクトル $\boldsymbol{u}_i$ は、$\boldsymbol{u}_i = \frac{1}{\sigma_i} A \boldsymbol{v}_i$ により定義される

としたとき、

  • $V = ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n )$
  • $\Sigma = \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q )$
  • $U = ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m )$

とする。

以上の構成により、各列について $ A \boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i $ が成立するため、行列として、

$$ A V = U \Sigma $$

が成立する。よって、

$$ A = U \Sigma V^T $$

が得られる。


第 2 章 確率・統計

条件付き確率

事象 $B$ が発生したという条件下で、事象 $A$ が発生する確率を 条件付き確率 と呼び、$P(A|_B)$ と表す。

$$ P(A|_B) = \frac{P(A \cap B)}{P(B)} \quad ( P(B) > 0 ) $$

ベイズの定理

事象 $A$ と $B$ に対して、以下の関係が成り立つ。

$$ P(A|_B) = \frac{P(B|_A) P(A)}{P(B)} \quad ( P(B) > 0 ) $$

ここで、ベイズの定理の各項は、以下のようにも呼ばれる。

  • 事前確率 $P(A)$
  • 尤度 $P(B|_A)$
  • 事後確率 $P(A|_B)$

例として、以下の状況を考える。

  • ある疾患に罹患している確率を $0.010$ とする
  • この疾患に対してある簡易検査薬は、罹患している場合に陽性となる確率が $0.90$ 、罹患していない場合に陽性となる確率が $0.10$ である
  • この検査薬で陽性と判定されたとき、実際に疾患に罹患している確率を求めよ

問題文から、以下が分かる。

$$ \begin{align*} P(罹患) &= 0.010 \\ P(非罹患) &= 1 - P(罹患) = 0.990 \\ P(陽性|_{罹患}) &= 0.90 \\ P(陽性|_{非罹患}) &= 0.10 \end{align*} $$

ベイズの定理より、以下のように求められる。

$$ \begin{align*} P(罹患|_{陽性}) &= \frac{P(陽性|_{罹患}) P(罹患)}{P(陽性)} \\ &= \frac{P(陽性|_{罹患}) P(罹患)}{P(陽性|_{罹患}) P(罹患) + P(陽性|_{非罹患}) P(非罹患)} \\ &= \frac{0.90 \times 0.010}{0.90 \times 0.010 + 0.10 \times 0.990} \\ &= \frac{0.009}{0.108} \\ &\approx 0.0833 \end{align*} $$

期待値・分散

確率変数 $X$ の 期待値 は、$E[X]$ と表し、以下のように定義される。

  • 離散型確率変数の場合

$$ E[X] = \sum_{i} x_i P(X = x_i) $$

  • 連続型確率変数の場合

$$ E[X] = \int_{-\infty}^{\infty} x f(x) dx \quad (f(x): 確率密度関数) $$

確率変数 $X$ の 分散 は、$V[X]$ と表し、以下のように定義される。

$$ V[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2 $$

代表的な確率分布

  • ベルヌーイ分布
    • 離散型確率分布
    • 成功確率 $p$ の二値試行の結果を表す
  • 二項分布
    • 離散型確率分布
    • $n$ 回の独立なベルヌーイ試行における成功回数を表す
  • ポアソン分布
    • 離散型確率分布
    • 単位時間・単位空間あたりの平均発生回数 $\lambda$ の事象の発生回数を表す
  • 正規分布
    • 連続型確率分布
    • 平均 $\mu$ 、分散 $\sigma^2$ のデータの分布を表す
  • 指数分布
    • 連続型確率分布
    • 単位時間あたりの平均発生率 $\lambda$ の事象の発生間隔を表す

第 3 章 情報理論

自己情報量

事象 $X$ の発生確率を $P(X)$ とするとき、事象 $X$ の 自己情報量 $I(X)$ は、以下のように定義される。

$$ I(X) = - \log P(X) $$

イメージとしては、確率 $P(X)$ が小さいほど、事象 $X$ の発生が珍しいので、情報を多く持っており、自己情報量 $I(X)$ が大きくなる。

エントロピー

確率変数 $X$ の エントロピー $H(X)$ は、以下のように定義される。

$$ H(X) = E[I(X)] = - \sum_{x} P(X = x) \log P(X = x) $$

エントロピーは、確率変数 $X$ の不確実性の尺度であり、分布が均一であるほど予測しにくく、エントロピーが大きくなる。

なお、エントロピーの単位は、対数の底によって異なり、底が $2$ の場合の単位は、ビット (bit) である。

条件付きエントロピー

確率変数 $X$ と $Y$ に対して、$Y$ が与えられたときの $X$ の 条件付きエントロピー $H(X|_Y)$ は、以下のように定義される。

$$ \begin{align*} H(X|_Y) &= E[I(X|_Y)] \\ &= \sum_{y} \sum_{x} P(X=x, Y=y) I(X=x|_{Y=y}) \\ &= - \sum_{y} \sum_{x} P(X=x, Y=y) \log P(X=x|_{Y=y}) \\ &= - \sum_{y} P(Y = y) \sum_{x} P(X=x|_{Y=y}) \log P(X=x|_{Y=y}) \end{align*} $$

条件付きエントロピーは、ある確率変数の値が分かったという条件下で、他の確率変数の不確実性がどれだけ残るかを表す。

結合エントロピー

確率変数 $X$ と $Y$ に対して、結合エントロピー $H(X, Y)$ は、以下のように定義される。

$$ H(X, Y) = - \sum_{x} \sum_{y} P(X = x, Y = y) \log P(X = x, Y = y) $$

結合エントロピーは、2 つの確率変数が同時に持つ不確実性がどれだけあるかを表す。

それぞれのエントロピーを用いて、以下のように表すこともできる。

$$ H(X, Y) = H(X) + H(Y|_X) = H(Y) + H(X|_Y) $$

さらに、確率変数 $X$ と $Y$ が独立である場合、以下が成り立つ。

$$ H(X, Y) = H(X) + H(Y) $$

相互情報量

確率変数 $X$ と $Y$ に対して、相互情報量 $I(X; Y)$ は、以下のように定義される。

$$ I(X; Y) = \sum_{x} \sum_{y} P(X = x, Y = y) \log \frac{P(X = x, Y = y)}{P(X = x) P(Y = y)} $$

相互情報量は、2 つの確率変数がどれだけ情報を共有しているかを表し、以下のように表すこともできる。

$$ \begin{align*} I(X; Y) &= H(X) - H(X|_Y) = H(Y) - H(Y|_X) \\ &= H(X) + H(Y) - H(X, Y) \end{align*} $$

KL ダイバージェンス

KL ダイバージェンス (Kullback-Leibler Divergence) は、2 つの確率分布 $P$ と $Q$ の間の差異を測る尺度であり、以下のように定義される。

$$ D_{KL}(P || _Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} $$

KL ダイバージェンスは、分布 $P$ が分布 $Q$ からどれだけ異なるかを示し、非対称である。

クロスエントロピー

確率分布 $P$ と $Q$ に対して、クロスエントロピー $H(P, Q)$ は、以下のように定義される。

$$ H(P, Q) = - \sum_{x} P(x) \log Q(x) $$

クロスエントロピーは、真の分布 $P$ に従うデータを、予測分布 $Q$ で表現したときの平均的な誤りを表す。

KL ダイバージェンスとエントロピーを用いて、以下のように表すことができる。

$$ H(P, Q) = H(P) + D_{KL}(P || _Q) $$

JS ダイバージェンス

JS ダイバージェンス (Jensen-Shannon Divergence) は、2 つの確率分布 $P$ と $Q$ の間の差異を測る尺度であり、以下のように定義される。

$$ D_{JS}(P || _Q) = \frac{1}{2} D_{KL}(P || _M) + \frac{1}{2} D_{KL}(Q || _M) $$

ここで、$M = (P + Q)/2$ である。

JS ダイバージェンスは、KL ダイバージェンスと異なり対称であり、常に有限の値を取る。

0 件のコメント:

コメントを投稿

ラビット・チャレンジ - Stage 3. 深層学習 前編 (Day 1)

提出したレポートです。 絶対書きすぎですが、行間を埋めたくなるので仕方ない。 Rabbit Challenge - Stage 3. 深層学習 前編 (Day 1) 0. 深層学習とは何か この講義(Day1)の内容では、ニューラルネットワークを用いた学習方法として、順...