提出したレポートです。
絶対書きすぎですが、行間を埋めたくなるので仕方ない。
Rabbit Challenge - Stage 1. 応用数学
第 1 章 線形代数
行列
行列 は、数値や変数を長方形の形に並べたものである。
$$ A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{pmatrix} $$
単位行列
単位行列 は、対角成分がすべて $1$ で、それ以外の成分がすべて $0$ の正方行列である。
$$ I = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} $$
単位行列は、積演算における単位元である。
つまり、任意の正方行列 $A$ に対して、$AI = IA = A$ が成り立つ。
正則行列・逆行列
正方行列 $A$ に対して、
$$ AB = BA = I $$
を満たす正方行列 $B$ が存在する場合、$A$ を 正則行列 と呼ぶ。
また、このときの $B$ を $A$ の 逆行列 と呼び、$A^{-1}$ と表す。
逆行列は、積演算における逆元である。
$$ A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, \quad A^{-1} = \begin{pmatrix} -2 & 1 \\ 3/2 & -1/2 \end{pmatrix} $$
行列式
行列式 は、正方行列に対して定義されるスカラー量であり、行列の性質を表す指標である。
その性質とは、主に以下が挙げられる。
- 行列が正則である(逆行列がある)かどうか
- 行列式が $0$ でない場合、行列は正則である
- 線形変換における面積・体積の変化率
- 例えば、行列式が $-2$ なら、面積・体積が $2$ 倍になり、向きが反転することを意味する
例えば、2 次正方行列の行列式は、次のように計算される。
$$ \begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc $$
固有値・固有ベクトル
正方行列 $A$ に対して、
$$ A \boldsymbol{x} = \lambda \boldsymbol{x} $$
を満たす非零ベクトル $\boldsymbol{x}$ とスカラー $\lambda$ が存在するとき、非零ベクトル $\boldsymbol{x}$ を $A$ の 固有ベクトル 、スカラー $\lambda$ を $A$ の 固有値 と呼ぶ。
例として、次の正方行列 $A$ の固有値と固有ベクトルを考える。
$$ A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix} $$
固有値 $\lambda$ が満たすべき方程式より、
$$ \begin{align*} & A \boldsymbol{x} = \lambda \boldsymbol{x} \\ & \iff (A - \lambda I) \boldsymbol{x} = 0 \\ & \iff \det(A - \lambda I) = 0 \end{align*} $$
よって、
$$ \begin{align*} \det(A - \lambda I) &= \begin{vmatrix} 4 - \lambda & 1 \\ 2 & 3 - \lambda \end{vmatrix} \\ &= (4 - \lambda)(3 - \lambda) - 1 \cdot 2 \\ &= \lambda^2 - 7 \lambda + 10 \\ &= (\lambda - 2)(\lambda - 5) \end{align*} $$
方程式 $\det(A - \lambda I) = 0$ を解くと、固有値は $\lambda_1 = 2$ 、$\lambda_2 = 5$ と求められる。
それぞれの固有値に対応する固有ベクトルは、次の連立方程式を解くことで求められる。
$$ (A - \lambda I) \boldsymbol{x} = 0 $$
$\lambda_1 = 2$ の場合、
$$ \begin{align*} & \begin{pmatrix} 2 & 1 \\ 2 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = 0 \\ & \iff \begin{cases} 2 x_1 + x_2 = 0 \\ 2 x_1 + x_2 = 0 \end{cases} \\ & \iff x_2 = -2 x_1 \\ & \iff \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} x_1 \\ -2 x_1 \end{pmatrix} = x_1 \begin{pmatrix} 1 \\ -2 \end{pmatrix} \end{align*} $$
となり、固有ベクトルは $k \begin{pmatrix} 1 \\ -2 \end{pmatrix}$ ( $k$ は任意の非零スカラー ) となる。
$\lambda_2 = 5$ の場合、
$$ \begin{align*} & \begin{pmatrix} -1 & 1 \\ 2 & -2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = 0 \\ & \iff \begin{cases} - x_1 + x_2 = 0 \\ 2 x_1 - 2 x_2 = 0 \end{cases} \\ & \iff x_2 = x_1 \\ & \iff \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} x_1 \\ x_1 \end{pmatrix} = x_1 \begin{pmatrix} 1 \\ 1 \end{pmatrix} \end{align*} $$
となり、固有ベクトルは $k \begin{pmatrix} 1 \\ 1 \end{pmatrix}$ ( $k$ は任意の非零スカラー ) となる。
固有値分解
行列 $A$ に対して、
$$ A = P \Lambda P^{-1} $$
を満たす正則行列 $P$ と対角行列 $\Lambda$ が存在して、$\Lambda$ の対角成分が $A$ の固有値であるようなものを $A$ の 固有値分解 と呼ぶ。
例として、次の正方行列 $A$ の固有値分解を考える。
$$ A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix} $$
前節で求めた固有値と固有ベクトルを用いると、
$$ P = \begin{pmatrix}1 & 1 \\ -2 & 1 \end{pmatrix}, \quad \Lambda = \begin{pmatrix}2 & 0 \\ 0 & 5 \end{pmatrix} $$
よって、
$$ \begin{align*} A &= P \Lambda P^{-1} \\ &= \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 0 & 5 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix}^{-1} \\ &= \begin{pmatrix}1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix}2 & 0 \\ 0 & 5 \end{pmatrix} \begin{pmatrix}1/3 & -1/3 \\ 2/3 & 1/3 \end{pmatrix} \\ \end{align*} $$
直交行列
直交行列 は、列(または行)が互いに直交し、長さ 1 であるベクトルから構成される正方行列であり、$Q^T Q = I$ を満たす。
この性質から、$Q^T Q = Q Q^T = I$ より、転置行列と逆行列が等しい正方行列とも言える。
対称行列
対称行列 は、転置行列と等しい正方行列である。
特異値・特異値分解
$m \times n$ 行列 $A$ に対して、
$$ A = U \Sigma V^T $$
を満たす $m \times m$ 直交行列 $U$ 、$n \times n$ 直交行列 $V$ 、$m \times n$ 行列 $\Sigma$ が存在して、
$$ \Sigma = \begin{pmatrix} \begin{matrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \end{matrix} & O \\ O & O \end{pmatrix} $$
を満たすようなものを $A$ の 特異値分解 と呼び、$\sigma_1, \sigma_2, \ldots, \sigma_r$ を $A$ の 特異値 と呼ぶ。
求め方としては、以下の通り。
- 行列 $A^T A$ の固有値・固有ベクトルを求める
- 行列 $A A^T$ の固有値・固有ベクトルを求める
- 固有値の平方根が特異値となる
- 固有ベクトルを用いて直交行列 $U$ 、$V$ を構成する
なぜ、この方法で特異値分解を計算できるのか?
細かい部分の確認は省略して、なぜこの方法で特異値分解を計算できるのかを説明する。
【$A^T A$ の固有値分解】
まず、確認は省略するが、$A^T A$ は対称行列であり、直交行列で対角化できる。
$n \times n$ 行列 $A^T A$ の固有値分解は、以下のように書ける。
$$ A^T A = V \Lambda V^T $$
- $V = ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n )$
- $A^T A$ の固有ベクトルを列に持つ直交行列
- $\Lambda = \text{diag} ( \lambda_1, \lambda_2, \ldots, \lambda_n )$
- $A^T A$ の固有値を対角成分に持つ対角行列
【目標】
ここから目標とするのは、特異値分解の形 $A = U \Sigma V^T$ であるため、両辺の右から $V$ を掛けて $A V = U \Sigma$ の形を目指す。
$$ \begin{align*} A V &= A \cdot ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n ) \\ &= ( A \boldsymbol{v}_1, A \boldsymbol{v}_2, \ldots, A \boldsymbol{v}_n ) \\ U \Sigma &= ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m ) \cdot \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q ) \\ &= ( \sigma_1 \boldsymbol{u}_1, \sigma_2 \boldsymbol{u}_2, \ldots ) \end{align*} $$
- $U = ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m )$
- ベクトル $\boldsymbol{u}_i$ を列に持つ $m \times m$ 直交行列
- $\Sigma = \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q )$
- $\sigma_i$ を対角成分に持つ $m \times n$ 対角行列
- $q = \min(m, n)$
両辺の第 $i$ 列を比較すると、
$$ A \boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i $$
となるような $\sigma_i$ と $\boldsymbol{u}_i$ を定義すればよい。
【$\sigma_i$ と $\boldsymbol{u}_i$ の定義】
ここで、以下のように定義したとする。
$$ \begin{align*} \sigma_i &= \sqrt{\lambda_i} \\ \boldsymbol{u}_i &= \frac{1}{\sigma_i} A \boldsymbol{v}_i \end{align*} $$
このとき、$A A^T$ の固有値 $\sigma_i^2$ に対応する固有ベクトルが $\boldsymbol{u}_i$ であることが示されれば、目標の形を達成できる。
すなわち、
$$ A A^T \boldsymbol{u}_i = \sigma_i^2 \boldsymbol{u}_i $$
を示せばよい。
左辺から変形すると、
$$ \begin{align*} A A^T \boldsymbol{u}_i &= A A^T \cdot \frac{1}{\sigma_i} A \boldsymbol{v}_i \quad ( \because \boldsymbol{u}_i の定義 ) \\ &= \frac{1}{\sigma_i} A ( A^T A ) \boldsymbol{v}_i \\ &= \frac{1}{\sigma_i} A ( \lambda_i \boldsymbol{v}_i ) \quad ( \because ( A^T A ) \boldsymbol{v}_i = \lambda_i \boldsymbol{v}_i ) \\ &= \frac{\lambda_i}{\sigma_i} A \boldsymbol{v}_i \\ &= \frac{\lambda_i}{\sigma_i} ( \sigma_i \boldsymbol{u}_i ) \quad ( \because \boldsymbol{u}_i の定義 ) \\ &= \lambda_i \boldsymbol{u}_i \\ &= \sigma_i^2 \boldsymbol{u}_i \quad ( \because \sigma_i の定義 ) \end{align*} $$
これにより、$A A^T$ の固有値 $\sigma_i^2$ に対応する固有ベクトルが $\boldsymbol{u}_i$ であることが示された。
【結論】
以上より、行列 $A$ について、
- 右特異ベクトル $\boldsymbol{v}_i$ は、$A^T A$ の固有ベクトル
- 特異値 $\sigma_i$ は、$A^T A$ の固有値の平方根
- 左特異ベクトル $\boldsymbol{u}_i$ は、$\boldsymbol{u}_i = \frac{1}{\sigma_i} A \boldsymbol{v}_i$ により定義される
としたとき、
- $V = ( \boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n )$
- $\Sigma = \text{diag} ( \sigma_1, \sigma_2, \ldots, \sigma_q )$
- $U = ( \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_m )$
とする。
以上の構成により、各列について $ A \boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i $ が成立するため、行列として、
$$ A V = U \Sigma $$
が成立する。よって、
$$ A = U \Sigma V^T $$
が得られる。
第 2 章 確率・統計
条件付き確率
事象 $B$ が発生したという条件下で、事象 $A$ が発生する確率を 条件付き確率 と呼び、$P(A|_B)$ と表す。
$$ P(A|_B) = \frac{P(A \cap B)}{P(B)} \quad ( P(B) > 0 ) $$
ベイズの定理
事象 $A$ と $B$ に対して、以下の関係が成り立つ。
$$ P(A|_B) = \frac{P(B|_A) P(A)}{P(B)} \quad ( P(B) > 0 ) $$
ここで、ベイズの定理の各項は、以下のようにも呼ばれる。
- 事前確率 $P(A)$
- 尤度 $P(B|_A)$
- 事後確率 $P(A|_B)$
例として、以下の状況を考える。
- ある疾患に罹患している確率を $0.010$ とする
- この疾患に対してある簡易検査薬は、罹患している場合に陽性となる確率が $0.90$ 、罹患していない場合に陽性となる確率が $0.10$ である
- この検査薬で陽性と判定されたとき、実際に疾患に罹患している確率を求めよ
問題文から、以下が分かる。
$$ \begin{align*} P(罹患) &= 0.010 \\ P(非罹患) &= 1 - P(罹患) = 0.990 \\ P(陽性|_{罹患}) &= 0.90 \\ P(陽性|_{非罹患}) &= 0.10 \end{align*} $$
ベイズの定理より、以下のように求められる。
$$ \begin{align*} P(罹患|_{陽性}) &= \frac{P(陽性|_{罹患}) P(罹患)}{P(陽性)} \\ &= \frac{P(陽性|_{罹患}) P(罹患)}{P(陽性|_{罹患}) P(罹患) + P(陽性|_{非罹患}) P(非罹患)} \\ &= \frac{0.90 \times 0.010}{0.90 \times 0.010 + 0.10 \times 0.990} \\ &= \frac{0.009}{0.108} \\ &\approx 0.0833 \end{align*} $$
期待値・分散
確率変数 $X$ の 期待値 は、$E[X]$ と表し、以下のように定義される。
- 離散型確率変数の場合
$$ E[X] = \sum_{i} x_i P(X = x_i) $$
- 連続型確率変数の場合
$$ E[X] = \int_{-\infty}^{\infty} x f(x) dx \quad (f(x): 確率密度関数) $$
確率変数 $X$ の 分散 は、$V[X]$ と表し、以下のように定義される。
$$ V[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2 $$
代表的な確率分布
- ベルヌーイ分布
- 離散型確率分布
- 成功確率 $p$ の二値試行の結果を表す
- 二項分布
- 離散型確率分布
- $n$ 回の独立なベルヌーイ試行における成功回数を表す
- ポアソン分布
- 離散型確率分布
- 単位時間・単位空間あたりの平均発生回数 $\lambda$ の事象の発生回数を表す
- 正規分布
- 連続型確率分布
- 平均 $\mu$ 、分散 $\sigma^2$ のデータの分布を表す
- 指数分布
- 連続型確率分布
- 単位時間あたりの平均発生率 $\lambda$ の事象の発生間隔を表す
第 3 章 情報理論
自己情報量
事象 $X$ の発生確率を $P(X)$ とするとき、事象 $X$ の 自己情報量 $I(X)$ は、以下のように定義される。
$$ I(X) = - \log P(X) $$
イメージとしては、確率 $P(X)$ が小さいほど、事象 $X$ の発生が珍しいので、情報を多く持っており、自己情報量 $I(X)$ が大きくなる。
エントロピー
確率変数 $X$ の エントロピー $H(X)$ は、以下のように定義される。
$$ H(X) = E[I(X)] = - \sum_{x} P(X = x) \log P(X = x) $$
エントロピーは、確率変数 $X$ の不確実性の尺度であり、分布が均一であるほど予測しにくく、エントロピーが大きくなる。
なお、エントロピーの単位は、対数の底によって異なり、底が $2$ の場合の単位は、ビット (bit) である。
条件付きエントロピー
確率変数 $X$ と $Y$ に対して、$Y$ が与えられたときの $X$ の 条件付きエントロピー $H(X|_Y)$ は、以下のように定義される。
$$ \begin{align*} H(X|_Y) &= E[I(X|_Y)] \\ &= \sum_{y} \sum_{x} P(X=x, Y=y) I(X=x|_{Y=y}) \\ &= - \sum_{y} \sum_{x} P(X=x, Y=y) \log P(X=x|_{Y=y}) \\ &= - \sum_{y} P(Y = y) \sum_{x} P(X=x|_{Y=y}) \log P(X=x|_{Y=y}) \end{align*} $$
条件付きエントロピーは、ある確率変数の値が分かったという条件下で、他の確率変数の不確実性がどれだけ残るかを表す。
結合エントロピー
確率変数 $X$ と $Y$ に対して、結合エントロピー $H(X, Y)$ は、以下のように定義される。
$$ H(X, Y) = - \sum_{x} \sum_{y} P(X = x, Y = y) \log P(X = x, Y = y) $$
結合エントロピーは、2 つの確率変数が同時に持つ不確実性がどれだけあるかを表す。
それぞれのエントロピーを用いて、以下のように表すこともできる。
$$ H(X, Y) = H(X) + H(Y|_X) = H(Y) + H(X|_Y) $$
さらに、確率変数 $X$ と $Y$ が独立である場合、以下が成り立つ。
$$ H(X, Y) = H(X) + H(Y) $$
相互情報量
確率変数 $X$ と $Y$ に対して、相互情報量 $I(X; Y)$ は、以下のように定義される。
$$ I(X; Y) = \sum_{x} \sum_{y} P(X = x, Y = y) \log \frac{P(X = x, Y = y)}{P(X = x) P(Y = y)} $$
相互情報量は、2 つの確率変数がどれだけ情報を共有しているかを表し、以下のように表すこともできる。
$$ \begin{align*} I(X; Y) &= H(X) - H(X|_Y) = H(Y) - H(Y|_X) \\ &= H(X) + H(Y) - H(X, Y) \end{align*} $$
KL ダイバージェンス
KL ダイバージェンス (Kullback-Leibler Divergence) は、2 つの確率分布 $P$ と $Q$ の間の差異を測る尺度であり、以下のように定義される。
$$ D_{KL}(P || _Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} $$
KL ダイバージェンスは、分布 $P$ が分布 $Q$ からどれだけ異なるかを示し、非対称である。
クロスエントロピー
確率分布 $P$ と $Q$ に対して、クロスエントロピー $H(P, Q)$ は、以下のように定義される。
$$ H(P, Q) = - \sum_{x} P(x) \log Q(x) $$
クロスエントロピーは、真の分布 $P$ に従うデータを、予測分布 $Q$ で表現したときの平均的な誤りを表す。
KL ダイバージェンスとエントロピーを用いて、以下のように表すことができる。
$$ H(P, Q) = H(P) + D_{KL}(P || _Q) $$
JS ダイバージェンス
JS ダイバージェンス (Jensen-Shannon Divergence) は、2 つの確率分布 $P$ と $Q$ の間の差異を測る尺度であり、以下のように定義される。
$$ D_{JS}(P || _Q) = \frac{1}{2} D_{KL}(P || _M) + \frac{1}{2} D_{KL}(Q || _M) $$
ここで、$M = (P + Q)/2$ である。
JS ダイバージェンスは、KL ダイバージェンスと異なり対称であり、常に有限の値を取る。
0 件のコメント:
コメントを投稿