夏休みの宿題として，Trevor Hastie，統計的学習の基礎 ―データマイニング・推論・予測―を勉強している．以下は，第2章：教師あり学習の概要 のメモ．

変数の種類と用語

予測のための二つの簡単なアプローチ：最近傍法

期待予測誤差（Expected Prediction Error）：\(\mathrm{EPE}(f) = \int \left(y - f(x) \right)^2 \mathrm{Pr} (dx, dy)\)
EPEを最小化するのは，条件付き期待値：\(\mathrm{E}(Y \mid X=x)\)
条件付け：同時分布を\(\mathrm{Pr}(X, Y) = \mathrm{Pr}(Y \mid X)\mathrm{Pr}(X)\)のように分解すること．
十分な大きさの訓練データが得られれば，\(\hat{f}(x) \rightarrow \mathrm{E}(Y \mid X=x)\)となり，万能な近似モデルとなる．
\(\mathrm{card}(\mathcal{G})\)は，集合\(\mathcal{G}\)の要素数を表す．

バイアス-分散分解．平均二乗誤差（MSE）を分解すると，次のようになる．\(\mathrm{MSE}(x_0) = \mathrm{E}_{\tau}[f(x_0)-\hat{y}_0]^2 = \mathrm{Var}_{\tau}(\hat{y}_0) + \mathrm{Bias}^2(\hat{y}_0)\)．ここで，\(\tau\)は訓練データ集合を表す．
制限の強い仮定に基づく線形モデルと，柔軟な最近傍法は両極端な性質を持つ．以降，これらの中間的な性質を持つ方法を学ぶ．

線形基底展開：\(f_{\theta}(x) = \sum_{k=1}^{K}h_k (x) \theta_k\)．
- \(h_k\)は入力ベクトル\(x\)に関する関数や変換を表す．
- ニューラルネットワークはこの一種であり，\(h_k(x) = \frac{1}{1 + \mathrm{exp}(-x^{T}\beta_k)}\)．
残差二乗和（RSS; Sum of Squared Residuals）：\(\mathrm{RSS}(\theta) = \sum_{i=1}^N (y_i - f_{\theta}(x_i))^2\)
最尤推定：対数尤度関数を最大化するパラメータ\(\theta\)を採用する．
- 量的出力：\(L(\theta) = \sum_{i=1}^N \mathrm{log} \mathrm{Pr}_{\theta} (y_i)\)を最小化する．ここで，\(\mathrm{Pr}_{\theta}(y_i)\)は，パラメータ\(\theta\)で特徴づけられた\(Y\)の確率密度関数．加法的誤差モデル（\(Y = f_{\theta} (X) + \epsilon\)）において，\(\epsilon \sim \mathcal{N}(0, \sigma^2)\)ならば，最尤推定は最小二乗法と等価になる．
- 質的出力：\(L(\theta) = \sum_{i=1}^N \mathrm{log} p_{g_i, \theta} (x_i)\)を最小化する．ここで，\(p_{k, \theta} (x) = \mathrm{Pr}(G=\mathcal{G}_k \mid X=x)\)．交差エントロピーとも呼ぶ．

残差二乗和\(\mathrm{RSS}(f) = \sum_{i=1}^N (y_i - f(x_i))^2\)に基づいて関数\(f\)を推定するとする．
データ数\(N\)が有限の場合，関数\(f\)を一意に求めるために，学習に対して制約を設ける．
- 制約の強さ：近傍領域の大きさ．
- 制約の複雑さ：近傍領域で想定する規則性．
等方性の小さい領域を近傍とする局所的な方法は，どのようなものであっても高次元データにうまく適用できない．
ノンパラメトリックな推定のためには，大きく分けて３つの方法がある．
- 粗度に対する罰則：残差二乗和にペナルティ項を追加する．\(\mathrm{PRSS}(f; \lambda) = \mathrm{RSS}(f) + \lambda J(f)\)．射影追跡回帰や正則化など．ベイジアンの枠組みで理解することができる．
- カーネル関数による局所関数近似：近傍領域をカーネル関数で表現し，明示的に回帰関数や条件付き期待値を推定する．
- Dictionary method：基底関数を用いて関数を表現する．\(f_{\theta}(x) = \sum_{m=1}^M \theta_m h_m (x)\)．