東京大学教養学部統計学教室編,統計学入門
東京大学教養学部統計学教室編,統計学入門を読んだ.統計学の基礎知識を復習できた.
大数の法則と中心極限定理
- 大数の法則:標本平均\(\bar{X}\)は母平均\(\mu\)に確率収束する.
- 中心極限定理:母集団分布がなんであっても,標本和\(\sum_{i}^{n} X_{i}\)は十分大きな\(n\)に対して大略正規分布に収束する.モーメント母関数を用いて証明できる.
- 累積密度分布の逆関数が陽に求まる場合は,一様分布に従う\(U\)を逆関数で変換することで,もとの確率密度関数に従う乱数を生成できる.
標本分布
- 統計的推測とは,標本から母集団について推測すること.
- 母集団分布のパラメータを母数と呼ぶ.
- 標本平均のように,標本を要約し,母集団の母数の推測に使われるものを統計量と呼ぶ.
- 標本分散は,\(s^2 = \frac{1}{n-1} \sum_i^n (X_i - \bar{X})\)で計算できる.計算に母平均\(\mu\)でなく標本平均\(\bar{X}\)を使っているため,自由度が1下がり,分母は\(n-1\)となることに注意.
- 母集団が再生性を持つ分布に従うとき,標本和の分布は簡単に求まる.再生性とは,独立な複数の確率変数が同一の分布族に属する場合,その和もそれに属すること.二項分布,ポアソン分布,正規分布など.
- 母集団が有限\(N\)のとき,\(V(\bar{x}) = \frac{N-n}{N-1}\cdot \frac{\sigma^2}{n}\)となる.このとき\(\frac{N-n}{N-1}\)を有限母集団修正と呼ぶ.
正規分布からの標本
- \(\chi^{2}\)分布:\(Z_1, Z_2, \dots, Z_k\)を独立な,標準正規分布\(N(0, 1)\)に従う確率変数とするとき,\(\chi^{2} = Z_1^2 + Z_2^2 + \dots + Z_k^2\)を自由度\(k\)の\(\chi^{2}\)分布と呼ぶ.ちなみに,\(\chi^{2} = (n-1) s^2 / \sigma^{2}\)は自由度\(n-1\)の\(\chi^{2}\)分布である.
- 分散が未知のときの標本平均の標本分布として,スチューデントの\(t\)分布が用いられる.\(Z\)が標準正規分布\(N(0, 1)\)に従い,\(Z\)と独立な\(Y\)が自由度\(k\)の\(\chi^2\)分布に従うとき,\(t = \frac{Z}{\sqrt{Y/k}}\)は自由度\(k\)の\(t\)分布である.つまり,\(t = \frac{\bar{x} - \mu}{s / \sqrt{n}}\)は自由度\(n-1\)の\(t\)分布.
- 二標本問題.標本平均の差の標本分布は,条件により分布が異なる:
- 母分散が既知のとき:正規分布
- 母分散が未知だが等しいとき:t分布
- 母分散が未知で,かつ等しいとは限らないとき:ウェルチの近似法を用いたt分布.
- 標本相関係数の標本分布.フィッシャーのz変換を使うらしい.詳細は不明.
推定
- 推定量(estimator):母数を推定するために標本から求めた統計量.標本平均や標本分散.
- 点推定(point estimation):母数をある一つの値で指定する.
- 区間推定(interval estimation):母数の値が入る確率がある値\(1 - \alpha\)以上と保証される区間を求める.
- モーメント法による点推定は,母集団モーメント関数と標本モーメント関数が等しいと仮定する方法.モーメント法で標本分散を点推定すると不偏推定量とはならない.より洗練された手法として,最尤法がある.
- 点推定の基準:不偏性.一致性.漸近正規性.有効性.
統計的検定
- 母平均の差の検定は,\(t\)検定を用いる.
- 母分散の検定は,\(\chi^2\)検定を用いる.
- 母分散の比の検定は,\(F\)検定を用いる.
- 適合度の\(\chi^2\)検定.\(\chi^2=\frac{\sum (O - E)^2}{E}\).ここで,\(O\)は観測された値,\(E\)は理論的に予測された値を表す.この考え方を使うと,分割表の独立性の検定などが実施できる.
- 第一種の誤り:帰無仮説を誤って棄却してしまうこと.有意水準\(\alpha\)の確率で発生しうる.
- 第二種の誤り:帰無仮説を誤って棄却しないこと.確率\(\beta\)で発生し得る.このとき,\(1-\beta\)を検出力と呼ぶ.
- 棄却域の調整により\(\alpha\)と\(\beta\)を調整できるが,療法を小さくすることは出来ない.
回帰分析
- 決定係数\(\eta^2\)は,\(Y_{i}\)の変動のうち\(X_{i}\)で説明できる変動の割合を示す.0から1の値を取り,1に近いほど良い.
- 偏回帰係数\(\beta_2\)(傾き)の検定するときは,\(\frac{\hat{\beta} - \beta}{s.e. \left(\hat{\beta}\right)}\)をt検定にかける.重回帰の場合はF検定にかける.詳細は3巻2章で.
Subscribe via RSS