推定量のもろもろ

不偏推定量についてやっと腑に落ちてきたのでまとめてみる。ほとんど英語版 WikipediaEstimator bias の受け売りだが、自分の言葉で書いてみる。

まず「目的意識」の設定。母数(パラメータとも言う) \theta を持つ確率分布 P(\theta)があって、そこから独立に確率変数 \{X_i\} がサンプリングされているという世界観。我々は、観測データ \{X_i\} をもとに 母数 \thetaを推定したい。

estimator とは、そのための「アルゴリズム」である。\theta の estimator を \hat\theta などと書くが、これは \hat\theta(X_0, X1, ..., X_N) という感じに、データを入れると母数の推定量 estimate を返してくれる関数である。しばしば、推定量\hat\theta と書くこともあって、それで混乱が生じている。

定量は、確率変数 \{X_i\} を関数で処理したものだから、推定量自体もまた確率変数である。というか、真の母数は\thetaという一点なのだが、それは(ほとんどの場合)知りようがない。優れた estimator (優れたアルゴリズム)であっても、その入力たる \{X_i\} 自体が、ランダムサンプリングの結果なので、\{X_i\} の「引き」が悪ければ、推定量も真の母数から大きくズレるということがありうる。

この estimator の良し悪しを評価するのに、いくつかの基準がある。

E(\hat\theta)は、推定量の期待値。ここでの期待値とは、\{X_i\} のサンプリングに渡る期待値である。具体的に書き下すと、
E(\hat\theta) = \sum_{X_0}\sum_{X_1}...\sum_{X_N}P(X_0, X_1, ..., X_N)\hat\theta(X_0, X1, ..., X_N)という感じ。

上の値が、真の母数\thetaに近いほど嬉しいので、それとのズレを B(\hat\theta) = E(\hat\theta - \theta) = E(\hat\theta) - \theta で定義して bias という。何度も書いているように \theta は確率変数ではない(サンプリングの結果に関係なく、たった1つ、真実の値が存在する)ので、期待値の中に入れたり出したり自由である。この bias が 0 なのが、巷でよく聞く「不偏推定量」である。

もう一つ高次の統計量があって、それが Mean Square Error (MSE) というもの。MSE(\hat\theta) = E((\hat\theta - \theta)^2) である。

よく例に出てくる標本平均と標本分散については、前者は不偏推定量だが後者はそうではない。前者は不偏推定量なので bias = 0 だが、MSE は 0 ではない。このあたりについて、次に述べる。