推定量のもろもろ - biochem

不偏推定量についてやっと腑に落ちてきたのでまとめてみる。ほとんど英語版 Wikipedia の Estimator bias の受け売りだが、自分の言葉で書いてみる。

まず「目的意識」の設定。母数(パラメータとも言う) $\theta$ を持つ確率分布 $P(\theta)$ があって、そこから独立に確率変数 $\{X_i\}$ がサンプリングされているという世界観。我々は、観測データ $\{X_i\}$ をもとに母数 $\theta$ を推定したい。

estimator とは、そのための「アルゴリズム」である。 $\theta$ の estimator を $\hat\theta$ などと書くが、これは $\hat\theta(X_0, X1, ..., X_N)$ という感じに、データを入れると母数の推定量 estimate を返してくれる関数である。しばしば、推定量を $\hat\theta$ と書くこともあって、それで混乱が生じている。

推定量は、確率変数 $\{X_i\}$ を関数で処理したものだから、推定量自体もまた確率変数である。というか、真の母数は $\theta$ という一点なのだが、それは（ほとんどの場合）知りようがない。優れた estimator (優れたアルゴリズム）であっても、その入力たる $\{X_i\}$ 自体が、ランダムサンプリングの結果なので、 $\{X_i\}$ の「引き」が悪ければ、推定量も真の母数から大きくズレるということがありうる。

この estimator の良し悪しを評価するのに、いくつかの基準がある。

$E(\hat\theta)$ は、推定量の期待値。ここでの期待値とは、 $\{X_i\}$ のサンプリングに渡る期待値である。具体的に書き下すと、
$E(\hat\theta) = \sum_{X_0}\sum_{X_1}...\sum_{X_N}P(X_0, X_1, ..., X_N)\hat\theta(X_0, X1, ..., X_N)$ という感じ。

上の値が、真の母数 $\theta$ に近いほど嬉しいので、それとのズレを $B(\hat\theta) = E(\hat\theta - \theta) = E(\hat\theta) - \theta$ で定義して bias という。何度も書いているように $\theta$ は確率変数ではない（サンプリングの結果に関係なく、たった1つ、真実の値が存在する）ので、期待値の中に入れたり出したり自由である。この bias が 0 なのが、巷でよく聞く「不偏推定量」である。

もう一つ高次の統計量があって、それが Mean Square Error (MSE) というもの。 $MSE(\hat\theta) = E((\hat\theta - \theta)^2)$ である。

よく例に出てくる標本平均と標本分散については、前者は不偏推定量だが後者はそうではない。前者は不偏推定量なので bias = 0 だが、MSE は 0 ではない。このあたりについて、次に述べる。