不偏推定量についてやっと腑に落ちてきたのでまとめてみる。ほとんど英語版 Wikipedia の Estimator bias の受け売りだが、自分の言葉で書いてみる。
まず「目的意識」の設定。母数(パラメータとも言う) を持つ確率分布 があって、そこから独立に確率変数 がサンプリングされているという世界観。我々は、観測データ をもとに 母数 を推定したい。
estimator とは、そのための「アルゴリズム」である。 の estimator を などと書くが、これは という感じに、データを入れると母数の推定量 estimate を返してくれる関数である。しばしば、推定量を と書くこともあって、それで混乱が生じている。
推定量は、確率変数 を関数で処理したものだから、推定量自体もまた確率変数である。というか、真の母数はという一点なのだが、それは(ほとんどの場合)知りようがない。優れた estimator (優れたアルゴリズム)であっても、その入力たる 自体が、ランダムサンプリングの結果なので、 の「引き」が悪ければ、推定量も真の母数から大きくズレるということがありうる。
この estimator の良し悪しを評価するのに、いくつかの基準がある。
は、推定量の期待値。ここでの期待値とは、 のサンプリングに渡る期待値である。具体的に書き下すと、
という感じ。
上の値が、真の母数に近いほど嬉しいので、それとのズレを で定義して bias という。何度も書いているように は確率変数ではない(サンプリングの結果に関係なく、たった1つ、真実の値が存在する)ので、期待値の中に入れたり出したり自由である。この bias が 0 なのが、巷でよく聞く「不偏推定量」である。
もう一つ高次の統計量があって、それが Mean Square Error (MSE) というもの。 である。
よく例に出てくる標本平均と標本分散については、前者は不偏推定量だが後者はそうではない。前者は不偏推定量なので bias = 0 だが、MSE は 0 ではない。このあたりについて、次に述べる。