統計量の不偏性や一致性と、post-refinement について

4/23 ごろに Twitter に書いたことの再録。

シリアル結晶学における post-refinement について問題提起しておく。これらの手法の不偏性や一致性についての検証はまったくといってよいほどされていない。つまり、ある枚数から処理したときに得られる強度(の推定値)の期待値が、真値と一致するのか? また、枚数をどんどん増やしていけば、真値へどんどん近づく(期待誤差が減る)のか? 特に実用上は、枚数を増やした時の漸近挙動が問題である。枚数が一定以上ならば Monte Carlo 積分のほうがかえって systematic error が少なかったというような事態が発生するなら、データ処理戦略に与える影響が大きい。

こういう問題、構造生物学関係者だけでなく、統計学アルゴリズム関係の皆さんにもぜひ参入していただきたい。論文が一本書けますよ。

推定量\hat\thetaの不偏性とは、その期待値 E[\hat\theta] が、真値 \theta と一致することをいう。詳しくは Estimator's bias を参照。

一方、一致性 consistency とは、サンプルサイズを増やしていった時に、推定値が真の値へ収束することをいう。

biased だが consistent な推定値の例や、逆に unbiased だが inconsistent な推定値の例が wikipedia に出ているので、ここに紹介する。N 個のサンプルから、母集団の平均を推定する方法として、常識的には N サンプルの和を取って N で割るわけだが、その代わりに、「最初の1つ目の値を使う」とする。この推定量は、unbias であるが、いくら N を増やしても収束していかない(最初の1つ目しか見ていないから)ので、inconsistent である。一方、「ふつうの平均」に 1 / N を足したものは、その分だけ期待値がズレているから bias を持っているが、N を無限大にすれば 1 / N は 0 に収束するので、その寄与はどんどん小さくなっていき、真の平均とのズレはなくなる。したがって consistent である。

この手の議論は、慣れないうちはモヤモヤするが、推定量そのものが確率変数であると意識すると理解しやすい。推定量とは、標本が与えられると、そこから一定の規則(アルゴリズム)に従って計算することで決定論的に得られる値である。標本自体が確率変数なので、その関数である推定量もまた確率変数であり、推定量の期待値とか、推定量の分散を考えることができるのだ。