予測の精度を予測する

蛋白質の構造予測などでは、より正確な予測をすることが第一目標であるのは間違いないが、予測した解の精度を予測する、つまり予想にどのくらいの自信が持てるのかを適切に自己評価することも重要である。自信のある解が出れば探索をそこで打ち切ることができるし、逆に自信が持てない場合は、より幅広い探索を続けるなり、別のパラメータを設定して再始動するといった選択が可能となるからだ。

その時に、得られた解集合をクラスター化して、クラスター内での RMSD を調べるという手筋をよく目にすることに気がついた。特に分子の場合は、クラスター内での重ねあわせで残基ごとに RMSD を計算し、RMSD が高いループ部分などは予測精度が低いと判断する。そして、その部分をリサンプリングするなりリビルドするなりしている。また、RMSD の予測は、分子置換での尤度関数の調節にも重要である。例えば、High resolution protein structure prediction and the crystallographic phase problem Nature 2007 がこの手法を取っているし、より低コストで同じことを目指す AMPLE (CCP4 StudyWeekend2013 Session2-1 のビデオを参照)でも同様だ。