モデル構築・精密化の自動化

先日、数理統計を専門とする先生に結晶学におけるモデル構築と精密化の話をしたら、モデル構築に人間の介入が必要であることが「キモチワルイ」という感想だった。人間の介入が必要ということは、そこにバイアスが入るリスクがあるということであり、それが気になるようだった。

結晶学でも、データの質が高い(=分解能が高く温度因子が低い)場合には、ARP/wARP や Phenix AutoBuild などのソフトウェアによってモデル構築の大部分を自動化できる時代になった。しかし低分解能構造の場合には依然として「職人技」的な電子密度の解釈が必要であるし、高分解能構造であっても disorder しかけた部分の精密化には人間の介入が必要だ。時にその作業は困難を極め、精神に悪影響を与える(精密化に疲れた - biochem_fan's note)。なんでもかんでも自動化できないのは、精密化アルゴリズムの収束半径が狭いこと、local minima に陥りやすいことが原因である。その端的な例は、FoldIt である。オンラインゲーム形式で蛋白質の折りたたみ問題を多人数の素人に解かせるシステムであるが、この「人力最適化」によって、ソフトウェアでは解けなかった分子置換問題に対するモデルを提供できている(PubMed Central にて Open Access)。

電子密度が綺麗な場合の解釈は、どの研究者がやってもソフトウェアに任せても一致する。ソフトウェアは人間の手間を減らすという意味では大いに有用だが、バイアスを減らすという意味では、もともと恣意性の余地がないのだから、貢献は少ない。我々が本当に求めているのは、側鎖は完全に disorder していて、かろうじて主鎖の残骸だけが見えているような map に対して、モデルを置くべきかどうかの判断を含めて自動で行なってくれるシステムである。こういう部分こそ、研究者によってマップの解釈が異なり、モデルに側鎖を含めるか含めないかといった点で恣意的な判断が起きるのである。

幸いなことに、結晶学では R free 値や幾何に基づいた validation が行われるので、過程はなんであれ(合理的手段だろうが、勘と経験だろうが)、出てきたモデルの妥当性を検証することがかなり可能である。それでも、データの質が悪い場合に、over fitting なのかどうなのかをどう評価するかなど、課題は残る。＃＃＃続く