dry の感覚・wet の感覚 - biochem

しばしば実験系の研究者から「しょせんシミュレーションでしょ」という言葉を聞く。「このモデルでは○○の影響が考慮されていないじゃないか! 話にならない」などと言われる。実際、私も昔はそう思っていた。論文を見ても、実験による validation との一致率がそれほど高くなくて、「こんなの役に立つのかなぁ……」などと思ったりもした。

学部の4年生の頃だったか、bioinformatics の研究者から、決定的な・最終的な答えを出すことだけが目的ではないと聞いて、眼から鱗が落ちたような気がした。もちろんコンピュータ上の処理だけで決定的な答えが出せるならそれに越したことはない。しかし、それに達しないからといって無意味ではないのだ。

例えば、創薬やケミカルバイオロジーの分野で、ある蛋白質に作用する低分子化合物を探したいとする。いくらハイスループットスクリーニング(HTS)技術が発達したところで、100万個の候補化合物を対象に実験することは不可能である。たとえ可能だとしても、莫大な時間と資金が必要である。コンピュータ上でのスクリーニングで見込みのない化合物をふるい分けて、候補を1万個に絞りこめば、実験可能となる(96well plate で 100枚強。根性があれば手作業ですら可能だ)。

蛋白質の構造を固定することに問題はないのか、古典的力場でいいのかといった懐疑は、化学者として当然のものである。低分子量化合物の量子化学計算の精度に対して、蛋白質のシミュレーションはあまりに大雑把だと感じる。蛋白質のレベルで考えている分子生物学者にとって、具体的な分子を想定せずに反応拡散モデルを立てて議論することは、キモチワルイ。私のように化学のレベルで生命を見ている者にとっては、分子生物学ですらスッキリしない感じが残る。蛋白質をただの「名前」に還元してしまって、その間に相互作用の矢印を引いても、何も分かった気にならない。

あるノーベル賞受賞者は講演で、「私は theoretical とか computational といった冠のつく手法は信用しない」と言っていた。「所詮、人間の発想にあるものしか出てこないからだ。顕微鏡の下に見える世界は、私達の想像をはるかに超えたものだ」その通りである。単純なモデルから予測もしない振る舞いが生じることはあるが、人間が立てたモデルに縛られているには違いない。私は実験系のラボでの経験もあるから、この感覚はよく分かる。それと同時に、単純なモデルから複雑な形態が出てくる(例えば、チューリング・パターンや L-system を見よ)ことは、それが生物現象の理解に役に立つかどうかとは無関係に、興味深く感じる。

先日、ある実験科学者と話をした。彼はマイクロアレイなどのハイスループット手法も使っている。5万個くらいある遺伝子の変動を網羅的に測定する。確からしい候補については、ノックダウンやノックインといった確認実験を行い、さらに追求していくことになる。純粋な統計学の立場としては、p値に多重検定補正を行った表を作ってオシマイである。問題は、多重検定補正にもいろいろあることだ。個人的には、1つ1つの遺伝子ごとにp値を出した後、補正については悩まず、p値をソートして、実験上の予算・時間・気力が続くだけ小さいほうから順番に確認していけばいいと思っている。その実験者は、原則としてはそうしつつも、false positive の常連については除外したり、多少p値が大きくても、他の根拠からそれらしいものは、追加確認に回すと言っていた。これこそが「実験者の腕の見せどころ」だろう。一方、この話を聞いた統計学者は「それはとても傲慢な態度である」と批判的だった。なるほど、多くの場合、人間の「主観」は bias として悪影響を与える。かといって、統計モデルに入っていない要素(いわば「事前知識」)があることを忘れて、p 値至上主義に走るのもどうか。

個人的には、結果を有意か有意でないという1ビットに要約してしまう統計検定のありかたは、キモチワルイ。

＃未完