統計

統計量の不偏性や一致性と、post-refinement について

4/23 ごろに Twitter に書いたことの再録。シリアル結晶学における post-refinement について問題提起しておく。これらの手法の不偏性や一致性についての検証はまったくといってよいほどされていない。つまり、ある枚数から処理したときに得られる強度(の推…

sigma cutoff によるバイアス

sigma cutoff の濫用は、バイアスの原因となる。負の観測を切り捨てることで測定値を正にバイアスし、ノイズしかない場合でもシグナルがあるかのような統計値を生み出してしまう。このため、業界のコンセンサスとしては、-3 よりも大きくするのは良くないと…

観測数と相関係数

直接測定不能な Nref 種類のデータ がある。そこになんらかのノイズが加わったものを観測する。Nref 種類の対象を redundancy 回ずつ測定し、種類ごとに平均を取って真の値の推定値とする。これを2セット行い、セット間で推定値の相関係数を求めることで、推…

推定量のもろもろ

不偏推定量についてやっと腑に落ちてきたのでまとめてみる。ほとんど英語版 Wikipedia の Estimator bias の受け売りだが、自分の言葉で書いてみる。まず「目的意識」の設定。母数(パラメータとも言う) を持つ確率分布 があって、そこから独立に確率変数 が…

最小二乗法と最尤推定

1年近く下書きに眠っていたのを公開。これは統計的手法を真面目に勉強しはじめて、最初に「面白いな」と思った事柄だから、思い出深い。最小二乗法という昔から知っていた手法が、最尤推定という自分にとって目新しい知識とつながる体験は快かった。回帰とは…

リファレンスに基づいたクラスタリングの危険性

電子顕微鏡による単粒子解析界隈でちょっとした騒ぎ(?)になっている事件がある。"Avoiding the pitfalls of single particle cryo-electron microscopy: Einstein from noise" (Richard Henderson, PNAS 2013) と、このページからリンクされている Related L…

結果の解釈可能性について

相変わらずつながりの悪いバラバラとした文章の書きなぐりだが、いつまでも下書きに溜め込んでいても仕方がないので、公開してしまう。 最近感じている、「技術としては面白いけれど、結果自体には興味が持てない」感覚を、なんとか言語化しようと試みたが、…

マイクロアレイの有意差検定

機能ゲノムの講義で、マイクロアレイによる differential expression の検定をやった。入門書では、differential expression を見つけるのに t 検定して終わりになっているが、実際にはもっとややこしいことをやっているようだ。[BioC] limma moderated t-st…

EM algorithm

EM algorithm (Expectation- Maximization algorithm) は、直接測定不能な変数が存在するときのモデルフィッティングに用いられる。構造分野で使えそうな/使われている局面は SFX で、指数付けに曖昧性がある場合 単粒子解析で、どのクラスに属するかの判定 …

実験計画法

講義で実験計画法にちらっと触れた。要点は3つ Replication 誤差を減らすだけでなく、誤差の大きさ(分散)を知る上でも大事 Randomization 偏りなく割りつける。例えば、マイクロアレイのチップ・レーンの位置など。サンプル1をいつもレーン1に載せるといった…

予測の精度を予測する

蛋白質の構造予測などでは、より正確な予測をすることが第一目標であるのは間違いないが、予測した解の精度を予測する、つまり予想にどのくらいの自信が持てるのかを適切に自己評価することも重要である。自信のある解が出れば探索をそこで打ち切ることがで…

多重検定補正の2つの考え方

内容的には既に知っていることばかりだったが、少しメモ。 Familywise Error Rate を調節するとは、N個の検定をしたときに「1つでも間違える確率」を、sigfinicance level α に調節すること。Bonferroni 法など。 False discovery rate を調節するとは、N個…

outlier rejection

先日、Randy Read 氏の outlier rejection の論文 "Detecting outliers in non-redundant diffraction data" Acta Cryst. (1999). D55 を読んだ。予想される分布より 6SD 離れた観測を外れ値として考えている。ガウス分布の 6SD なので、p値 は に対応する。…

ガウス分布の和

ガウス分布は再生性を持つ。つまり、二つのガウス分布に従う確率変数の和も、またガウス分布になるのだ。証明は検索すればたくさん出てくるが、一番単純な場合、つまり、標準正規分布の和の場合について手計算してみた。確率変数 x と y が標準正規分布に従…

構造のクラスタリング

ラボで、超多次元データのクラスタリングとか分布の比較といったことが研究されている。対象となるデータは、多チャンネルFACS(10マーカx1万細胞とか)とか LC/MS だったりするわけだが、私にとっては蛋白質構造が一番親しみ深いので、そこでの手法を調べてみ…

Wilson 分布を確認していたら、「確率変数の和の小数部分の分布」やら「二次元ランダムウォークの成分の独立性」が問題となった

原子が単位格子中にランダムに散らばっているとしよう。i番目の原子の座標(fractional coordinate)を、原子散乱因子をとすると、結晶全体からの散乱は指数を h として、で表される。なお、この手の式ではいちいち書かないのが普通だが、 は指数 h に依存する…

確率変数の変数変換

以前もこの話題をやったが、手を動かしていろいろ実験した結果、前よりも腑に落ちた(感覚的にしっくりくるようになった)ので再度まとめ。まず、簡単な場合。[0, 2]の範囲の一様乱数 X がある。その密度関数は f(x) = 1/2、変域は[0, 2]である。Y = 2X と変数…

時系列データの相関

これはメモ:時系列データの相関を調べたい。例えば、A社とB社の株価の推移に相関があるか知りたい場合と、100社の株価と100社の○○-index (何か経営指標を想定)のデータがあって、株価と○○-index という二つの観測量に相関があるかを知りたいという場合がある…

当選確実

せっかく統計学を勉強しているので、当選確実の判定法について考えてみる。あえて検索はしない。 とりあえず有権者が N 人いて、候補者 A と B が争っているとしよう。一票でも多い方が当選。A の真の得票率は P で NP 票、B は N (1 - P) 票獲得しているの…

英語と漢語

文語的で、現代語からはほとんど絶滅してしまったような単語が、かえって英語のニュアンスを正確に反映していることがある。「孜孜として」(ししとして)ほど "diligently" という語にぴったりくる訳はないだろう。許す・赦す・宥す・恕すと、allow, permit, …

結晶学的 R factor と統計学におけるR^2

先日のラボ内勉強会で、決定係数 R^2 値(wikipedia)の話が出た。R^2 の定義は である。すなわち、モデルとデータの二乗残差をデータの分散で割って、1から引いたものである。結晶学におけるモデルとデータの適合度評価には、R factor(wikipedia) を用いる。…

少ない大きな違いに注意

平均や分散やRMSD(Root Mean Square Deviation)といった量は、要素ごとに何かを合計したものを最後に要素数で割ることで計算する。したがって、大きく異なる要素が数個あっても、全体数が多ければ、その影響は覆い隠されてしまう。何をもって「異なる」とい…

Plink

Ubuntu では、association study に用いる plink コマンドは putty-tools に含まれている plink コマンドと名前がぶつかるため、p-link に改名されていることに注意。

Relative risk と Odds ratio

前向き(prospective)研究では relative risk が直接計算できるが、後ろ向き(retrospective)研究である疾患対照研究(case control study)では odds ratio しか計算できない。しかし後者で前者を近似できる、という話を学部の頃に習ったときは、なぜなのか分か…

Sidak法からBonferroni法へ

N回独立な検定を行ったところ、p値の最小値としてpminを得たとする。これよりも「珍しい」事象は「p値の最小値として、pminよりも小さい値を得た」である。これは「全てのp値がpminよりも大きかった」事象の余事象だから、その確率はで与えられる。多重検定…

k番目の値の分布

昨日の勉強会で、Benjamini-Hochberg法に関連して、次のような問題を考えた。『[0, 1]の範囲で一様乱数をN個発生させたときに、k番目の値はどういう分布を取るか』シミュレーションするのは簡単だが、この分布には名前が付いているのだろうか? 標本の「k番目…

確率密度関数の変数変換

確率密度関数 f(x) は、確率変数 X が x ちょうどを取るときの確率ではない。微笑領域の幅 dx を掛けたときに確率になるようになっている。これが「密度」の意味するところ。したがって変数変換をする時は、ヤコビアンを掛けることになる。詳しくは、確率分…