2013-07-01から1ヶ月間の記事一覧

curve メモ

R

さっきのapply, lapply, sapply メモ - biochem_fan's noteに関連して、高階関数の型チェックつづき。グラフを書いてくれる curve 関数の引数は? fun <- function(x) {print(x); return(x * 2)} curve(fun, from=0, to=1) x の値をベクトルとして受け取って…

apply, lapply, sapply メモ

R

いつも、FUN の型がなにか分からなくなってしまうので実験してメモ。まず、行列に対して処理する場合。 m <- matrix(1:6, 2, 3) apply(m, 1, function(x) {print(x); return(1)}) apply(m, 2, function(x) {print(x); return(1)}) lapply(m, function(x) {pr…

今回は二週間

記録のために:今回は2週間だった。先週の金曜日あたりから明らかに良くなってきて、今は復調。

長方形を回転する直線が横切る長さ

X線結晶回折法でのデータ収集では、固定されたビームに対して結晶を回転させてデータを収集していく。結晶は球形ではないので、回転につれてビームが結晶を貫通する長さが変化し、それに比例して回折強度が変化する。スケーリングでは、この強度変化をなめら…

Wilson 分布を確認していたら、「確率変数の和の小数部分の分布」やら「二次元ランダムウォークの成分の独立性」が問題となった

原子が単位格子中にランダムに散らばっているとしよう。i番目の原子の座標(fractional coordinate)を、原子散乱因子をとすると、結晶全体からの散乱は指数を h として、で表される。なお、この手の式ではいちいち書かないのが普通だが、 は指数 h に依存する…

確率変数の変数変換

以前もこの話題をやったが、手を動かしていろいろ実験した結果、前よりも腑に落ちた(感覚的にしっくりくるようになった)ので再度まとめ。まず、簡単な場合。[0, 2]の範囲の一様乱数 X がある。その密度関数は f(x) = 1/2、変域は[0, 2]である。Y = 2X と変数…

「君の存在は我々にとって何のプラスにもなっていない」

朝「改善傾向である」と書いたが、11時頃より不調である。突然追加されたタスクは半分ほど片付けたし、別にそれが誘引だと言うつもりはない。むしろ、調子に乗って余計なことを口に出してしまって、大いに後悔しているという感じか。周りの人がみな、精神的…

不意うち. 2

またタスクが追加された。それ自体はいいんだけど、こうやって締め切りの近い作業が次々と割り込んでくる状態で、理論的な仕事を両立させることが、私にはとても難しい。誤解してほしくないのは、確かにこのタスクは人によっては「雑用」に過ぎないかもしれ…

接続について

これはメモ。たぶん間違っているっていうか、言葉になってない:多様体上の計量テンソル? - biochem_fan's note の続き。昨日の勉強会で得たイメージ。多様体は局所座標の貼りあわせ。局所座標系自体は、基底を取り直して正規直交系にできる。だが、待てよ、…

諦める、いや逃げ出すことで精神安定を図ってきました

悪い phase が2週間目で改善傾向にあるのは間違いないが、万全には程遠い。直接的な焦燥感や不安感が薄まった代わりに、もっと複雑にごちゃごちゃしたものが蠢いている感じである。ただ、前者が弱まったために、面白い話を聞けば大笑いもできる、という意味…

多様体上の計量テンソル?

全然分かっていないので、どこで混乱してるかメモ:多様体は、局所座標系の貼りあわせということは分かった。で、局所座標系の基底を として、その内積を決めてあげる。それが計量テンソル。ってのはいいんだけど、基底を変換すれば正規直交系にできるよね? …

SAM 形式における、CIGAR コードとゲノム座標系・SEQ/QUALカラムの座標の対応

NGS

CIGAR コードの座標系と、ゲノム座標系と、SEQ/QUALカラムの座標の対応について。 CIGAR が M, D のとき、ゲノム座標が1つ進む CIGAR が M, I, S のとき、SEQ/QUALは1つ進む。S は soft clip であり、POSITION などでは無視されているが SEQ/QUAL は出力され…

不意うち

昨日はやや改善傾向が見られたのだが、突然「○○時から打ち合わせ」と決定し、その後しばらく動悸がひどかった。幸い打ち合わせは穏便に進み、理不尽な要求や急な仕事の割り当てもなく、その後はかえって気分改善していた。今朝、また打ち合わせのメールが来…

モデル構築・精密化の自動化

先日、数理統計を専門とする先生に結晶学におけるモデル構築と精密化の話をしたら、モデル構築に人間の介入が必要であることが「キモチワルイ」という感想だった。人間の介入が必要ということは、そこにバイアスが入るリスクがあるということであり、それが…

時系列データの相関

これはメモ:時系列データの相関を調べたい。例えば、A社とB社の株価の推移に相関があるか知りたい場合と、100社の株価と100社の○○-index (何か経営指標を想定)のデータがあって、株価と○○-index という二つの観測量に相関があるかを知りたいという場合がある…

当選確実

せっかく統計学を勉強しているので、当選確実の判定法について考えてみる。あえて検索はしない。 とりあえず有権者が N 人いて、候補者 A と B が争っているとしよう。一票でも多い方が当選。A の真の得票率は P で NP 票、B は N (1 - P) 票獲得しているの…

悪意を想定しない

土曜日の午前中は英語の試験を受けて、午後は調子が悪いなりに頑張って精密化をしていたが、夜になってついに破綻した(それが20日の記事)。反動で、日曜日は終日ぐったりしていた。何もしないでいると多少改善するが、問題を先送りしただけで何も解決してい…

authorship 争いとかそういう政治的なことは勝手にやってください

論文を出そうという段になるといつも authorship で揉める人たちをたくさん見てきた。自分自身が直接巻き込まれたことはないけれど、愚痴や陰口を聞かされたり、かなり厳しい口調のメールがCCされてきて精神にダメージを受けたことは多数である。持病が悪い…

精密化に疲れた

今精密化している構造は、solvent content が 70% 以上あって、packing が緩い部分もあり、分解能のわりに電子密度が汚い部分がある。そのせいか、直しても直しても、Ramachandran plot の favored が 95% くらいより改善しない。Molprobity で 98% 以上にし…

行列の読み方

多次元のデータを扱うことが多いせいか、統計や最適化の説明には、行列を使って書かれた式が多い。微分や積分や総和記号へのアレルギーはないつもりだが、行列がごちゃごちゃと出てくると、ついつい目を背けたくなってしまう。 その時に心がけていることをい…

今日の状態

水曜日・木曜日に比べると朝はいくぶん良かったが、11時過ぎから徐々に悪化してきた。今日はものを書こうという気が起きない。ガタガタした自動運転のような気分で、淡々と作業をしては手が止まることを繰り返している。

Ramachandran plot について

Ramachandran plot の outlier の基準は、PDB登録数が増えれば、それに応じて改訂されるべきものである。印象としては、Coot は厳しく、Molprobity は寛容、PROCHECK は中間。ccp4bb の2007年のこの発言によると、PROCHECKはオワコン、Molprobity を使ってお…

英語と漢語

文語的で、現代語からはほとんど絶滅してしまったような単語が、かえって英語のニュアンスを正確に反映していることがある。「孜孜として」(ししとして)ほど "diligently" という語にぴったりくる訳はないだろう。許す・赦す・宥す・恕すと、allow, permit, …

結晶学的 R factor と統計学におけるR^2

先日のラボ内勉強会で、決定係数 R^2 値(wikipedia)の話が出た。R^2 の定義は である。すなわち、モデルとデータの二乗残差をデータの分散で割って、1から引いたものである。結晶学におけるモデルとデータの適合度評価には、R factor(wikipedia) を用いる。…

価値観対立・利益相反

政治・宗教まで話を広げなくとも、大学の研究1つをとっても、価値観や利害は対立している。いずれ詳しく述べたいと思うが、実験系 wet の研究者と解析 dry の研究者では価値観が異なる。dry の研究者の中にも、実務的な仕事を好むものもいれば、理論構築を好…

気分の定量化

本日も気分優れず。万事、剣呑な感じがする。統計学を趣味とする後輩に気分が2-3週間の周期で変動するという話をしたら、日々の気分を定量化して、時系列分析を行ったら有用ではないかと言われた。彼に言われるまでもなく、以前この試みを実行に移そうとした…

少ない大きな違いに注意

平均や分散やRMSD(Root Mean Square Deviation)といった量は、要素ごとに何かを合計したものを最後に要素数で割ることで計算する。したがって、大きく異なる要素が数個あっても、全体数が多ければ、その影響は覆い隠されてしまう。何をもって「異なる」とい…

cartoon 表示でリボンを細くしてすっきりさせる

可視化のポイントは、余計なものをいかに省いて要点だけを際立たせるかである。類縁の蛋白質の構造を重ねて比べた図はよく論文で見かけるが、PyMOL のデフォルト設定のままでは cartoon 表示の帯が太すぎて奥の部分を隠してしまい、全体像がつかみにくくなっ…

情報幾何の気持ち

これはメモ。たぶん間違いを含んでいる:確率分布(=関数)を一つの点として考える。例えば一次元の正規分布を考えると、平均とSDという二つのパラメータがあるので、その全体は二次元空間に分布している。 標本分布がある。ノイズとかがあるので、標本分布の全…

「数学好き・競技プログラミング好き」な人たちと、ちょっと違うところ

生粋の数学好きとか競技プログラミングに明け暮れている人たちは、「自分で考えること」が好きなんだなあと思う。類型的に言うと、数学セミナーとかに載っている問題を何日でも楽しんで考え続けられる人のイメージがある。一方、今の私は、数学も競技プログ…