情報幾何の気持ち

これはメモ。たぶん間違いを含んでいる:

確率分布(=関数)を一つの点として考える。例えば一次元の正規分布を考えると、平均とSDという二つのパラメータがあるので、その全体は二次元空間に分布している。
標本分布がある。ノイズとかがあるので、標本分布の全体は、上の空間よりも広い。パラメータの推定は、観測した標本分布(=1点)からモデルとして考えている分布の集合の中で、"ベスト"なもの(=1点)を選んでくること。
これを幾何的に考えるらしい。

パラメータをいろいろ変えた時にモデルが実現しうる分布は、ある集合を作るけれど、そこに計量(Fisher 情報行列を使うとおいしいらしい→なんで?)とか座標系とかをいれて、リーマン多様体とかにしてどうこうしようとするらしい。

ここまではなんとなく分かった。「接続」を理解するまでに一山ありそう。