パラメータ推定法 - how to code something

準備その１

i.i.dの仮定：independency, identically distributed = 独立に同一の確率分布に従う
つまり、確率変数XのサンプルデータD={...xi...}の生成確率が次のように書ける。
$P(D) = \Pi _{{x_i} \in D} p(x^{(i)})$
・独立なので積に分解できる
・同一の確率分布に従うので１種類の確率関数p(x)で書ける

準備その２

データの生成確率P(D)を尤度と呼ぶ。
対数尤度log P(D)をしばしば用いる。
（補足）尤度関数とは、ある条件付き確率の因果を逆転して考えるもの。
条件付き確率 $P(A|B=b)$ はある入力bが与えられた時にAを出力する関数（確率密度関数）とみなすことができるが、逆にAが起こると仮定したときにパラメータb（変数）がどの程度の割合でもっともらしいかという事実を示す用途で用いることができる。ただし、尤度関数は確率密度関数の性質（全区間で積分＝１）を必ずしも満たさない。

パラメータ推定法

最尤推定
対数尤度log P(D)を最大化するようにパラメータを決定する方法。
できる限りデータにフィットさせる方法、ということもできる、

（例題）
P氏がgood,bad,boring,excitingのいずれかを、それぞれ確率 $p_{good}, p_{bad}, p_{boring}, p_{exciting}$ で発する。
ここで $p_{good} + p_{bad} + p_{boring} + p_{exciting} = 1$ である。
P氏が発した単語のデータをD(i.i.dを満たす。またN個のトークンから成る→つまりデータサイズはN)とし、nを各単語の発せられた個数とすると、 $N=n_{good} + n_{bad} + n_{boring} + n_{exciting}$ である。
このとき、 $p_{good}, p_{bad}, p_{boring}, p_{exciting}$ を最尤推定で求めよ。
※普通に考えると、 $p_{good} = n_{good} / N$ である。（数学的にこれがなぜダメなのかを後で説明する）

（解答）
対数尤度 $log P(w)$ は、 $\sum_w n_w log p_w$ である。和はw={good,bad,exciting,boring}についてとる。
対数尤度を最大化したいので、パラメータ $p_w$ で微分すると、
$\frac{\partial log P(D)}{\partial p_w} = \frac{n_w}{p_w}$
これをゼロとおくと、

MAP（最大事後確率推定）推定