ナイーブベイズ分類器

ナイーブベイズ分類器(Naive Bayes Classifier)
ベイズの定理より、クラスcに分類する確率を次のような最大化問題で解く。

 c_{max} = arg max_c \frac{P(c)P(d|c)}{P(d)}
つまり
 c_max = arg max_c P(c)P(d|c)
dは文書であるので、単語の種類数とその組合せを考えると起こりうるdは膨大である。
あらゆるdについてそれぞれがデータ空間Dの中で何回起こるかを調べ、P(d|c)を最尤推定することは非現実的である。
ナイーブベイズ分類器では、文書dに簡単化したモデルを仮定してP(d|c)の値を求める。
クラスcとは、例えばニュース記事dの集合Dにおけるトピック("政治"、"スポーツ")などである。
多変数ベルヌーイモデル
語彙V(単語wの集合)に含まれるwとcについて、ベルヌーイ分布に従う確率変数 X_{w,c}を考える。
この確率変数は、ある単語wがcに分類されるときX_{w,c}=1,それ以外の時ゼロとなる2値の確率変数である。
さて、このとき扱う尤度は

logP(D)


多項モデル