ナイーブベイズ分類器(Naive Bayes Classifier)
ベイズの定理より、クラスcに分類する確率を次のような最大化問題で解く。
つまり
dは文書であるので、単語の種類数とその組合せを考えると起こりうるdは膨大である。
あらゆるdについてそれぞれがデータ空間Dの中で何回起こるかを調べ、P(d|c)を最尤推定することは非現実的である。
ナイーブベイズ分類器では、文書dに簡単化したモデルを仮定してP(d|c)の値を求める。
クラスcとは、例えばニュース記事dの集合Dにおけるトピック("政治"、"スポーツ")などである。
多変数ベルヌーイモデル
語彙V(単語wの集合)に含まれるwとcについて、ベルヌーイ分布に従う確率変数を考える。
この確率変数は、ある単語wがcに分類されるときX_{w,c}=1,それ以外の時ゼロとなる2値の確率変数である。
さて、このとき扱う尤度は
logP(D)
多項モデル