NLTKの勉強

Natural Language Processing with Pythonを読みつつ雑多な情報を記していきます。


__future__ について

P.9の

from __future__ import division

がわからない。
http://www.python.jp/doc/2.5/ref/future.html


正誤表について

正誤表はここにある。
http://oreilly.com/catalog/errata.csp?isbn=9780596516499


python独特の記法(リスト内包表記)

 \{w | w \in V & P(w) \}
Pythonでは

[w for w in V if p(w)]

と書く。


コロケーションについて

コロケーションとは、頻繁に出現するバイグラムのこと。
NLTKのcollocations()関数では、バイグラムの出現頻度が、その個々の単語の出現頻度から期待される出現頻度よりも大きいものを抽出する。


正規表現

"+","*" をクリーネ閉包あるいは閉包と呼ぶ。