NLPでのコモンセンス

自然言語処理を勉強し始めたときは疑問に思っていたけど、最近忘れていた視点。
研究会での指摘を聞いて思い出した。

素性(feature)には単語の頻度を用いる。逆に言うと、単語の頻度以外の情報(意味的な重みづけとか)は切り落としている。
このような単語のベクトル表現方法をbag-of-wordsという。(単語の語順などの情報を切り離してバラバラに袋に入れた状態)
今日の単語のベクトル表現法はほぼbag-of-wordsとその変種である。