自然言語処理

ブログの記事のTF-IDFを計算する

get.py #!/usr/bin/env python #-*- coding:utf-8 -*- import re import urllib2 from bs4 import BeautifulSoup, NavigableString, Declaration, Comment import MySQLdb array = [] baseurl = "http://shoheiaoki.com/" sub = ["2012/08/page/2/","2012/08…

機械学習、自然言語処理の教科書など

これとこれは読んでなかった 情報検索と言語処理 応用のための確率論入門 CRFって何だと思ったらConditional Random Field:条件付き確率場のことだった。自然言語処理ではFSNLPが絶賛されてる。 http://d.hatena.ne.jp/echizen_tm/20111103/1320321200ベク…

NLPでのコモンセンス

自然言語処理を勉強し始めたときは疑問に思っていたけど、最近忘れていた視点。 研究会での指摘を聞いて思い出した。素性(feature)には単語の頻度を用いる。逆に言うと、単語の頻度以外の情報(意味的な重みづけとか)は切り落としている。 このような単語の…

言語学に関するメモ

単語の分類とタグ付け 品詞:parts of speech(POS)(単語クラス:word classes, 語彙範疇:lexical categories)とは(理論言語学の分類) 音韻論:phonology 形態論:morphology 統語論:syntax 意味論:semantics 語彙論:lexicology 語用論:pragmatics…

オートマトン・言語理論

形式言語の勉強。 『オートマトン・言語理論』(富田・横森)を読む。 言語の定義: 集合Σ:文を構成するための最小単位要素の領域 Σ={a1,a2,...,am}を重複を許して有限個並べて得られるwをΣ上の記号列(string)あるいは系列(sequence)という。 Σ上のスター閉…

『確率的言語モデル』北研二 を読む

言語と計算 (4) 確率的言語モデル 東京大学出版会を読む。1.序章 条件付き確率、確率分布、ジェンセンの不等式(凸関数と期待値に関する不等式)、情報理論(エントロピー)、言語理論(言語・オートマトン・文法) 言語理論について2.言語モデルの基礎 …

NLTKの勉強

Natural Language Processing with Pythonを読みつつ雑多な情報を記していきます。 __future__ について P.9の from __future__ import division がわからない。 http://www.python.jp/doc/2.5/ref/future.html 正誤表について 正誤表はここにある。 http://…

wikipediaの各記事における重要な語を抜き出す

wikipediaのある記事に対して、その記事を特徴付けるような語を抽出したい。 まずは、単純にTF(term-frequency:単語の出現頻度)を用いた方法。 まず、事前準備として解析対象となる記事を取得する。(記事を指定する場合) http://en.wikipedia.org/wiki/S…