ブログの記事のTF-IDFを計算する

自然言語処理

get.py #!/usr/bin/env python #-*- coding:utf-8 -*- import re import urllib2 from bs4 import BeautifulSoup, NavigableString, Declaration, Comment import MySQLdb array = [] baseurl = "http://shoheiaoki.com/" sub = ["2012/08/page/2/","2012/08…

2011-12-21

機械学習、自然言語処理の教科書など

機械学習自然言語処理

これとこれは読んでなかった情報検索と言語処理応用のための確率論入門 CRFって何だと思ったらConditional Random Field：条件付き確率場のことだった。自然言語処理ではFSNLPが絶賛されてる。 http://d.hatena.ne.jp/echizen_tm/20111103/1320321200ベク…

2011-12-20

NLPでのコモンセンス

自然言語処理

自然言語処理を勉強し始めたときは疑問に思っていたけど、最近忘れていた視点。研究会での指摘を聞いて思い出した。素性(feature)には単語の頻度を用いる。逆に言うと、単語の頻度以外の情報（意味的な重みづけとか）は切り落としている。このような単語の…

2011-12-18

言語学に関するメモ

自然言語処理

単語の分類とタグ付け品詞：parts of speech（POS）（単語クラス：word classes, 語彙範疇：lexical categories）とは（理論言語学の分類）音韻論：phonology 形態論：morphology 統語論：syntax 意味論：semantics 語彙論：lexicology 語用論：pragmatics…

2011-12-14

オートマトン・言語理論

自然言語処理

形式言語の勉強。『オートマトン・言語理論』（富田・横森）を読む。言語の定義：集合Σ：文を構成するための最小単位要素の領域 Σ={a1,a2,...,am}を重複を許して有限個並べて得られるwをΣ上の記号列(string)あるいは系列(sequence)という。 Σ上のスター閉…

2011-12-13

『確率的言語モデル』北研二を読む

自然言語処理

言語と計算 (4) 確率的言語モデル東京大学出版会を読む。１．序章条件付き確率、確率分布、ジェンセンの不等式（凸関数と期待値に関する不等式）、情報理論（エントロピー）、言語理論（言語・オートマトン・文法）言語理論について２．言語モデルの基礎 …

2011-10-31

NLTKの勉強

Python 自然言語処理

Natural Language Processing with Pythonを読みつつ雑多な情報を記していきます。 __future__ について P.9の from __future__ import division がわからない。 http://www.python.jp/doc/2.5/ref/future.html 正誤表について正誤表はここにある。 http://…

2011-08-29

wikipediaの各記事における重要な語を抜き出す

自然言語処理 Python プログラミング

wikipediaのある記事に対して、その記事を特徴付けるような語を抽出したい。まずは、単純にTF（term-frequency:単語の出現頻度）を用いた方法。まず、事前準備として解析対象となる記事を取得する。（記事を指定する場合） http://en.wikipedia.org/wiki/S…