2012-04-14から1日間の記事一覧
すべてのファイルはここからダウンロードできます。https://gist.github.com/gists/2383972/download何かの元データを使って次のファイルを作ってください。 自分は夏目漱石の『坊ちゃん』(青空文庫)を使いました。(1)形態素の連鎖と頻度を記録したファ…
まず読み込んだファイルを先のファイルを使って形態素に分割する。 (漢字ーひらがなーかたかなの字種を使って判別) 読み込んだ「形態素どうしの2-gram」をとる。 (以前やった2-gramのコードを改良。以前の2-gramは「文字」を利用していた) #! /usr/bin/e…
形態素の辞書は「坊ちゃん」のテキストを字種から判別した #! /usr/bin/env python # -*- coding: utf-8 -*- import random #filename = raw_input("辞書ファイルを入力:") filename = "dict_trimmed_bocchan.txt" f = open(filename) noun = ['私','彼','…
まずは簡単な次の書き換え規則を考える。 (書き換え規則A) (1) 文→ (2) →は (3) → #! /usr/bin/env python # -*- coding: utf-8 -*- import random noun = ['私','彼','彼女'] verb = ['歩く','走る','泳ぐ','寝る'] adj = ['赤い','青い'] adjv = ['静か…
次の規則のもとに判定する。 漢字だけの並び→名詞 漢字の並びにひらがな「い」が後続する→形容詞 漢字の並びにひらがな「う」が後続する→動詞 漢字の並びにひらがな「だ」が後続する→形容動詞main.py #! /usr/bin/env python # -*- coding: utf-8 -*- import…
まず、文を漢字、カタカナ、ひらがなのまとまりに分離するプログラムを書く。(連続する2文字の字種が違う場合、改行記号を出力)(例) 人工知能のプログラムを書きます。 を、 人工知能 の プログラム を 書 きます 。 としたい。aparser.py #! /usr/bin/…
文字コードでまたはまった。 input = raw_input(u"判定したい文字を入力してください。").decode("utf-8") #! /usr/bin/env python # -*- coding: utf-8 -*- import re kanj = re.compile(ur'^[一-龥]*$') hira = re.compile(ur'^[あ-ん]*$') kata = r…