2012-04-14から1日間の記事一覧

人工知能と会話するプログラム(形態素のマルコフ連鎖を利用)

すべてのファイルはここからダウンロードできます。https://gist.github.com/gists/2383972/download何かの元データを使って次のファイルを作ってください。 自分は夏目漱石の『坊ちゃん』(青空文庫)を使いました。(1)形態素の連鎖と頻度を記録したファ…

形態素のマルコフ連鎖を取得する

まず読み込んだファイルを先のファイルを使って形態素に分割する。 (漢字ーひらがなーかたかなの字種を使って判別) 読み込んだ「形態素どうしの2-gram」をとる。 (以前やった2-gramのコードを改良。以前の2-gramは「文字」を利用していた) #! /usr/bin/e…

字種から作った形態素辞書と書き換え規則を使った文章の生成

形態素の辞書は「坊ちゃん」のテキストを字種から判別した #! /usr/bin/env python # -*- coding: utf-8 -*- import random #filename = raw_input("辞書ファイルを入力:") filename = "dict_trimmed_bocchan.txt" f = open(filename) noun = ['私','彼','…

書き換え規則の利用

まずは簡単な次の書き換え規則を考える。 (書き換え規則A) (1) 文→ (2) →は (3) → #! /usr/bin/env python # -*- coding: utf-8 -*- import random noun = ['私','彼','彼女'] verb = ['歩く','走る','泳ぐ','寝る'] adj = ['赤い','青い'] adjv = ['静か…

字種を利用した名詞、動詞、形容詞、形容動詞の判定

次の規則のもとに判定する。 漢字だけの並び→名詞 漢字の並びにひらがな「い」が後続する→形容詞 漢字の並びにひらがな「う」が後続する→動詞 漢字の並びにひらがな「だ」が後続する→形容動詞main.py #! /usr/bin/env python # -*- coding: utf-8 -*- import…

字種による形態素の切り出しプログラム(辞書を用いない)

まず、文を漢字、カタカナ、ひらがなのまとまりに分離するプログラムを書く。(連続する2文字の字種が違う場合、改行記号を出力)(例) 人工知能のプログラムを書きます。 を、 人工知能 の プログラム を 書 きます 。 としたい。aparser.py #! /usr/bin/…

入力された文字(一文字)の漢字orひらがなorカタカナを判定するコード

文字コードでまたはまった。 input = raw_input(u"判定したい文字を入力してください。").decode("utf-8") #! /usr/bin/env python # -*- coding: utf-8 -*- import re kanj = re.compile(ur'^[一-龥]*$') hira = re.compile(ur'^[あ-ん]*$') kata = r…