rec_log_train.txtの行数を数えてみた。
約7300万行ある。
これを20分の1ずつ(よく見たら21分の1ずつになってた)trainデータとtestデータに分割する。
#! /usr/bin/env python # -*- coding: utf-8 -*- import random file = open("rec_log_train.txt") ftrain = open("train.txt","w") ftest = open("test.txt","w") for line in file: num = random.randint(0,20) if num == 1: ftrain.write(line) elif num == 2: ftest.write(line)