与えられたデータをtrainデータとtestデータに分割する

rec_log_train.txtの行数を数えてみた。

約7300万行ある。
これを20分の1ずつ(よく見たら21分の1ずつになってた)trainデータとtestデータに分割する。

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import random

file = open("rec_log_train.txt")
ftrain = open("train.txt","w") 
ftest = open("test.txt","w")

for line in file:
    num = random.randint(0,20)
    if  num == 1:
	ftrain.write(line)
    elif num == 2:
	ftest.write(line)