通し番号のURLを取得するスクリプト

たとえばhttp://www2.obirin.ac.jp/okuno/CA1.htmlから
http://www2.obirin.ac.jp/okuno/CA30.htmlまで取得したいとする。
(インデックスは1から30)
通し番号を少しいじって1-30を, 001.htmlから030.htmlにする。
→こうしとくとPDFにまとめたいときに便利。

指定するのは、
・baseurl: この場合は"http://www2.obirin.ac.jp/okuno/CA"
・start: 1
・end: 30
・.html or .html: 拡張子。デフォルトは指定してないので.pngとかでもいい。

wgetよりcurlの方が速い?

geturlseries.py

import os

def download(baseurl):
    for i in range(int(start),int(end)+1):
        url = baseurl+str(i)+ext
        if i < 10:
            filename = "00"+str(i)+ext
        elif i < 100:
            filename = "0"+str(i)+ext
        else:
            filename = str(i)+ext
        command  = "curl -o download/"+filename+" "+url
        print command
        os.system(command)


def mkdir():
    try:
        os.system("rm -rf download")
        os.system("mkdir download")
    except:
        pass

if __name__=="__main__":
    baseurl = raw_input("base url?: ")
    start = raw_input("start number? (maybe 1?): ")
    end = raw_input("end number?: ")
    ext = raw_input(".html or .htm?: ")
    if baseurl=="" or start=="" or end=="":
        print "Input valid number."
        exit(-1)
    
    mkdir()
    download(baseurl)