たとえばhttp://www2.obirin.ac.jp/okuno/CA1.htmlから
http://www2.obirin.ac.jp/okuno/CA30.htmlまで取得したいとする。
(インデックスは1から30)
通し番号を少しいじって1-30を, 001.htmlから030.htmlにする。
→こうしとくとPDFにまとめたいときに便利。
指定するのは、
・baseurl: この場合は"http://www2.obirin.ac.jp/okuno/CA"
・start: 1
・end: 30
・.html or .html: 拡張子。デフォルトは指定してないので.pngとかでもいい。
geturlseries.py
import os def download(baseurl): for i in range(int(start),int(end)+1): url = baseurl+str(i)+ext if i < 10: filename = "00"+str(i)+ext elif i < 100: filename = "0"+str(i)+ext else: filename = str(i)+ext command = "curl -o download/"+filename+" "+url print command os.system(command) def mkdir(): try: os.system("rm -rf download") os.system("mkdir download") except: pass if __name__=="__main__": baseurl = raw_input("base url?: ") start = raw_input("start number? (maybe 1?): ") end = raw_input("end number?: ") ext = raw_input(".html or .htm?: ") if baseurl=="" or start=="" or end=="": print "Input valid number." exit(-1) mkdir() download(baseurl)