Python: webページ上のリンク先htmlをダウンロード - Fuwafuwa's memorandum

Fuwafuwa's memorandum

Data analysis, development, reading, daily feeling.
MENU

Python: webページ上のリンク先htmlをダウンロード

webページ上のリンク先htmlをダウンロードする。
クローリングの際の時間はどの程度が常識なのかいまいちわからなかったので
人間がやる時くらいの時間幅をもたせました。

from bs4 import BeautifulSoup
from urllib.request import *
from urllib.parse import * 
import os.path, time, re


def download_file(url,savepath):
    savepath = savepath
    try:
        print("download=",url)
        urlretrieve(url,savepath)
        time.sleep(10)
        print("ダウンロード成功")
        return savepath
    except:
        print("ダウンロード失敗",url)
        return None

base = "http://www.xxxxx.com/" ##リンク先は短縮されている場合もあるためbaseとなるhtmlを用意する

url = "xxxxx.webarchive"
res = urlopen(url)
soup = BeautifulSoup(res, "html.parser")

lists = soup.find_all("a")

for list in lists:
    href = list.attrs['href']
    text = list.string
    url = urljoin(base,href)
    download_file(url,savepath+text+'.html')
参考
Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみようPythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう
クジラ飛行机

ソシム 2016-12-06
売り上げランキング : 11855

Amazonで詳しく見る
by G-Tools

Leave a reply






管理者にだけ表示を許可する

該当の記事は見つかりませんでした。