python爬取豆瓣新書清單

時間 2019-11-06

原文原文鏈接

使用python3的requests庫快速獲取豆瓣圖書推薦的新書清單，並保存書籍信息和圖書縮略圖圖片到本地

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author:Aiker Zhao
@file:douban3.py
@time:上午10:34
"""
import json
import os
import re
from multiprocessing import Pool
import requests
from requests.exceptions import RequestException

dir = 'z:\\douban\\'

def get_web(url):
    try:
        rq = requests.get(url)
        if rq.status_code == 200:
            return rq.text
        return None
    except RequestException:
        return None

def parse_web(html):
    pattern = re.compile('<li\sclass="">.*?cover".*?href="(.*?)"\stitle="(.*?)".*?img\***c="(.*?)"' +
                         '.*?class="author">(.*?)<.*?year">(.*?)<.*?publisher">(.*?)<.*?</li>', re.S)
    results = re.findall(pattern, html)
    # print(results)
    for i in results:
        # url, title, img, author, yeah, publisher = i
        # author = re.sub('\s', '', author)
        # yeah = re.sub('\s', '', yeah)
        # publisher = re.sub('\s', '', publisher)
        # print(url, title, img, author, yeah, publisher)
        yield {
            'title': i[1],
            'url': i[0],
            'img': i[2],
            'author': i[3].strip(),
            'yeah': i[4].strip(),
            'publisher': i[5].strip()
        }
        # print(url, title, img, author, yeah, publisher)
        # return img,title

def save_image(title, img):
    images = dir + title + '.jpg'
    if os.path.exists(images):
        pass
    else:
        with open(images, 'wb') as f:
            f.write(requests.get(img).content)
            f.close()

def save_info(content):
    info = dir + 'info.txt'
    with open(info, 'a', encoding='utf-8') as fd: #防止出現ascII
        fd.write(json.dumps(content, ensure_ascii=False) + '\n') ##防止出現ascII
        fd.close()

def main():
    url = 'https://book.douban.com/'
    html = get_web(url)
    # parse_web(html)
    for i in parse_web(html):
        print(i)
        save_info(i)
        save_image(i.get('title'), i.get('img'))

if __name__ == '__main__':
    main()

心得：
- 須要注意正則的匹配規則的準確度，不然會沒有響應，或者無限超時

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。