Python爬蟲_爬取豆瓣閱讀提供方列表並寫入excel文件中

時間 2019-12-04

標籤 python 爬蟲豆瓣閱讀供方列表寫入 excel 文件欄目 Python 简体版

原文原文鏈接

爬取豆瓣閱讀提供方

代碼中會有詳細的註釋

關於python也是在看教程和書以及視頻學習，純種小白(哈士奇的那種)html

用到的庫

urllib -> 爬蟲庫
re -> 正則模塊
xlwt -> excel寫模塊
time -> 時間模塊

urllib庫假裝瀏覽器的固定寫法(也能夠再加)

加個代理ip，也能夠不加直接使用本身的ip地址
代理ip -> '123.116.129.176'

西刺代理python

經過正則獲取內容

菜鳥教程的re模塊express

更加詳細的用法百度能夠找到不少，我就不一一的列出來了
這裏有個坑，第一個匹配出來的url地址不對，緣由是網頁中有個非列表標籤內的竟然和正則開始的匹配(列表標籤)是一致的

寫入excel的操做

部分代碼瀏覽器

# 建立workbook和sheet對象
workbook = xlwt.Workbook()
# excel 底部 sheet1
# 覆蓋單元格
sheet1 = workbook.add_sheet('統計', cell_overwrite_ok=True)
...
for i in content:
  # 在第 row + 1 行第 1 列寫入序號
  sheet1.write(row + 1, 0, row + 1, style)
  # 在第 row + 1 行第 2 列寫入出版社_url
  sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style)
  # 在第 row + 1 行第 3 列寫入LOGO_url
  sheet1.write(row + 1, 2, i[1], style)
  # 在第 row + 1 行第 4 列寫入出版社名稱
  sheet1.write(row + 1, 3, i[2], style)
  # 在第 row + 1 行第 5 列寫入在售數量
  sheet1.write(row + 1, 4, int(i[3]), style)
  # 對在售數量求和
  sum += int(i[3])
  row += 1