關於python也是在看教程和書以及視頻學習,純種小白(哈士奇的那種)html
加個代理ip,也能夠不加直接使用本身的ip地址
代理ip -> '123.116.129.176'
西刺代理python
菜鳥教程的re模塊express
更加詳細的用法百度能夠找到不少,我就不一一的列出來了
這裏有個坑,第一個匹配出來的url地址不對,緣由是網頁中有個非列表標籤內的竟然和正則開始的匹配(列表標籤)是一致的
部分代碼瀏覽器
# 建立workbook和sheet對象 workbook = xlwt.Workbook() # excel 底部 sheet1 # 覆蓋單元格 sheet1 = workbook.add_sheet('統計', cell_overwrite_ok=True) ... for i in content: # 在第 row + 1 行第 1 列寫入序號 sheet1.write(row + 1, 0, row + 1, style) # 在第 row + 1 行第 2 列寫入出版社_url sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style) # 在第 row + 1 行第 3 列寫入LOGO_url sheet1.write(row + 1, 2, i[1], style) # 在第 row + 1 行第 4 列寫入出版社名稱 sheet1.write(row + 1, 3, i[2], style) # 在第 row + 1 行第 5 列寫入在售數量 sheet1.write(row + 1, 4, int(i[3]), style) # 對在售數量求和 sum += int(i[3]) row += 1
時間模塊的用法
獲取當前時間並格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
須要注意,這裏寫個判斷語句要等到基礎數據都寫入完畢以後在進行求和運算並寫入ide