使用爬蟲遇到的一些問題

本博客會記錄博主在使用爬蟲過程當中遇到的問題,不斷更新,但願之後再遇到這些問題的時候,能夠快速解決。html

一、在爬取和訊博客的時候發現閱讀數和評論數沒法正常讀取。經過抓包工具抓取到了閱讀數和評論數的URL,可是複製到瀏覽器上打開發現一片空白。在抓包工具Raw裏發現,有一項Refere,後面將此項加到headers信息裏,數據能夠正常顯示出來了。代碼以下:瀏覽器

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

這次難點在於不熟悉urllib庫是如何添加更多的請求信息到heagers裏,在以上代碼中,data裏還能夠添加更加多的請求,好比cookie等信息,記錄這次代碼的目的在於熟悉urllib.request.Reques的用法cookie

相關文章
相關標籤/搜索