從網頁獲取數據

時間 2021-01-08

原文原文鏈接

有的網站會提供一個爬蟲協議文件robots.txt 例如豆瓣的爬蟲協議：https://www.douban.com/robots.txt 這裏我們要對《小王子》的豆瓣評論進行抓取，需要用到的是subject這個目錄，在豆瓣網頁的爬蟲協議中，並沒有禁止這項操作。 200表示一切正常抓取源代碼：注： 1、響應內容是二進制，要用r.content 來解碼（比如抓取圖片時，生成的數據是二進制碼） 2

>>阅读原文<<