從網頁獲取數據

有的網站會提供一個爬蟲協議文件robots.txt 例如豆瓣的爬蟲協議:https://www.douban.com/robots.txt 這裏我們要對《小王子》的豆瓣評論進行抓取,需要用到的是subject這個目錄,在豆瓣網頁的爬蟲協議中,並沒有禁止這項操作。 200表示一切正常 抓取源代碼: 注: 1、響應內容是二進制,要用r.content 來解碼(比如抓取圖片時,生成的數據是二進制碼) 2
相關文章
相關標籤/搜索