python3下scrapy爬蟲(第二卷:初步抓取網頁內容之直接抓取網頁）

時間 2019-11-30

標籤 python3 python scrapy 爬蟲第二初步抓取網頁內容直接欄目 Python 简体版

原文原文鏈接

上一卷中介紹了安裝過程，如今咱們開始使用這個神奇的框架cookie

跟不少博主同樣我也先選擇一個很是好爬取的網站做爲最初案例，那麼我先用屌絲必備網站http://www.shaimn.com/xinggan/做爲這一卷的案例，不用想有圖，有字框架

第一步：scrapy

建立爬蟲文件：網站

如今切換到scrapy_test的根目錄下：日誌

咱們如今建立了爬蟲文件，這個網頁正常狀況下就能夠直接抓取，不像糗事啊，天貓啊須要到SETTING裏去設置對抗ROBOT cookie user-AGENT這樣的反爬手段視頻

如今開始建立代碼blog

如今在終端切換到爬蟲文件的目錄中圖片

執行命令：test

scrapy crawl crawler1 --nolog音頻

--nolog是爲了隱藏日誌文件時我添加的命令語句，由於這個網頁過於簡單，因此爲了方便數據的展現，我加了這句語句，可是若是抓取複雜的網站時我建議添加，一旦出問題能夠立馬發現問題的所在：

如今看下結果：

這樣這個網頁就爬了下來，可是數據內容不精準，我相信沒有人會把別讓人的全部網頁代碼拿來用，要用的是其中的數據，圖片，視頻，音頻等內容

相關標籤/搜索