python3下scrapy爬蟲(第二卷:初步抓取網頁內容之直接抓取網頁)

上一卷中介紹了安裝過程,如今咱們開始使用這個神奇的框架cookie

跟不少博主同樣我也先選擇一個很是好爬取的網站做爲最初案例,那麼我先用屌絲必備網站http://www.shaimn.com/xinggan/做爲這一卷的案例,不用想有圖,有字框架

第一步:scrapy

建立爬蟲文件:網站

如今切換到scrapy_test的根目錄下:日誌

咱們如今建立了爬蟲文件,這個網頁正常狀況下就能夠直接抓取,不像糗事啊,天貓啊須要到SETTING裏去設置對抗ROBOT cookie user-AGENT這樣的反爬手段視頻

如今開始建立代碼blog

如今在終端切換到爬蟲文件的目錄中圖片

執行命令:test

scrapy crawl crawler1 --nolog音頻

--nolog是爲了隱藏日誌文件時我添加的命令語句,由於這個網頁過於簡單,因此爲了方便數據的展現,我加了這句語句,可是若是抓取複雜的網站時我建議添加,一旦出問題能夠立馬發現問題的所在:

如今看下結果:

 

 這樣這個網頁就爬了下來,可是數據內容不精準,我相信沒有人會把別讓人的全部網頁代碼拿來用,要用的是其中的數據,圖片,視頻,音頻等內容

相關文章
相關標籤/搜索