上一卷中介紹了安裝過程,如今咱們開始使用這個神奇的框架cookie
跟不少博主同樣我也先選擇一個很是好爬取的網站做爲最初案例,那麼我先用屌絲必備網站http://www.shaimn.com/xinggan/做爲這一卷的案例,不用想有圖,有字框架
第一步:scrapy
建立爬蟲文件:網站
如今切換到scrapy_test的根目錄下:日誌
咱們如今建立了爬蟲文件,這個網頁正常狀況下就能夠直接抓取,不像糗事啊,天貓啊須要到SETTING裏去設置對抗ROBOT cookie user-AGENT這樣的反爬手段視頻
如今開始建立代碼blog
如今在終端切換到爬蟲文件的目錄中圖片
執行命令:test
scrapy crawl crawler1 --nolog音頻
--nolog是爲了隱藏日誌文件時我添加的命令語句,由於這個網頁過於簡單,因此爲了方便數據的展現,我加了這句語句,可是若是抓取複雜的網站時我建議添加,一旦出問題能夠立馬發現問題的所在:
如今看下結果:
這樣這個網頁就爬了下來,可是數據內容不精準,我相信沒有人會把別讓人的全部網頁代碼拿來用,要用的是其中的數據,圖片,視頻,音頻等內容