使用工具:Python2.7 點我下載python
scrapy框架編程
sublime text3框架
一。搭建python(Windows版本)python2.7
1.安裝python2.7 ---而後在cmd當中輸入python,界面以下則安裝成功scrapy
2.集成Scrapy框架----輸入命令行:pip install Scrapy函數
安裝成功界面以下:工具
失敗的狀況不少,舉例一種:網站
解決方案:ui
其他錯誤可百度搜索。url
二。開始編程。
爬取無反爬蟲措施的靜態網站。例如百度貼吧,豆瓣讀書。
例如-《桌面吧》的一個帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009
python代碼以下:
代碼註釋:引入了兩個模塊urllib,re。定義兩個函數,第一個函數是獲取整個目標網頁數據,第二個函數是在目標網頁中獲取目標圖片,遍歷網頁,而且給獲取的圖片按照0開始排序。
注:re模塊知識點:
爬取圖片效果圖:
圖片保存路徑默認在創建的.py同目錄文件下。
2.爬取有反爬蟲措施的百度圖片。如百度圖片等。
例如關鍵字搜索「表情包」https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
圖片採用滾動式加載,先爬取最優先的30張。
代碼以下:
代碼註釋:導入4個模塊,os模塊用於指定保存路徑。前兩個函數同上。第三個函數使用了if語句,並tryException異常。
爬取過程以下:
爬取結果:
注:編寫python代碼注重對齊,and不能混用Tab和空格,易報錯。
copyriht by WC-cong