Python爬蟲：經過關鍵字爬取百度圖片

時間 2019-11-11

標籤 python 爬蟲經過關鍵字百度圖片欄目 Python 简体版

原文原文鏈接

使用工具：Python2.7 點我下載python

scrapy框架編程

sublime text3框架

一。搭建python（Windows版本）python2.7

1.安裝python2.7 ---而後在cmd當中輸入python，界面以下則安裝成功scrapy

2.集成Scrapy框架----輸入命令行：pip install Scrapy函數

安裝成功界面以下：工具

失敗的狀況不少，舉例一種：網站

解決方案：ui

其他錯誤可百度搜索。url

二。開始編程。

爬取無反爬蟲措施的靜態網站。例如百度貼吧，豆瓣讀書。

例如-《桌面吧》的一個帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python代碼以下：

代碼註釋：引入了兩個模塊urllib,re。定義兩個函數，第一個函數是獲取整個目標網頁數據，第二個函數是在目標網頁中獲取目標圖片，遍歷網頁，而且給獲取的圖片按照0開始排序。

注：re模塊知識點:

爬取圖片效果圖：

圖片保存路徑默認在創建的.py同目錄文件下。

2.爬取有反爬蟲措施的百度圖片。如百度圖片等。

例如關鍵字搜索「表情包」https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

圖片採用滾動式加載，先爬取最優先的30張。

代碼以下：

代碼註釋：導入4個模塊，os模塊用於指定保存路徑。前兩個函數同上。第三個函數使用了if語句，並tryException異常。

爬取過程以下：

爬取結果：

注：編寫python代碼注重對齊，and不能混用Tab和空格，易報錯。

copyriht by WC-cong

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。