手把手教你用Python爬蟲煎蛋妹紙海量圖片

咱們的目標是用爬蟲來幹一件略污事情

最近據說煎蛋上有好多可愛的妹子,並且爬蟲從妹子圖抓起練手最好,畢竟動力大嘛。並且如今網絡上的妹子很黃很暴力,一下接受太多容易養分不量,可是本着有人身體就比較好的套路,特地分享下用點簡單的技術去獲取資源。
之後若是有機會,再給你們說說日本愛情動(大)做(霧)片的種子搜索爬取,多多關注。html

bigsec

請先準備做案工具

咱們只准備最簡單的python

  • python 2.7.11
  • Google Chrome

安裝的時候記得把pip帶上,這樣能夠方便咱們安裝一些好用的包,來方便咱們幹壞事(學習)的過程。chrome

須要用到的包服務器

  • 包括更佳符合人類的HTTP庫--requests
  • 用來解析html文件,快速提取咱們須要的內容--beautifulsoup4

也能夠用下面的命令快速安裝
pip install requests
pip install beautifulsoup4網絡

幹正事從一次正常需求提及

天天在互聯網上衝來衝去,瀏覽着大量的信息,觀看這各類鼻血噴發的圖片,因而做爲新時代青年的咱們,怎麼能忍受被這些大量的垃圾信息充斥的互聯網,咱們要反抗,咱們要下載!工具

請,看,下,圖
學習

bigsec

當你在網上衝浪的時候遇到這樣的圖片,我就問你:
虐不虐?虐死了!
下不下?下!spa

開始吧獲取圖片的CSS選擇器的規則

首先,咱們須要定位咱們須要的圖片
(點開大圖很清晰).net

bigsec

根據咱們以前的準備的做案工具,使用chrome來訪問網頁
http://jandan.net/ooxx
而後打開開發者工具菜單 -> 更多工具 -> 開發者工具
看下圖右邊的神器
(圖都不點開還學個毛線)htm

bigsec

點擊這個圖標會出現塊選擇器,
鼠標移動咱們感興趣的部分
(點開大圖,你就看得見點哪裏了)

bigsec

按照圖片指示點擊區域
(點開大圖……我都懶得複述了)

bigsec

右邊神器中就會出現咱們所須要的img標籤
(開,大,圖。科科)

bigsec

查看以前最後一個以#comments開頭的標籤,
它包含了全部img的子標籤。

下面讓咱們來一些神祕的事

打開cmd或者終端
輸入python

bigsec

輸入如下神祕代碼

bigsec

如今偷偷看一下你的當前目錄
是否是有不少(污)的圖片

bigsec

名詞解釋:網絡爬蟲

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲的使用對不少工做都是頗有用的,可是對通常的社區,也須要付出代價。使用爬蟲的代價包括:
網絡資源:在很長一段時間,爬蟲使用至關的帶寬高度並行地工做。
服務器超載:尤爲是對給定服務器的訪問太高時。
質量糟糕的爬蟲,可能致使服務器或者路由器癱瘓,或者會嘗試下載本身沒法處理的頁面。
我的爬蟲,若是過多的人使用,可能致使網絡或者服務器阻塞。

是否是還不夠
行蹤不定的下期預告

看着上面規整的排版——先後有序、圖文並茂,不就是練手爬蟲技術最好的機會嗎?今天就到這裏了,讀取下一頁什麼的就靠你本身探索,我將會在下個系列給你一個參考方法,但願你持續關注。

相關文章
相關標籤/搜索