手把手教你用Python爬蟲煎蛋妹紙海量圖片

時間 2019-12-05

原文原文鏈接

咱們的目標是用爬蟲來幹一件略污事情

最近據說煎蛋上有好多可愛的妹子，並且爬蟲從妹子圖抓起練手最好，畢竟動力大嘛。並且如今網絡上的妹子很黃很暴力，一下接受太多容易養分不量，可是本着有人身體就比較好的套路，特地分享下用點簡單的技術去獲取資源。
之後若是有機會，再給你們說說日本愛情動（大）做（霧）片的種子搜索爬取，多多關注。html

請先準備做案工具

咱們只准備最簡單的python

python 2.7.11
Google Chrome

安裝的時候記得把pip帶上，這樣能夠方便咱們安裝一些好用的包，來方便咱們幹壞事(學習)的過程。chrome

須要用到的包服務器

包括更佳符合人類的HTTP庫--requests
用來解析html文件，快速提取咱們須要的內容--beautifulsoup4

也能夠用下面的命令快速安裝
pip install requests
pip install beautifulsoup4網絡

幹正事從一次正常需求提及

天天在互聯網上衝來衝去，瀏覽着大量的信息，觀看這各類鼻血噴發的圖片，因而做爲新時代青年的咱們，怎麼能忍受被這些大量的垃圾信息充斥的互聯網，咱們要反抗，咱們要下載！工具

請，看，下，圖
↓學習

當你在網上衝浪的時候遇到這樣的圖片，我就問你：
虐不虐？虐死了！
下不下？下！spa

開始吧獲取圖片的CSS選擇器的規則

首先，咱們須要定位咱們須要的圖片
（點開大圖很清晰）.net

根據咱們以前的準備的做案工具，使用chrome來訪問網頁
http://jandan.net/ooxx
而後打開開發者工具菜單 -> 更多工具 -> 開發者工具
看下圖右邊的神器
（圖都不點開還學個毛線）htm

點擊這個圖標會出現塊選擇器，
鼠標移動咱們感興趣的部分
（點開大圖，你就看得見點哪裏了）

按照圖片指示點擊區域
（點開大圖……我都懶得複述了）

右邊神器中就會出現咱們所須要的img標籤
（開，大，圖。科科）

查看以前最後一個以#comments開頭的標籤，
它包含了全部img的子標籤。

下面讓咱們來一些神祕的事

打開cmd或者終端
輸入python

輸入如下神祕代碼

如今偷偷看一下你的當前目錄
是否是有不少（污）的圖片

名詞解釋：網絡爬蟲

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲的使用對不少工做都是頗有用的，可是對通常的社區，也須要付出代價。使用爬蟲的代價包括：
網絡資源：在很長一段時間，爬蟲使用至關的帶寬高度並行地工做。
服務器超載：尤爲是對給定服務器的訪問太高時。
質量糟糕的爬蟲，可能致使服務器或者路由器癱瘓，或者會嘗試下載本身沒法處理的頁面。
我的爬蟲，若是過多的人使用，可能致使網絡或者服務器阻塞。

是否是還不夠
行蹤不定的下期預告

看着上面規整的排版——先後有序、圖文並茂，不就是練手爬蟲技術最好的機會嗎?今天就到這裏了，讀取下一頁什麼的就靠你本身探索，我將會在下個系列給你一個參考方法，但願你持續關注。