最近據說煎蛋上有好多可愛的妹子,並且爬蟲從妹子圖抓起練手最好,畢竟動力大嘛。並且如今網絡上的妹子很黃很暴力,一下接受太多容易養分不量,可是本着有人身體就比較好的套路,特地分享下用點簡單的技術去獲取資源。
之後若是有機會,再給你們說說日本愛情動(大)做(霧)片的種子搜索爬取,多多關注。html
咱們只准備最簡單的python
安裝的時候記得把pip帶上,這樣能夠方便咱們安裝一些好用的包,來方便咱們幹壞事(學習)的過程。chrome
須要用到的包服務器
也能夠用下面的命令快速安裝
pip install requests
pip install beautifulsoup4網絡
天天在互聯網上衝來衝去,瀏覽着大量的信息,觀看這各類鼻血噴發的圖片,因而做爲新時代青年的咱們,怎麼能忍受被這些大量的垃圾信息充斥的互聯網,咱們要反抗,咱們要下載!工具
請,看,下,圖
↓學習
當你在網上衝浪的時候遇到這樣的圖片,我就問你:
虐不虐?虐死了!
下不下?下!spa
首先,咱們須要定位咱們須要的圖片
(點開大圖很清晰).net
根據咱們以前的準備的做案工具,使用chrome來訪問網頁
http://jandan.net/ooxx
而後打開開發者工具菜單 -> 更多工具 -> 開發者工具
看下圖右邊的神器
(圖都不點開還學個毛線)htm
點擊這個圖標會出現塊選擇器,
鼠標移動咱們感興趣的部分
(點開大圖,你就看得見點哪裏了)
按照圖片指示點擊區域
(點開大圖……我都懶得複述了)
右邊神器中就會出現咱們所須要的img標籤
(開,大,圖。科科)
查看以前最後一個以#comments開頭的標籤,
它包含了全部img的子標籤。
打開cmd或者終端
輸入python
輸入如下神祕代碼
如今偷偷看一下你的當前目錄
是否是有不少(污)的圖片
網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
爬蟲的使用對不少工做都是頗有用的,可是對通常的社區,也須要付出代價。使用爬蟲的代價包括:
網絡資源:在很長一段時間,爬蟲使用至關的帶寬高度並行地工做。
服務器超載:尤爲是對給定服務器的訪問太高時。
質量糟糕的爬蟲,可能致使服務器或者路由器癱瘓,或者會嘗試下載本身沒法處理的頁面。
我的爬蟲,若是過多的人使用,可能致使網絡或者服務器阻塞。
是否是還不夠
行蹤不定的下期預告
看着上面規整的排版——先後有序、圖文並茂,不就是練手爬蟲技術最好的機會嗎?今天就到這裏了,讀取下一頁什麼的就靠你本身探索,我將會在下個系列給你一個參考方法,但願你持續關注。