教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點:

以前在知乎看到一位大牛(二胖)寫的一篇文章:python爬取知乎最受歡迎的妹子(大概題目是這個,具體記不清了),可是這位二胖哥沒有給出源碼,而我也沒用過python,正好順便學一學,因此我決定本身動手搞一搞.
爬取已經完成,文末有 python的源碼和妹子圖片的百度雲地址html

二.準備:

爬蟲仍是要用python(以前用過一個國人大牛寫的java爬蟲框架 webmagic),因此花了點時間看了下網上python的教程,語法什麼的(固然什麼都沒記住~),而後看了看scrapy這個爬蟲框架,大概瞭解了其中各個組件的做用,每一個組件的做用和爬取數據的幾個步驟.java

三.思路分析:

知乎二胖哥的思路大體以下:python

  • 1 手動找到部分宅男, 抓取他們關注的女性用戶 和 部分問題的女性回答者
    做爲 "初始美女"羣體
  • 2 抓取 "初始美女" 全部的粉絲, 做爲 "宅男羣體"
  • 3 再抓取 "宅男羣體" 關注的人裏面取top 1000, 獲得知乎最受歡迎的美女.
    我和二胖哥的目的有所不一樣,
    二胖是要找到最受歡迎的妹子,
    而個人目的是:
  • 1 學習使用python 的 scrapy框架
  • 2 爬取精彩又性感的文章和圖片.
    因此我經過兩個方面開始爬取:
  • 某些女生回答的多的問題, 好比: 擁有大長腿是怎樣的感受?
  • 收藏夾. 知乎有收藏夾功能,把不一樣問題下的答案放到一個收藏加下.我關注了一個叫作知乎妹子爆照合集的收藏夾
    我大概爬取了12G的圖片資源(由於個人服務器只有12G的剩餘空間了...)

我存儲圖片的目錄是按照 問題id/回答id的格式存放的.mysql

四.收藏夾裏的問題不少,大體目錄以下:

程序員

五.手動指定了幾個問題以下:

指定的問題:
基本上這些問題都是妹子爆照多的話題,有很多妹子照片.

目錄結構:
web

六.成果展現:

面試



ajax

七.爬取方法介紹:

爬取網頁(知乎)信息大概分爲如下幾個步驟:sql

  • 肯定爬取的初始頁面(url地址)
  • 肯定要爬取哪些內容,使用xpath獲取爬取內容的html文檔路徑獲取內容.(或者可以從頁面找到ajax調用後臺的接口,去調接口拿到數據,通常返回的json格式,比使用xpath方便.)
  • 爬取到內容的處理, 存數據庫(mysql,mongo,等),落地到文件,等~

八.爬取教程分享

python scrapy爬蟲框架概念介紹(我的理解總結爲一張圖)
python scrapy 登陸知乎過程
使用python scrapy爬取知乎提問信息
python scrapy爬取知乎問題和收藏夾下全部答案的內容和圖片數據庫

九.福利分享

若是有同窗對python的爬蟲代碼和妹子圖片感興趣,
我已上傳,關注微信公衆號:程序員燈塔 (code12306)
回覆 '知乎源碼',獲取python源碼
回覆 '知乎美女',獲取12G圖片資源的百度網盤地址.
程序員燈塔,關注互聯網+大數據技術. 分享面試攻略+技術乾貨!

轉自: 教程+資源 python scrapy 實戰爬取知乎最性感妹子

相關文章
相關標籤/搜索