以前在知乎看到一位大牛(二胖)寫的一篇文章:python爬取知乎最受歡迎的妹子(大概題目是這個,具體記不清了),可是這位二胖哥沒有給出源碼,而我也沒用過python,正好順便學一學,因此我決定本身動手搞一搞.
爬取已經完成,文末有 python的源碼和妹子圖片的百度雲地址html
爬蟲仍是要用python(以前用過一個國人大牛寫的java爬蟲框架 webmagic),因此花了點時間看了下網上python的教程,語法什麼的(固然什麼都沒記住~),而後看了看scrapy這個爬蟲框架,大概瞭解了其中各個組件的做用,每一個組件的做用和爬取數據的幾個步驟.java
知乎二胖哥的思路大體以下:python
知乎妹子爆照合集
的收藏夾我存儲圖片的目錄是按照 問題id/回答id
的格式存放的.mysql
程序員
指定的問題:
基本上這些問題都是妹子爆照多的話題,有很多妹子照片.

目錄結構:
web
面試


ajax
爬取網頁(知乎)信息大概分爲如下幾個步驟:sql
python scrapy爬蟲框架概念介紹(我的理解總結爲一張圖)
python scrapy 登陸知乎過程
使用python scrapy爬取知乎提問信息
python scrapy爬取知乎問題和收藏夾下全部答案的內容和圖片數據庫
若是有同窗對python的爬蟲代碼和妹子圖片感興趣,
我已上傳,關注微信公衆號:程序員燈塔 (code12306)
回覆 '知乎源碼',獲取python源碼
回覆 '知乎美女',獲取12G圖片資源的百度網盤地址.
程序員燈塔,關注互聯網+大數據技術. 分享面試攻略+技術乾貨!