用Python寫的開源爬蟲網站,秒搜全部豆瓣好書

程序員在提高本身的道路,大多仍是會選擇閱讀編程書籍這一途徑,但找到一本好書就沒那麼容易了。python

經過查看各大銷售網站的銷量數據和評價,以及豆瓣評分和評價人數,能夠幫助咱們更快的挖掘出經典的計算機書籍,還有那些被人們忽視的好書。git

最近在GitHub上發現了一個網站,是中國科學院自動化研究所的一大神(lanbing510)用Python寫的一個爬蟲,他在16年的時候就爬下了豆瓣全部的讀書數據並作了個WebApp接口方來挖掘查找和閱讀好書。怪我知道的太晚程序員

後來lanbing510再次爬了一遍豆瓣讀書的數據,總共更新了3232088本圖書信息,共2138386KB,並將其開源github

爲何說它很好用呢?猿哥演示一遍你就知道了: web

能夠看出這網站的界面很是簡潔,沒有花裏花哨的內容,只有乾貨,你能夠直接經過關鍵字、分數、和評價人數這三個選項進行搜索,好比咱們能夠搜索關鍵字:編程;分數:9.0;評價人數:100人以上django

查找結果的顯示方式有按照分數排序和人數排序兩種,按照分數排序的截圖以下:編程

按照評價人數排序的截圖以下:瀏覽器

除了以上演示的操做,這個網站並實現瞭如下功能:ide

  • 能夠爬下豆瓣讀書標籤下的全部圖書
  • 按評分排名依次存儲
  • 存儲到Excel中,可方便你們篩選蒐羅,好比篩選評價人數>1000的高分書籍;可依據不一樣的主題存儲到Excel不一樣的Sheet
  • 採用User Agent假裝爲瀏覽器進行爬取,並加入隨機延時來更好的模仿瀏覽器行爲,避免爬蟲被封

也就是說你不只能夠在網站上搜索,還能經過下載各種目下的Excel書單文件,直接在Excel中搜索學習

效果截圖以下:

最後附上網站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider

你們在學python的時候確定會遇到不少難題,以及對於新技術的追求,這裏推薦一下咱們的Python學習扣qun:784-758-214,這裏是python學習者彙集地!!同時,本身是一名高級python開發工程師,從基礎的python腳本到web開發、爬蟲、django、數據挖掘等,零基礎到項目實戰的資料都有整理。送給每一位python的小夥伴!每日分享一些學習的方法和須要注意的小細節*

相關文章
相關標籤/搜索