爬取博客園首頁數據進行數據分析

前言

以前折騰了一小段時間scrapy,以爲使用起來異常簡單,而後打算練練手。目標選取了博客園,爬取了首頁的前200頁文章,可是數據放在那一直沒去分析。趁着如今有閒心,來分析分析。javascript

聲明:全部爬取的數據皆爲公開數據。爲了不對博客園形成壓力,爬蟲代碼不公開。數據分析軟件使用的是Tableau。若是你認爲本文侵犯了你的權益,請聯繫做者刪除。html

注:數據來源是2017年05月17日至8月17的博客園首頁文章。前文都是數據分析的圖片展現,想要博主或文章的連接,請拉至最後。前端

誰是博客園最愛的用戶

最愛的用戶,在這裏是按文章上首頁的數量來判斷的。java

top_main

可見,小火柴的藍色理想纔是博客園最愛的用戶。python

讓咱們換個角度看看

top-main-relative

小火柴的藍色理想貌似已經獨孤求敗了,遠遠的拉開了第二名。(做者注:很是推薦他的博客,後面會給出連接)linux

最值得推薦的文章是哪些

top-recommand

訪問量最多的文章是哪些

top-visit

評論最多的文章是哪些

top-comm

哪天上首頁的文章比較多

top-day

你們之後能夠看好時機發表文章了。程序員

各種連接

博客園最愛的用戶

最多推薦

最多訪問

最多評論

感謝你的閱讀。文章首發於前端進階指南微信公衆號,想要獲取更多知識,就快快關注吧。面試

前端進階指南

咱們也是有交流羣的,660112451。sql

相關文章
相關標籤/搜索