若是你是個足球迷的話,估計或多或少都會看一下昨晚中國踢韓國的比賽,由於無論他們踢得怎樣,咱們仍是深愛着他們,那句話說得好,「國足虐我千百遍,我待國足如初戀」。更況且他們兩場都踢贏了,因此面對第三場實力有點強的韓國隊也是但願能贏的,畢竟咱們也在十二強賽上贏過他們! html
若是你不是個足球迷,但你也能夠看看,能夠學習下如何去抓APP的數據。好了,廢話很少說,開始抓取!mongodb
手機抓包咱們能夠用 Fiddler 軟件來抓取,若是不懂怎樣抓的話,能夠看看這篇文章抓包軟件 Fiddler 瞭解一下?數據庫
配置好以後,開始抓包。json
首先找到須要爬取的文章api
懂球帝app截圖app
文章連接爲:https://m.dongqiudi.com/artic...學習
在配置好抓包以後,點擊下方的評論,能夠看到加密
評論截圖spa
抓包截圖3d
很容易就找到文章評論的請求,就是下面這個
能夠看到請求的連接爲:https://api.dongqiudi.com/v2/... ,
請求方法爲GET,接下來就好辦了,咱們再看看滑下去查看更多的評論的請求。
能夠看到,向下翻頁多了兩個參數,不過容易知道,next 參數就是一個時間戳,而 pn 參數就是頁數吧,從 0 開始的。
可是怎樣判斷全部評論已經爬完了呢?咱們能夠看看數據的詳情,下面將 json 數據格式化,在下圖能夠看到在 data 裏面有下一頁的數據,那這就容易了,哈哈
分析了,接下來就是代碼部分了。
這是主體部分,先從第一個評論連接中爬取評論以及找出下一頁的評論地址進而繼續爬取。這裏是把數據庫存進 mongodb 中。
主要的爬取邏輯,能夠看出來是比較簡單的,由於沒有涉及到什麼加密參數之類的,可是有一個問題,每一次進行請求的時候,有時候是會返回帶有相同的評論的,因此咱們也須要在數據庫簡單地進行去重。
下面是入庫和去重的代碼部分
剩下的就沒有了。
因爲數據分析還不熟悉,因此暫時只製做詞雲圖。
須要先將數據寫到文本上
詞雲圖是:
能夠看出,昨晚國足輸一場,也被不少人噴了,可是仍是有不少人是一直支持的,永遠都爲國足加油,裏面也說到了,中國和韓國是有必定差距的,並且還有點大,輸了也正常不過了,不必噴,再說我以爲昨晚的比賽已經比第一場的比賽好不少(第二次沒看),仍是有進步的,我對國足將來淘汰賽也是充滿指望的,我相信能走得更遠!
下一場 踢泰國, 20號,有人看嗎?