經過Scrapy抓取QQ空間

畢業設計題目就是用Scrapy抓取QQ空間的數據,最近畢業設計弄完了,來總結如下:

首先是模擬登陸的問題:

因爲Tencent對模擬登陸比較討厭,各個防備,而本人能力有限,因此作的最簡單的,手動登陸後,得到Cookie信息,而後攜帶訪問。數據庫

其次是數據接口:

經過對QQ空間的網頁分析,數據主要是經過Json的形式返回。選擇了兩個數據接口進行數據抓取json

每一個QQ的詳細信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK網絡

每一個QQ的說說信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"ui

最後使用Scrapy完成網絡請求,並將數據存入數據庫

最終進行了簡單的統計:

figure_1figure_2figure_3figure_4

相關文章
相關標籤/搜索