最近一直在作新浪微博的項目,主要是:微博爬取,微博熱點預測,突發事件檢測等工做。這裏不談微博分析的技術知識,從業務產品角度,說下對新浪微博的我的觀點吧。html
Twitter是首家成功的社交及微博客網站,於2006年上線。飯否是中國大陸地區第一家提供微博服務的網站,可謂是微博鼻祖,於2007年正式退出,這裏看出王興的「抄襲」功底,從facebook能建立校內網,從groupon能建立美團網,從Twitter能建立飯否,王興的眼見很廣、商業敏感度敏銳,着實使人佩服。中國互聯網原創的確實不多,抄襲不是錯,關鍵是有多少企業抄襲都不會,會抄的還不必定能抄好…2009年上半年,飯否的用戶數從年初的30萬左右激增到了百萬。此後便引發了有關部分的注意,網站被迫關閉,2010年底再次開飯。新浪網於2009年7月開始着手新浪微博的建立,因爲言論的自由,信息豐富的特徵迅速成爲中國第一大微博客,目前用戶過6億,天天微博發佈量過1億(轉發爲主)。能夠說新浪微博的高速發展遇上了飯否關閉的絕佳機遇,後續網易、騰訊開始涉及微博領域,不得不說,微博在必定程度上改變了咱們的生活(固然它本能夠改變的更多)。大數據
PS:飯否被稱爲Twitter在中國的惟一精神繼承者,我感受除了名字差點,用戶體驗都很是好,若是新浪微博按照飯否的思路發展,今天的微博會真正地影響咱們交流方式、改變信息的傳播途徑。微博只是在必定程度上增長了信息的豐富的、促進了消息流通,但你怎麼看,它就是一個改版的BBS,大V、名人認證這些後期的改進進一步把它帶向了論壇的深淵。新浪在很大程度上把作博客的思路運用到了微博上。網站
一、新浪微博沒法查看完整關注、粉絲列表的真相加密
若是你嘗試查看某個用戶10頁之後的粉絲列表,如今你會看到:spa
這是新浪2013年7月左右新添加的限制。真相是:別人(關注你的、與你互粉的、你單向關注的、單向關注你的、與你互不關注的,只要不是你本身)的粉絲列表都只能看前10頁。而別人的關注列表,只要未關注你的用戶(包括與你互不關注的,你單向關注的),查看關注列表就只能查看前10頁;關注你的(包括與你互粉的,單向關注你的),你才能查看其完整列表。3d
這裏的緣由應該是數據保護。信息時代,大數據就意味着機遇、意味着人民幣,微博做爲社交媒體,最顯然的數據就是人與人之間的關係,有了人與人的關係,就能夠作好友系統推薦(你的好友作了什麼?買了什麼?關注了什麼?),這種關係是新浪辛辛苦苦發展獲得的,它不但願這一手信息被別人用爬蟲爬了去,因此加密了。雖然如今基於這部分數據,新浪可能剛開始掙錢,但不管怎樣,從商業戰略角度,新浪這樣作是預料之中的。開放10頁應該也是折中考慮了用戶需求了。htm
目前,咱們的爬蟲不能得到用戶完整的關注列表和粉絲列表。將來這種限制可能會更多。與關注、粉絲列表類似的就是:轉發列表和評論列表以及用戶歷史微博列表(全部微博)blog
(1)先看歷史微博繼承
目前新浪仍是所有開放的,以李開復爲例,咱們能夠查看他之前發佈的全部公開微博。最先是2009-8-27 15:11事件
咱們能夠查看用戶全部的公開微博(1~314頁),而不是最近的10頁。這維護了新浪微博社交性,我能夠了解某用戶(感興趣的人)的任什麼時候間的信息。商業價值:可能基於這些數據研究用戶的心情(樂觀詞彙)曲線、發微博的時間分佈、整體數據量變化等。目前主要是研究價值,商業價值還不是很顯著。
(2)轉發列表
轉發列表記錄了誰在什麼時間轉發了這條微博以及各個用戶的微博被轉發的總數。目前主要用這部分數據研究微博對應事件事件的發展趨勢,好比熱門微博榜、實驗室研究等。這部分數據通常還要和其餘數據(粉絲信息、粉絲數、微博內容等)結合起來進行合理的預測,用這部分數據衍生了熱門微博榜這樣的功能,但這些數據主要仍是用於實驗室的輿情研究,商業價值還未挖掘。商業價值:根據這部分數據,提供事件的預測,給用戶推送預熱點事件(熱門微博的升級版)等
(3)評論列表
評論列表的目的主要是增長微博的社交性,你們一塊兒來討論某件事。並且評論內容參差不齊,大可能是「呵呵」,內容比較亂,商業和科研價值目前都不明朗。可參見「微博那點事(2):評論對微博重要嗎?」
其實,微博內容纔是用戶最關心的東西,用戶羣纔是新浪最核心的東西。目前新浪限制的功能都不會嚴重損害媒體的社交性,不會竭澤而漁的。