http://www.36dsj.com/archives/36545網絡
不一樣於傳統互聯網媒體,微博做爲社交媒體最大的優點在於引入了非對等的用戶關係,這種用戶關係僅令傳播更加高效。若是將微博中的用戶視做節點,用戶之間的關係視做節點之間的邊,那麼這些節點和邊將構成一個社交的網絡拓撲結構,或稱做社交圖譜,如圖1所示。微博中的信息從社交圖譜中的某個節點發出,並經過邊來傳播。函數
圖1 微博中的社交圖譜it
可是信息在這個網絡中的流動並非無差異的,信息的起始點(信息的生產者),信息流動中所經歷的節點(信息的傳播者),節點之間關係的強弱(傳播者相對生產者的親密程度),以及這些節點構成的關係圈……都是影響信息流動廣度和深度的重要因素。微博
構建用戶關係模型,就是針對圖1這種關係網絡中的節點(表明了用戶)、邊(表明了關係和方向)、關係圈(表明了由關係聚合而成的羣體)進行分析,全面地描述和刻畫社交媒體的關係網絡。class
從信息傳播的角度看,當信息沿着邊流經不一樣節點的時候,因爲有些用戶產生或傳播的內容可以影響到更多的用戶(如圖1中比較大的節點),而有些用戶的影響範圍則很是有限(如圖1中比較小的節點),那麼他們給信息帶來的「傳播收益」(信息傳播的廣度與深度)也不同。微博中採用傳播力來量化這種重要程度。基礎
傳播力的計算基於一個基本假設:傳播力沿着信息傳播的路徑反向傳遞。如圖2所示。通俗解釋是,傳播力越高的用戶在傳播一條微博的時候,傳遞給上一級用戶的傳播力也越高;一個用戶發出的微博被越多傳播力高的用戶轉發,他的傳播力也會越高。就像咱們的身邊總有那麼幾個大嘴巴,什麼事情經他們一絮叨就會路人皆知,若是某天有件不露臉的事讓他給散發出去了,你也隨之出名了同樣。擴展
圖2 信息傳播路徑(實線)&傳播力傳遞方向(虛線)sed
這個假設與PageRank的思路是類似的。那麼,須要作的就是收集必定量的微博的轉發記錄,構建傳播力傳遞圖,圖中的節點是用戶,邊的方向表明了傳播力的傳遞方向(微博傳播路徑反方向),邊上的權重表明源用戶(傳遞的起始用戶)到目標用戶(傳遞的接收用戶)的傳播力的分配比例,如圖3所示。給定用戶的初始傳播力值,經過多輪迭代(傳遞),直到傳播力值穩定。互聯網
圖3 傳播力傳遞圖遍歷
微博自己只經過方向性來區分關係邊,也就是說任意u一、u2兩個用戶之間的關係存在三種狀況「u1關注u2」「u2關注u1」「u1,u2互粉」。但相同類型的關係(例如「u1關注u2」和「u1關注u3」)存在強弱的區別,若是將方向性做爲關係邊的定性描述,關係強度則能夠視做關係邊的定量描述。 咱們管關係邊的強度稱之爲「親密度」,因爲關係邊是存在方向性的,親密度是一個用戶對另外一個用戶的關注程度,衡量該有向邊的強度。
可以反應親密度的互動行爲均可以被歸入到親密度計算中,在微博中包括評論行爲、轉發行爲、贊行爲、說起(@)行爲等。簡單來講,這些行爲在親密度評價中都具備必定的權重,當用戶u1關注了用戶u2,u1對u2的這些行爲越多越頻繁,那麼u1對u2的親密度越高。
此外,還考慮兩個因素:用戶之間的關係類型以及用戶自己的互動頻率。首先,一般認爲互粉關係的親密度要比單向關注關係的親密度高;其次,有些用戶自己比較活躍,樂於互動(轉、評、贊),那麼體現出來他跟其餘用戶的互動行爲較多,並不能說明他跟這些用戶很是親密,而有些沉默寡言的用戶,雖然與其餘用戶互動少,可是體現出來的親密度卻更可靠。
協同實際上利用了羣體的智慧,無需關心item的屬性,僅僅經過user對item的「評價」(購買、點擊、評分都量化成一種評價值)來推測user之間或item之間的類似。
若是將一個用戶對另外一個用戶的關注也視做一種「評價」,利用用戶之間的關注構建關係矩陣,則很容易仿照協同過濾的方式來計算兩個用戶的類似性。如圖4所示,矩陣中每行對應一個用戶ur,每列對應一個被關注用戶uc,當ur關注了uc的時候,對應的元素取值爲1,該矩陣是N*N階的。事實上,行表明了對應用戶的關注列表,列表明瞭對應用戶的粉絲列表。
圖4 用戶關係矩陣
當按行進行向量的類似性計算的時候,能獲得用戶的關注類似性(相似於User based CF);按列進行向量的類似性計算,能獲得用戶的粉絲類似性(相似於Item based CF)。此外,還能夠用親密度代替圖4中元素的取值,至關於考慮了用戶對關注用戶的不一樣評價。
六度關係理論確定了人和人之間的廣泛聯繫,那麼對於社交媒體中的用戶關係,也能夠突破直接的一度關係來進行延伸。如圖5所示,用戶u1(紅色邊框)與用戶u2(綠色邊框)和u3(藍色邊框)之間沒有直接關係,可是分別存在一系列的橋樑用戶,使得u1和u2以及u1和u3之間存在間接的二度關係(如圖5中的綠色虛線)。
圖5 二度關係示意圖
正如咱們衡量了一度關係的強弱(親密度),二度關係也存在強度衡量的問題。二度關係的強弱一般考慮兩個方面的因素:橋樑的數量,u1與橋樑之間的親密度,橋樑與u二、u3之間的親密度。這三個因素都與二度關係的強度成正比。
社交媒體中用戶之間的關係和社會關係中存在着很大的類似性,不管是雙向好友關係、單向關注關係仍是不一樣親密度的關係……那麼社交媒體中是否也可以找到相似社會關係中的關係圈呢:關係圈圈定了一系列互相存在關聯的人,這些人之間不必定兩兩認識,可是必定是存在某種緊密的關聯,而圈外人與關係圈則不具有這種關聯,此外一我的能夠身處不一樣的關係圈。
對於微博用戶,根據關係網絡的拓撲結構進行關係圈的挖掘,實際上就是根據該網絡的內部緊密程度進行劃分(圖切分),被劃分到相同子網絡(子圖)內的節點之間存在着趨於一致的關係,這種圖切分一般分三步進行。
Step 1: 發現極大團
所謂極大團(Maximal Clique),就是圖裏面的子圖,其中全部的節點之間兩兩存在着關係邊。是一種極強的約束,經過遍歷關係拓撲圖,獲得這種關係最緊密的用戶羣體。如圖6所示,是微博關係拓撲中雙向好友關係構成的一個極大團示例,在這個極大團裏面,任何一個用戶都與其餘用戶之間存在着雙向好友關係。
圖6 雙向好友關係的極大團
Step 2:關係圈擴展
社會關係中的社交圈的約束並不像極大團這麼強,同處一個社交圈的人不必定互相認識,也可能只是因爲某些中間人致使他們存在必定的關聯。所以,在極大團的基礎上,還須要對關係圈進行擴展。擴展中須要指定一個標準來斷定某個用戶是否可以被劃分到某特定的關係圈:向某個關係圈引入一個新節點後,該關係圈內部的緊密程度增長帶來的收益要大於關係圈之間關聯性增長帶來的損失。
如圖7所示,橙色關係邊和紅色關係邊及其節點構成了兩個極大團C1和C2(存在同一個用戶同時屬於C1和C2的狀況)。若是將一個新用戶u(圖7底部有紅色邊框的用戶)加入C1表明的關係圈,那麼因爲u與C1存在着關聯(如圖7中的綠色邊),會增長改變C1的內部緊密性(內部邊的條數);但同時因爲u與C2也存在關聯(如圖7中的藍色邊),那麼也會提升C1和C2之間的關聯程度(增長了C1和C2之間邊條數)。
圖7 一個用戶同時屬於兩個極大團
經過定義一個與關係圈內部緊密程度正相關,關係圈之間關聯程度負相關的評價函數,關係圈每擴展一個用戶都經過該函數是否增長來進行判斷就能夠了。擴展能夠進行多輪。
Step 3:關係圈合併
最後,對於擴展結果中趨同的關係圈進行合併,當兩個關係圈存在很大交集的時候將它們合併到一塊兒。合併過程一樣須要遵循評價函數提高的原則。
微博中存在着一張關係大網,有的地方緊密,有的地方稀疏;用戶存在於這張大網之中,與有些鄰居親密,與另外一些卻很疏遠;信息在網格間遊走,時而大步流星,時而停滯不前……這多是微博關係網絡的真實寫照。
用戶的關係模型,就是從不一樣的角度去反應這種真實的狀況:「傳播力」體現了用戶個體對信息傳播的影響;「親密度」體現了兩個用戶之間關係遠近對信息傳播的影響;「粉絲類似度」和「關注類似度」是從整個網絡中去尋找具備相同認同感和被認同感的用戶;「二度關係」是對直接的一度關係的擴展和延伸;「關係圈」則是從關係網絡結構自己出發去尋找關聯緊密的羣體。這種劃分和構建是逐步深刻的,也符合平臺業務發展和技術演進的規律。以上針對微博關係網絡不一樣角度的刻畫,是在社交媒體最基本的非對等關係模型基礎上,結合了用戶行爲而產生的,對關係網絡的刻畫會更加細緻和全面。