在用戶個性化時代,垂直化、精細化的運營,被看做企業重要的競爭力。完整、清晰的用戶畫像體系,能夠幫助企業從海量的用戶信息中發掘每一個用戶的行爲特性、潛在能力及興趣等信息,從而爲用戶提供具備針對性的服務。算法
馬蜂窩擁有海量的用戶出行體驗數據,在成長和發展的過程當中一直在探索如何經過基於海量 UGC 的數據挖掘出每一個用戶的基本特徵、對旅遊主題、目的地的偏好和潛在興趣,從而精準地定位和標記用戶,將優質的內容、商品和服務與用戶進行鏈接。網絡
今天這篇文章,主要圍繞馬蜂窩用戶標籤體系中的「用戶貢獻能力」標籤,來介紹咱們如何挖掘那些對馬蜂窩的 UGC 有貢獻能力的羣體,這樣作的價值是什麼。架構
鼓勵用戶分享原創內容、彼此借鑑旅遊信息,是馬蜂窩得以持續吸引用戶的核心。這些用戶產生的原創內容不只包括記錄本身旅遊體驗的攻略、遊記,也包括幫助其餘用戶解決旅行疑惑的問答、點評等。經過這種互享型的內容互動模式,愈來愈多存在個性化旅行需求的用戶在馬蜂窩完成旅遊消費決策的閉環。函數
爲了更好地幫助用戶提高決策效率,咱們須要挖掘出那些擁有豐富的自由行經驗,而且具備必定內容生產能力的旅行者,圍繞內容增加、用戶活躍制定相關策略。工具
若是隻經過用戶的等級劃分來評估該用戶的影響力,顯然是存在問題的。咱們都知道,用戶等級做爲用戶激勵體系中的一種方式,是對用戶過往行爲的承認,所以等級通常只會上升不會降低,這種特色致使:優化
用戶核心輸出能力沒法獲得有效量化:用戶只要天天進行打卡、回覆、評論等簡單行爲也會慢慢升級到高級別;spa
用戶升級之後等級固化:例如用戶很長時間沒有登陸,但從等級來看他的影響力依然很強;3d
沒法感知用戶的內容輸出意願:即便用戶等級高且在近期有過登陸行爲,但對哪些話題感興趣、是否存在生產內容的意願咱們無從感知。視頻
爲了解決以上問題,咱們將內容貢獻能力做爲用戶畫像標籤體系中的一個字段進行挖掘,並應用到馬蜂窩不少業務當中,好比:blog
旅遊問答邀請
馬蜂窩問答能夠當作是一種更快捷、簡短、個性化的旅遊攻略。咱們能夠圈定近期在該領域內容貢獻豐富的、以及內容受歡迎的相關用戶,推薦給提問者定向邀請回答,保證旅行者的問題可以快速、準確地被解答。
馬蜂窩 KOL 挖掘
利用用戶內容貢獻能力標籤,咱們能夠更精準地挖掘活躍的、專業的、熱愛旅行並能生產高質量內容的 KOL,一方面能夠在線上經過邀請入駐、內容推薦等方式,讓這些資深旅行者的優質內容獲得更多曝光;另外一方面,能夠將 KOL 的力量組合起來,轉移到線下,用他們的親身經驗最簡單地帶動用戶的直觀認知,好比「馬蜂窩指路人」等。
圖:馬蜂窩旅行家專欄
圖:馬蜂窩指路人俱樂部
簡單來講,就是從用戶的的活躍度、在必定時間內的受歡迎度、輸出意願三個維度構建模型,從而對用戶貢獻能力進行測度,即:
用戶內容貢獻能力 = 用戶的輸出意願 + 用戶的活躍度 + 用戶的受歡迎程度
RFM 模型咱們不少人都不陌生,這是衡量用戶價值和用戶創利能力的經典工具。這裏咱們基於馬蜂窩旅遊社區的場景,將 RFM 模型的三個因素調整爲:
A(Activity):用戶活躍度
e^(-αt):最近一次訪問時間距今天的時間衰減,採用指數衰減,其中 α 爲衰減係數。這裏利用指數衰減函數作爲時間衰減因子,F*E 能夠理解爲用戶的活躍的熱度,時間衰減因子體現了用戶活躍的熱度隨着時間逐漸衰減的過程。在馬蜂窩場景下,經過對實際數據的調參,咱們選擇當時間 t 爲一年(365)的時候衰減爲最小值 0.0001,此時帶入公式求出 α 的值。這裏考慮的是用戶一年未貢獻任何的內容則意願衰減至最低,求得 α 爲 0.0189;
F(Frequency): 用戶在特定時間內的內容貢獻頻次。這裏也是基於場景包含對遊記、問答、攻略、筆記(圖、文、視頻結合)等全部類型內容的計算;
E(Engagements):用戶最近一次貢獻內容的類型,不一樣類型的 UGC 對應的值不一樣。例如產出一篇遊記的難度以及內容的價值要高於回答一個用戶的問題,和以圖片、視頻爲主的筆記。通過在馬蜂窩全站計算不一樣類型的文章在 UGC 數量佔比,得出以下結論:遊記的 E 值爲 5,問答值爲 2.5,筆記值爲 3 。
不管是什麼形式的 UGC,被承認的方式一般基本都是經過其餘用戶的點贊、評論、收藏、分享幾種方式。在馬蜂窩,遊記、問答、攻略、筆記等不一樣的文章形式歡迎度是不一樣的,好比以圖片、視頻形式爲主要呈現形式的短內容(筆記 )雖然曝光較多,可是被點贊、評論等承認度卻不如攻略或者遊記這樣的長文章。
所以這裏經過分析社區中游記、問答、筆記等不一樣內容的被贊狀況進行分析,算出一個用戶歡迎程度最終綜合得分和平均分,以下:
以上,W 表明的是用戶受歡迎程度的綜合得分,α、β、χ 分別表明不一樣類型內容的權重因子。這裏經過計算全站不一樣形式的文章被讚的狀況進行分析,得出 α:β:χ = 1:1.05:0.98 ,爲了計算方便近似取 α、β、χ 均爲1。
Travel 值表示遊記的受歡迎程度,計算方式是經過點贊、收藏、分享、回覆等相關特徵,做爲衡量一篇文章是否受歡迎的特徵屬性,而後經過 logistic 迴歸模型訓練特徵權重,以下:
Y 表示訓練的文章是不是優質,W_i 表明權重,經過模型訓練得出權重的值,N 表明文章類型,vote表明點贊,Fav 表明收藏,Comment 表明評論,Share 表明分享。最後求得權重以經過權重計算 Travel 來評判一篇遊記受歡迎的程度。Answer、Note 的計算方式同上。經模型訓練的得出結果以下(這裏爲了計算方便,四捨五入取值小數點後一位):
遊記:w1:0.1,w2:0.5,w3:0.2,w4:0.4;
問答:w1:0.2,w2:0.9,w3:0.3,w4:0.6;
筆記:w1:0.1,w2:0.5,w3:0.3,w4:0.6;
用戶分享意願是根據爲用戶打標籤和 PageRank 來實現。將用戶貢獻內容標籤做爲用戶興趣的表明,而後結合實際場景,根據 PageRank 計算模型來分析話題與用戶之間的關係,結合標籤類似度計算向用戶推薦其感興趣、分享意願高的內容。好比當用戶貢獻內容標籤與當前話題的標籤分類屬於同一類的時候,咱們能夠理解爲用戶對當前同類標籤的話題輸出意願是比較強的。若是用戶還貢獻過當前話題標籤相相似的內容,用戶的分享意願會對應提升。以下:
D 表明用戶的內容寫做意願程度,d_i 表明用戶對某一類型的文章的貢獻意願(好比寫做遊記的意願);
T_i 表明用戶在過去時間生產的某一類型內容佔用戶分享的全部內容比值,其中 T_1 表明遊記,T_2 表明問答,T_3 表明筆記;
C_i 表明用戶寫過的某一類型的文章其中出被評選爲優質的數量,同理 C_1 爲貢獻優質遊記的數量,C_2 爲貢獻優質問答數量,C_3 爲貢獻優質筆記數量。
N 表明阻尼係數,這裏默認 N 值爲 0.85。
綜上,經過「用戶的輸出意願 + 用戶的活躍度 + 用戶的受歡迎程度」,咱們就能夠給出相應的用戶 UGC 等級,從而使用戶的內容貢獻能力獲得客觀、有效地量化。
用戶內容貢獻模型充分考慮了用戶等級設置中沒有突出用戶行爲類型、時間衰減因素,以及沒有充分挖掘用戶興趣的三個問題,提出了一種新的模型視角,並在馬蜂窩的當前產品中充分應用。
將來,咱們會繼續優化算法,例如在模型中加入評論等多個維度的屬性;在內容影響力方面加入內容畫像的質量分+文章自己的得分,而不只僅侷限於優質、蜂首、採納回答等等,來更加準確地挖掘用戶內容貢獻能力,完善馬蜂窩用戶標籤體系。
本文做者:於允飛 & 張陽,馬蜂窩推薦架構 & 用戶畫像研發工程師。
(題圖來源:網絡)
關注馬蜂窩技術,找到更多你想要的內容