用戶畫像學習筆記

時間 2021-08-14

標籤算法數據庫瀏覽器 session 架構 app 機器學習學習測試優化欄目 SQL 简体版

原文原文鏈接

1、從0到1構建用戶畫像算法

　　一個比較成熟的畫像系統會有成百上千的標籤，這些標籤的生產不是一次完成的，而是隨着業務的發展須要，逐步補充完善，最終呈如今你們眼前的就是一棵龐大的標籤樹。數據庫

　　一個好的標籤樹結構要知足兩個條件：高歸納性和強延展性。高歸納性意味着結構體系可以很好地包含一個用戶的基本屬性和產品交互的相關行爲，同時對於業務重點單獨強調，沒有遺漏；強延展性意味着結構全面的同時也有必定的抽象歸納能力，保證新增的標籤能夠很好地找到對應的分類，整個體系不會過於收斂侷限。按照這個原則，畫像一般從8個維度組織標籤，分別爲基本屬性、平臺屬性、行爲屬性、產品偏好、興趣偏好、敏感度、消費屬性、用戶生命週期及用戶價值。瀏覽器

圖11-2　用戶畫像總體架構示例session

1.基本屬性架構

　　基本屬性是指一個用戶的基本社會屬性和變動頻率低的平臺特徵，例如真實社會年齡、性別、婚姻情況、暱稱、號碼、帳號、IBS等標籤。這些標籤類型多爲直採型，可從用戶基本信息表中直接獲取，不須要統計或者算法挖掘。示例：社會性別_女。app

2.平臺屬性機器學習

　　平臺屬性是用戶在平臺上表現出的基本屬性特徵，是利用用戶行爲進行算法挖掘，標識用戶真實屬性的標籤。學習

　　典型的平臺屬性標籤有平臺年齡標籤，這裏你可能有個疑問，爲何在用戶的基礎屬性中已經有年齡標籤，但在平臺屬性中又有一個呢？這就涉及二者之間的差異。設想一個真實的場景，一個用戶的社會年齡爲20歲，但他喜歡中年人的穿衣風格，在使用App購物的時候，表現出的真實偏好是30~40歲的。對於這類使用產品時表現出的用戶心智和真實年齡不相符合的用戶，若是隻採用用戶上傳的基本屬性來爲其推薦產品，是否是很難命中個體用戶的興趣呢？　測試

　　兩種不一樣的標籤，本質上是用戶本身上傳信息的隨意性和挖掘信息的權威性差別，是用戶社會屬性和真實屬性差別。咱們仔細分析一下二者在數據源、計算邏輯、標籤格式、標籤值和應用場景等方面的差別，以下。優化

　　（1）數據源與計算邏輯方面基本屬性直接利用用戶自行上傳的、存儲在用戶基本信息表裏的數據，平臺屬性則利用客戶端或者服務端埋點上報採集的用戶行爲數據進行挖掘計算生成。基本屬性是典型的直採型標籤，平臺屬性是典型的算法挖掘型標籤。

　　（2）末級標籤和輸出標籤值方面以性別爲例，基本屬性表明用戶真實的社會身份，是肯定的事實，典型標籤形式爲「性別_女」，而平臺屬性則表明用戶在性別維度的偏好幾率，典型形式爲「性別_女_0.80」，其中「女」爲末級標籤，「0.80」則表明用戶在平臺的女性身份上表現出的傾向程度。

　　（3）應用場景方面平臺屬性經過用戶行爲進行挖掘，更能表明用戶的真實傾向，輸出結果比基本屬性準確率高，在定向營銷和算法裏，年齡、性別等一般採用平臺屬性。而社會屬性中電話、身份證、帳號、暱稱等使用較多。

3.行爲屬性

　　行爲屬性記錄的是用戶的所有單點行爲。用戶的單點行爲有不少，包括啓動、登陸、瀏覽、點擊、加車、下單等，並且結合不一樣的產品、不一樣的模塊交互、不一樣的時間窗選取，行爲就更加複雜了，要想全面梳理，能夠按照「產品×功能模塊×用戶單點行爲×時間」四大要素來組織。這裏「產品×功能模塊×用戶單點行爲×時間」的意思是，一個完整的行爲應該包含「哪一個產品」「哪一個功能模塊」「哪一個行爲」「哪些時間要求」四大要素，例如某瀏覽器體育頻道最近一次訪問時間。按照這四大要素組織行爲，不容易發生遺漏。示例：初次登陸產品時間，最後一次啓動距今時間，30天內搜索行爲頻次，一個月內閃屏訪問次數等。

4.產品偏好

　　產品偏好是對用戶使用某些產品、產品核心功能或者其餘渠道的偏好程度的刻畫，屬於挖掘型標籤，其中產品的選取能夠包括自家產品、競品；功能和渠道既包括站內產品功能，也包括push、短信、開屏、彈窗等幾大運營和產品法寶。示例：搜索模塊偏好、直接競品_京東偏好、短信偏好。

5.興趣偏好

　　興趣偏好是用戶畫像內很是重要的維度，以電商產品爲例，用戶對商品的喜好程度是用戶最終的信息之一，興趣偏好是對用戶和物品之間的關係進行深度刻畫的重要標籤，其中最典型的是品牌偏好、類目偏好和標籤偏好。示例：品牌偏好_優衣庫_0.9一、類目偏好_美妝_0.80、標籤偏好_紅色_0.70。

6.敏感度

　　在作營銷活動時，咱們留意到有些用戶不須要優惠也會下單，而有些用戶必定要有優惠券刺激纔會下單，並且優惠券的額度會影響其下單的金額。這種狀況下，如何識別出對優惠敏感的用戶併爲其發放合理券額的優惠券，保證優惠券不浪費，從而使促銷活動的ROI最大？其中一個很重要的標籤就是用戶的敏感度標籤。敏感度表明用戶對平臺活動或者優惠的敏感程度，也是典型的挖掘類標籤。示例：熱點敏感度、折扣敏感度。

7.消費屬性

　　不管是電商、內容仍是其餘領域，公司的目標最終都是收益，因此消費屬性每每做爲一個單獨的維度重點刻畫。消費屬性既包括統計型標籤——消費頻次、消費金額、最近一次消費時間等，也包括挖掘型標籤——消費能力和消費意願，還包括敏感度標籤——優惠促銷敏感度、活動敏感度、新品敏感度、爆款敏感度等。

8.用戶生命週期及用戶價值

　　用戶生命週期是用戶運營的重要法典，一個用戶從進入產品到離開，一般會經歷「新手」「成長」「成熟」「衰退」「流失」這5個典型階段，每一個階段對用戶的運營都存在策略差別，畫像在其中的做用是明確標記用戶所處生命週期的階段，便於後續業務人員落地。用戶價值是體現用戶爲產品貢獻價值高低的標籤，最經典的是經過RFM模型得到交易維度標籤，此外，也應該看到用戶的其餘價值，例如爲產品貢獻活躍度，經過裂變拉來新用戶，這些均可設計相應的標籤。示例：新手、成長、成熟、衰退、流失、高價值用戶、VIP等級等。

2、用戶畫像從1到100的構建思路

用戶畫像的主要目的有如下3個：

　　·用於用戶信息的統計，創建對產品、對用戶的基本認知；

　　·用於用戶定向營銷，利用人羣圈選投放物料；

　　·用於算法，沉澱用戶特徵，供模型使用。標籤的完善也能夠按照這3個維度不斷豐富。

1.用於統計，對產品、對用戶的基本認知

　　每一個產品功能策略的完善，都須要創建在對產品、對用戶的充分認知基礎上，也就是說，用戶是誰，有何特色，基本狀況如何，這些是用戶畫像須要回答的重要問題。

　　思路拆解：既然要了解用戶的基礎信息，就須要將用戶基本屬性進行拆解，包括年齡、性別、居住城市（幾線）、家庭結構（婚否、孩否）等。爲了盈利考慮，還須要瞭解基本的收入水平、消費能力等。將拆解的維度抽象，構建對應標籤，而後進行分佈統計，便能生成一份基本的用戶認知報告。

　　標籤結果：年齡、性別等。

2.用於定向營銷和精細化運營

　　運營人員做爲畫像的重要業務適用方，天天都會經過標籤圈選人羣，作定向的用戶、活動、內容精細化運營，以及各app天天都在進行的促銷活動。這些運營和活動的場景分佈在產品的各個渠道和各個資源位，對場景和人羣的精細程度要求都很高。

　　舉一個平常工做中最多見的需求，經過一次數據分析發現，產品的流失用戶佔比提高，通過討論，你們認爲一次結合利益點的push推送是召回流失用戶的有效且快速的手段；同時push做爲各個業務都在爭取的有限資源，但願能夠提升使用效率，確保push這個資源渠道的總體roi。以上需求但願畫像能夠支持。

　　思路拆解：從這個需求背景中，咱們作一次關鍵詞提取，不難發現，關鍵詞是「流失用戶」「利益點」「push」「效率」。其中「流失用戶」是用戶身份識別，「利益點」是用戶優惠敏感度，「push」是產品渠道資源，「效率」意味着要儘量確保圈選人羣精準，不能爲了覆蓋率犧牲準確率。

　　具體落地步驟以下：

　　第一步，肯定流失用戶的口徑和標籤。這裏須要用到用戶生命週期的劃分，從中識別並標識出流失用戶。

　　第二步，分析對流失用戶拉回效果最好的利益點。例如優惠券、折扣、禮品或其餘內容。這一步須要運營和數據開發人員根據平常經驗和數據分析完成，對於畫像的要求是基於分析結論，挖掘不一樣用戶對於優惠折扣的敏感程度，這一點在前面介紹敏感度標籤時有論述，最終目的是確保將每一分錢都花在刀刃上。

　　第三步，肯定拉回的明確目標。是拉回規模仍是準確率。經過需求分析能夠肯定，本次拉回在資源有限的狀況下，須要提高人羣識別的準確率。畫像實現準確率的方法有兩個，一是提高畫像算法的準確率，這部分主要依賴算法自己，沒法一蹴而就，所以這裏選擇第二個方法，即增長人羣圈選的條件，也就是新增標籤，供圈選求交。

　　根據背景分析，咱們能夠增長流失用戶關於push渠道打開意願的標籤，提升push資源的使用效率。

　　通過上述分析，須要生產的標籤以下：

　　·用戶生命週期_流失

　　·用戶折扣優惠敏感度

　　·push使用標籤。這裏能夠用統計型標籤，例如push最近一次訪問時間，在使用時設置條件爲「最近3天，最近7天」；也能夠用綜合的算法挖掘型標籤，即push渠道偏好。

　　經過以上需求分析和思路拆解，畫像的建設過程應該比較明確了，這裏再留一個思考的案例，能夠嘗試分析如何落地：平臺新上一款商品，初期須要在某模塊展現給目標用戶作推廣，同時儘可能不打擾非目標用戶，且不下降該資源位的總體轉化效率。思路拆解：商品的目標用戶——商品能夠按照哪些維度拆分關鍵信息？模塊位置——用戶的模塊功能使用偏好是什麼？準確率的要求——如何提高畫像應用的準確率？回答好以上問題，這個需求的標籤便能順利得到。

3.用於算法，主要應用於搜索推薦、風控廣告等策略方向

　　標籤除了用於基本的用戶羣體描述、定向營銷和精細化運營，還有一個相對來講新穎又普遍的用途：用於各算法的各個環節。在召回和排序兩大經典策略流程中，均可以用到用戶畫像，這裏咱們舉一個畫像在推薦系統召回層的應用案例。　　　　　　　　需求背景：推薦系統的本質是從海量信息中計算用戶最感興趣的部分，對應推薦系統的「召回——粗排——精排」，是一個「層層精選」的過程。其中召回層是精選的第一道流程，爲後續計算打分準備初步的興趣候選集，這裏候選集的生成方法之一就是用戶畫像法。下面仍然以電商業務爲例，講述如何用用戶畫像作興趣召回。

　　思路拆解：召回的做用是粗篩，幫助推薦系統計算第一道用戶興趣池。這裏用戶對物品的興趣可拆解爲對商品品牌、類目和商品標籤的興趣，這就轉化爲前面介紹的內容了，用戶標籤中有品牌偏好標籤、類目偏好標籤和標籤偏好標籤，只須要在全部品牌、類目、標籤下維護一個按照商品質量或者熱度降序排列的列表，這樣只要獲取到用戶標識，便能從用戶畫像中獲取偏好的品牌、類目和標籤。再從品牌、類目和標籤下的商品列表中召回相應的商品，根據候選集大小的設計，作topk截斷召回。這樣，這部分商品就完成初步的召回，爲進入下一個流程進行粗排和精排作好了準備。

3、單個用戶標籤的作法

　　一、用戶標籤的生產流程

　　（1）標籤訂義：給出標籤的定義，即發生什麼行爲的用戶能夠打上這個標籤。　

　　一個用戶標籤是由用戶的不一樣歷史行爲組合而成的，能夠寫成y=∑fn(x)，其中fn(x)是單個的用戶行爲。因此標籤的定義主要是指這個標籤包括哪些用戶行爲，這些用戶行爲以什麼方式組合計算。

　　（2）用戶行爲獲取：探究不一樣的用戶行爲的獲取難度，包括怎麼獲取數據、怎麼處理數據。　　

　　一個完整的用戶行爲（session）包含5個要素：用戶、時間、接觸點、內容和操做。要把這5個要素都獲取到。單純的用戶行爲並不難獲取，可是極可能不能直接使用，須要通過如下三個步驟的處理。

　　1）內容結構化。用戶行爲的五要素中，用戶、時間、接觸點、操做都是能夠經過日誌獲取的。咱們常見的文章、視頻等內容都是非結構化的，不能做爲數據直接被使用。內容只有結構化後，成爲有價值的數據，才能夠被分析、被計算。

　　由於獲取到的用戶行爲是給算法或者規則計算用的，因此獲取的用戶行爲五要素中，內容要通過結構化後纔算是獲取了一條有用的數據。

　　內容結構化的方式包括分類、tag、關鍵詞等，這些都會做爲該內容的內容標籤，被算法使用。每一個作用戶畫像的產品經理都要熟悉內容結構化的方式。內容結構化後，能夠以標籤的形式存在，是用戶標籤生產過程的中間標籤。文章結構化後，會有文章標籤；

　　商品結構化後，會有商品標籤；促銷方式結構化後，會有促銷標籤。

　　2）數據質量檢查。數據從採集到使用的過程當中會出現各類數據質量問題。在獲取數據時，要先作數據質量的檢查和改善，須要注意如下幾點：

　　·人工標註的數據質量；

　　·中間過程當中使用算法計算的環節會有準確率的問題；

　　·若是是用戶人工填寫/選擇，也會有錯誤、不全等問題；

　　·數據處理流程中的無效、失效數據。

　　3）基礎數據獲取。內容結構化和數據質量檢查可能須要一些新數據，而這些數據須要開發新功能才能獲取到，這個開發新功能獲取新數據的過程就叫基礎數據獲取。

　　（3）模型設計：通過分析，肯定了哪些行爲以後，就能夠進行模型的設計。

　　（4）標籤計算：對原始用戶行爲數據進行計算，生成標籤。

　　（5）標籤評估：對生產的標籤進行評估，看準確率、覆蓋率等指標是否達到預期。

　　標籤評估方法會在11.6節詳細講解，這裏介紹一下產品經理經常使用的標籤評估方法：準確率。準確率既能夠分紅5檔，即徹底準確、大部分準確、合格、不許確和徹底不許確，也能夠分紅2檔，即不許確、合格。通過屢次評估後，筆者團隊通常用後者，更利於將工做重點放在不許確的部分，有助於縮短評估時間。

　　　　　　　　　　圖11-3 用戶標籤的生產流程

4、算法標籤的通常生產流程

一、標籤訂義分析

　　示例以下：

　　用戶標誌_偏好_類目偏好_衣服_0.83

　　用戶標誌_偏好_類目偏好_帽子_0.12

　　這裏的「0.83」和「0.12」就是咱們須要計算的標籤屬性值。

二、用戶行爲獲取（特徵探查）

　　用戶行爲獲取的難點和重點有兩個：新用戶行爲如何獲取，是否用戶的所有行爲都須要參與計算。

　　（1）新用戶的行爲如何獲取新用戶行爲的獲取方式有如下兩種。

　　·產品設計。新用戶站內數據的獲取依賴產品設計，好比引導用戶關注本身喜歡的話題，這樣就能經過用戶的自主行爲完成用戶興趣的第一步收集。

　　·策略設計。例如在首頁重要場景，設計絕對熱度邏輯推薦場景，用戶從熱門內容中選取本身感興趣的物品，產生瀏覽、點擊等行爲，這也是完成新用戶收集的方法。

　　（2）是否所有行爲都須要參與計算

　　這個問題的答案必定是否認的，尤爲是畫像建設初期，不宜一次加入過多特徵訓練，由於結果很難把控。行爲特徵選擇依據，能夠參考兩個標準。

　　·該行爲是否是影響用戶決策的核心因子。

　　·該行爲是否稀疏。不少行爲雖然重要，但由於操做門檻高，數據稀疏，同樣影響模型的訓練，初期能夠不引入。

三、模型設計

　　（1）標註數據

　　（2）訓練集建模

　　1）明確哪些特徵屬於重要特徵

　　仍以電商爲例，特徵一共分爲4個維度：用戶的特徵、物品的特徵、用戶—物品的多維特徵和環境特徵。在每個維度內，最能影響業務表現的特徵是什麼，這是產品經理要明確的問題。

　　例如某個以GMV爲優化目標的商品列表場景，影響最終收入的因素以下。

　　·用戶側：用戶的年齡、性別、經濟能力、客單價和歷史訂單GMV等，這些都屬於影響用戶付費的重要因素。

　　·物品側：除了物品的文本、圖片信息外，價格和近期價格變更以及優惠程度也是重要特徵。

　　·用戶—物品的多維特徵：這裏涉及用戶對物品相關維度的特徵，例如用戶對物品所對應的類目、品牌的歷史購買次數、歷史購買總金額等。

　　·環境：時間、是否爲促銷季、優惠券的額度等。

　　這些重要的業務特徵，都須要產品經理經過數據分析和平常經驗的積累，轉化爲模型的特徵，幫助算法更好地輸出符合需求的結果。

　　2）評估特徵的權重值是否符合業務認知人工提供有效特徵是建模前的步驟，算法在訓練完成後，也會輸出各特徵所對應的真實權重，當算法輸出特徵和對應權重的時候，產品經理一方面須要根據本身的經驗，判斷這些權重的合理性；另外一方面，須要從這些特徵中抽象出真實有效的決策信息，沉澱爲本身的經驗，便於創建更完整的業務認知。

　　（3）測試集驗證

　　除了auc等離線測試算法的指標之外，具體還須要在線上進行a/b測試。

　　（4）畫像加工

　　1）肯定衰減方案

　　2）更新頻率

　　3）數據歸一

　　通過以上步驟，即可以獲得一個動態的、不斷更新的、準確的偏好標籤了。

5、加入內容標籤的用戶標籤生產流程

　　一、標籤訂義分析

　　無論什麼類型的標籤，生產的第一步都是給標籤作定義。標籤的定義會直接影響到後續的思考，因此在開始作一個標籤以前，必定要花時間想想，什麼樣的用戶能夠打上這個標籤，這個標籤是哪些用戶行爲的組合。　

　　好比，要定義標籤「寵物行業偏好」，能夠拆爲如下用戶行爲。

　　用戶行爲一：用戶會常常瀏覽寵物的文章。

　　用戶行爲二：點擊寵物相關的廣告等。

　　用戶行爲三：購買寵物類別的商品。

　　用戶行爲四：關注寵物頻道。

　　用戶行爲五：……

　　另外，最好把用戶歷史行爲數據找出來驗證，看看本身的定義對不對。

　　二、內容標籤製做

　　（1）內容標籤製做方法

　　1）直採型

　　·b端用戶輸入；

　　·c端用戶輸入；

　　·公司職能部門輸入

　　2）規則型

　　3）算法型

　　（2）內容標籤案例一：文章分類標籤

　　·算法型：人工標註一批寵物類文章數據，由算法學習和訓練模型，模型訓練好後，就能夠對新的文章生成文章分類標籤。

　　·規則型：統計文章中出現的某個分類關鍵詞的次數，超過必定閾值，就打上該分類標籤。

　　·直採型：讓博主發送文章時，輸入文章的分類，將該分類存儲於數據庫中，標籤系統可直接調用。

　　（3）內容標籤案例二：廣告分類標籤

　　·直採型：人工標註團隊輸入；

　　·直採型：客戶輸入；

　　三、用戶標籤模型設計

　　·直採型

　　·統計型

　　·挖掘型

6、用戶畫像的效果驗收

　　線上部分：a/b測試

　　離線部分：算法指標驗收、分佈驗證、交叉驗證和抽樣評測四種方案。

　　一、算法指標驗收

　　算法指標是對算法能力的評測，例如機器學習，經常使用指標爲AUC、AUC提高率、召回率及準確率四大指標。AUC是算法的經常使用指標；提高率則是跟以前的迭代對比，評估本次的提高幅度；召回率和準確率是算法基礎指標，用以評估標籤的覆蓋狀況和準確狀況。

　　在使用算法指標的時候，須要注意一點，以AUC爲表明的指標是監控每次模型迭代的相關指標，是確保標籤效果的第一步，但算法指標提高與線上效果並不是呈標準的線性關係，因此能夠信AUC，但不能盡信AUC。

　　二、分佈驗證

　　分佈驗證是算法標籤的過程驗證方法，一個算法標籤作完，輸出結果是海量的「用戶標識–分值」對，如何驗證這些「用戶標識–分值」和合理性呢，方法是選取待校驗的標籤和標籤值，再選取最能影響用戶在該標籤分值的一個單點行爲，比較分值和行爲在用戶軸上的分佈狀況。

　　以類目偏好標籤爲例，如圖119所示，第一個分佈圖橫座標是用戶，縱座標是類目偏好的分值；第二個分佈圖橫座標也是用戶，縱座標則選取最能表明用戶對類目偏好程度的下單行爲——用戶訂單量。將二者進行對比。

圖11-9 標籤用戶分佈與真實行爲分佈對比

　　能夠看到，用戶和具體標籤值分佈呈現「L」型，用戶和用戶訂單量呈現「S」型，二者存在較大的差別。這裏值得一提的是，分佈驗證是過程驗證方法之一，不是衡量線上最終效果的惟一指標，有些狀況下不能一律而論，認爲標籤錯誤，可是能夠做爲標籤的一個重要優化方向。

　　三、交叉驗證

　　交叉驗證的前提：用已經驗證過的正確標籤和新標籤作交叉，獲得較爲綜合的用戶特徵，再根據經驗判斷新標籤是否合理。

　　例如，經過將年齡標籤和消費能力標籤交叉，性別和偏好交叉，最近一次訪問時間和流失預警標籤交叉，判斷年齡低的用戶羣消費能力一般不高，女性羣體一般不會喜歡男性商品，最近一次訪問時間在最近3天內的一般不會是流失用戶。交叉驗證的標籤數量越多，驗證結論的置信度就越高。

　　四、抽樣評測

　　若是須要對準確率進行量化，抽樣評測是常規手段。具體方案爲，根據須要隨機抽樣或者抽取頭部用戶樣本，與線上必定時間窗口行爲統計數據作對比，輔助人工評測，標註合理的樣本數量，來統計準確率。

　　例如在用戶興趣偏好標籤輸出後，統計用戶3個月內不一樣類目標籤的點擊次數（點擊行爲比較可以表明用戶的意願），若是興趣分值高但實際點擊次數很是低，則認爲標籤是有問題的。沒有問題的數據佔比便是抽樣評測的準確率。

7、標籤系統注意事項

　　一、作好mvp測試機制

　　MVP是指最小可行性產品，本質是爲了加快迭代速度，以便獲取認知。

　　對於標籤來講，在MVP階段，須要獲取的認知包括如下幾類。

　　·市場認知

　　·標籤規則認知

　　·測試算法效果

　　二、時間在用戶標籤中的用法

　　標籤的時間選擇，主要根據標籤是表明的用戶意圖仍是興趣。意圖是指用戶想要作什麼，通常會用較近的時間；興趣是用戶喜歡什麼，興趣通常會維持較長時間，因此興趣標籤採用的時間窗口較長。好比行業偏好是一個興趣標籤，所以採用的用戶行爲時間通常較長。

　　時間做爲一個要素，使用的時候有如下技巧。

　　·標籤測試

　　·標籤優化

　　·時間窗

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。