如何發現品牌潛客？目標人羣優選算法模型及實踐解析

時間 2020-06-18

標籤如何發現品牌目標人羣優選算法模型實踐解析简体版

原文原文鏈接

阿里妹導讀：品牌數字化營銷正在成爲熱點，在Uni-Marketing背景下，咱們經過策略中心海豹項目，探索和實踐了品牌目標人羣優選算法，在實際投放中取得了很是好的人羣轉化效果，並得出一些有價值的算法和業務結論。本文主要對品牌目標人羣優選算法及相關實踐結論進行介紹。算法

1. 背景簡介

全域營銷（Uni-Marketing）戰略是依託大阿里生態，以消費者運營爲核心，在新零售體系下實現全鏈路、全媒體、全數據、全渠道的品牌大數據營銷。Uni-Marketing產品矩陣包括品牌數據銀行、全域策略（策略中心）、全域傳播（Uni-Desk）、全域運營（品牌號、智慧門店、天貓營銷產品）等。傳統品牌營銷的痛點在於效果沒法量化和追蹤，而阿里的產品和數據閉環能夠很好的解決這個問題。網絡

策略中心年貨節投放海豹項目，經過大數據+算法的手段，對A品牌的目標人羣進行分析，創建人羣優選算法模型，挖掘品牌目標潛客。品牌A的年貨節實際投放效果，算法優選人羣相比基於業務經驗使用規則圈選的人羣，在「O->IPL」人羣關係加深率指標上好47%，顯示了人羣優選算法的有效性。架構

2. 名詞解釋

品牌消費者關係：Opportunity（機會）、Awareness（認知）、Interest（興趣）、Purchase（購買）、Loyalty（忠誠）。ide

人羣關係加深率：衡量品牌營銷效果的直接指標。「O->I」人羣關係加深率，即機會人羣到興趣人羣的轉化率。函數

品牌數據銀行：從「融合、分析、激活」三個緯度實現品牌消費者數據資產的管理和增值，即品牌消費者數據資產的高效梳理、消費者全鏈路的透視分析、最後到多元營銷場景的應用，包括阿里的電商、娛樂和營銷服務矩陣。 品牌策略中心：以解決「機會在哪裏」和「如何增加」爲目標，賦能品牌開發生意策略，實現策略的可應用、可驗證、可優化。功能包括市場概覽與細分、競爭與得失分析、消費者細分與多維洞察、人羣放大與優選等，可用於新品上市、品類拉新、品類成長、品牌升級等場景。學習

3. 項目目標

基於策略中心的品牌人羣定向，與程序化廣告的不一樣之處在於，要根據品牌方的營銷需求（包括目標、渠道、時間和預算）產出特定規模的目標人羣，進而再針對性地營銷投放。大數據

這次實踐即以年貨節拉新爲目標，找到指定規模的潛在機會人羣或者認知人羣，經過營銷投放將其轉化爲品牌興趣人羣和已購人羣，從而提高品牌消費者資產。優化

4. 業界方案

業界相關方案主要與程序化廣告中人羣定向相關，方法基本都是Look-alike人羣擴散，具體有如下幾種：編碼

1）標籤擴散：根據已有目標用戶畫像，給用戶打各類標籤，再利用標籤找到機會人羣。spa

2）基於標籤的協同過濾：在標籤擴散的基礎上，採用基於用戶的協同過濾算法，找到與種子人羣類似的機會人羣。

3）基於社交關係的擴散：以具備類似社交關係的人也有類似的興趣愛好/價值觀爲前提假設，利用社交網絡關係進行人羣擴散。

4）基於聚類的擴散：根據用戶畫像或標籤，採用層次聚類算法（如BIRCH或CURE算法）對人羣進行聚類，再從中找出與種子人羣類似的機會人羣。

5）目標人羣分類方法：以種子人羣爲正樣本，候選對象爲負樣本，訓練分類模型，而後用模型對全部候選對象進行篩選。涉及PU Learning的問題。

5. 技術方案介紹

根據項目目標，咱們制定了「種子人羣聚類細分+聚類人羣擴散」和「多方向人羣擴散+人羣分類優選」的兩種方案。因爲聚類分羣屬於無監督學習且分羣效果不容易評估，所以選擇後者優先實施。

方案總體流程以下圖所示：

5.1 多方向人羣擴散

在人羣擴散方向上，咱們探索了6類方向，並在每一個方向下挖掘有效特徵，經過白盒條件篩選和黑盒模型預測的方式進行人羣擴散。

5.1.1 興趣偏好方向

採用特徵值TGI和TA濃度2個指標，挖掘了4個特徵中與品牌相關的特徵值，並根據特徵值的全網覆蓋量設定TGI和TA濃度閾值，進行白盒擴散。TGI指標衡量了特徵值在品牌人羣中的顯著性，TA濃度則衡量了特徵值在品牌人羣中的覆蓋率，所以兩者共同考慮才能篩選出有效的人羣擴散特徵值。

5.1.2 相關品類方向

1) 主營類目分析：根據品牌在線商品數和銷售額計算篩選主營類目，並得出主營類目權重。

2) 相關品牌分析：根據brand-user關係矩陣，採用Jaccard類似度計算相關品牌及相關分。類似度計算公式以下：

3）相關類目分析：根據線上user-cate購買行爲，經過Association Rule Mining挖掘相關類目，使用confidence指標篩選類目並做爲相關分，而後通過類目關係的二度擴散獲得最終相關類目結果。類目擴散公式以下，其中表示類目k：

5.1.3 競品人羣方向

1)競品分析：當前品牌主營類目中，市場份額top10的其餘品牌。

2)人羣流轉分析：分析發現品牌新增人羣中，有較大比例來自競品，說明選擇該方向進行擴散是可靠的。

3) 競品人羣轉化模型：以來自競品的人羣爲目標，挖掘用戶在競品的AIPL狀態、退款、退貨、評分、評價等特徵，訓練競品人羣轉化模型。經過模型對競品人羣進行轉換預測，實現人羣擴散。

5.1.4 搜索人羣方向

1) 搜索關鍵詞：從引導到品牌成交的搜索詞中，綜合考慮搜索詞是否充分競爭以及本品牌在搜索詞上是否有優點，實現品牌拉相關的搜索詞發現。公式以下，其中E表示關鍵詞引導成交的類目信息熵，
表示關鍵詞引導成交額，
表示關鍵詞引導到品牌的成交額：

2）搜索人羣擴散：近15天內搜索了kwords並點擊了品牌主營類目的用戶。

5.1.5 流失人羣方向

對於以前屬於品牌人羣而現已流失了的用戶，也進行擴散召回，包括近半年從IPL狀態流失的用戶和近1個月從A狀態流失的用戶。

5.1.6 同好人羣方向

基於用戶的向量表示，能夠直接計算用戶與用戶直接的類似度，從而獲得種子用戶最類似的topN個用戶。用戶表示的方法有多種，例如：

a) 用戶偏好的類目向量、品牌向量組合。

b) 將user-item表示爲二部圖，基於graph embedding方法生成用戶向量。

5.1.7 人羣擴散彙總

最終6個方向的品牌擴散人羣彙總去重，做爲人羣優選模型的輸入。

5.2 目標人羣優選模型

沒有歷史投放數據，是這次項目面臨的一個挑戰。咱們經過訓練模型來區分目標人羣和非目標人羣。

5.2.1 評估指標

訓練集的正負樣本，分別從品牌已購人羣和其餘品牌的人羣中採樣獲得。從中訓練的分類模型，能夠較好的區分品牌目標人羣和全網其它人羣（大都和目標人羣相距較遠），但對區分和品牌目標人羣相距不遠的擴散人羣則並不是一樣有效。

所以，直接使用傳統的分類指標，只能評估模型在訓練集上的效果，不能準確評估其在擴散人羣上的分類效果，須要設計新的評估指標。

PredictTA TopNPrecision指標由此而來，表示優選的TopN人羣中品牌目標人羣的佔比，該指標越大說明模型預測效果越好。咱們經過對比該指標在不一樣模型上使用不一樣topN值的值，驗證了它的一致性；並設計NewTA topN Recall指標，即優選人羣在以後一段時間品牌新增目標人羣的佔比，驗證了它的正確性。

上圖中，紫色框表示品牌目標人羣即種子人羣，藍色框表示模型優選出的TopN人羣，它與種子人羣有小部分交集，交集佔藍色框的比例即爲PredictTATopN Precision。綠色框表示一週內品牌實際新增人羣，與藍色框的交集爲預測準確的人羣，交集佔綠色框的比例即爲NewTA topN Recall。

對於有效的算法模型，PredictTATopN Precision指標隨着TopN的減少而增大。兩個不一樣的算法模型，PredictTA TopN Precision指標在不一樣TopN取值上的表現是一致的，說明該指標的穩定性。以A品牌爲例，其一致性驗證結果以下圖所示：

5.2.2 模型訓練

以品牌目標人羣爲正樣本，從全網其它品牌的人羣中隨機選負樣本，通過數據預處理、歸一化、序列化編碼後，訓練並優化人羣優選模型。

1）樣本選擇

a. 正樣本選擇：對於線上市場份額大的品牌而言，直接用品牌已購人羣便可。但對新品牌或者線上市場份額小的品牌，已購人羣可能很小，這時就須要對正樣本進行擴充，好比加入興趣人羣、加入與品牌定位類似的其它品牌的人羣。

b. 負樣本選擇：默認從全網其它品牌的人羣中隨機採樣，但發現全網人羣中特徵缺失的狀況比較多，負樣本集離擴散人羣比較遠，所以實驗了從全網其它品牌的已購人羣中採樣，PredictTA TopN Precision（N=300萬）指標絕對值有0.8%的提高。

2）特徵工程

a. 數值型特徵離散化。年購物天數、近30天訂單數等特徵進行等距離散，提升模型穩定性和效果。

b. 枚舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈很是明顯，篩選出與目標品牌相關的特徵值。

c. 多值特徵處理。偏好品牌、偏好類目這樣的特徵，一個用戶能夠同時有多個特徵值。以品牌A品牌爲例，咱們在b步篩選的基礎上，對比了只保留偏好值最大的特徵、只保留品牌最相關的特徵、保留品牌相關的多個特徵3種不一樣的處理方法，效果以下：

d. 特徵編碼。主要採用one-hot編碼方式。

e. 稀疏特徵embedding。對於類目id，品牌id這種高維高稀疏性的特徵，直接將其做爲分類模型的特徵會影響最終的模型效果，爲此，咱們借鑑word embedding的思路，將用戶過去一段時間內對類目（或品牌）的行爲序列做爲doc，將類目（或品牌）自己做爲word，基於全網活躍用戶的行爲序列（doc集合）訓練類目（或品牌）的embedding表示。具體而言，咱們將類目（或品牌）編碼爲100維的低維稠密向量，並將其做爲預測特徵用於模型訓練。

f. 特徵選擇。首先使用所有特徵進行模型訓練，而後根據特徵重要性程度篩除部分尾部特徵，從新訓練模型，經過比較模型的PredictTA TopN Precision指標肯定這次特徵選擇是否更好。

3）訓練模型

a. LR模型。使用邏輯迴歸做爲baseline的算法，除了模型簡單容易理解外，還有個好處是能夠得出特徵和特徵值的重要性。

b. RF模型。對隨機森林模型的實驗效果並不理想，在相同的樣本和特徵上Precision和AUC指標均比LR低，且特徵重要性結果只能到特徵粒度不能到特徵值粒度，所以再也不使用。

c. PS-SMART。基於PS架構的GBDT算法模型，決策樹弱分類器加上GBM算法，具備較強的非線性擬合能力，在應用中相比其它兩種算法模型效果更好。所以選擇PS-SMART做爲最終的算法模型，並對損失函數、樹的個數深度、正則係數進行調優。

模型與特徵相關對比結果以下表：

5.2.3 模型預測

使用訓練好的人羣優選模型，對5.1節中產出的擴散人羣進行預測打分，篩除預測分數小於0.5的人羣，再根據拉新的目標過濾品牌現有IPL人羣。

5.3 年貨人羣模型

這次品牌投放需求臨近春節，與年貨的相關性很大。雖然能夠用最新的樣本數據訓練平常的目標人羣優選模型，但人羣擴散方向和相關特徵並不是針對年貨場景而挖掘的，所以不能有效捕捉出於屯年貨動機的消費需求，須要針對年貨場景單獨創建一我的羣模型進行預測。

但因爲年貨場景與日期時間高度相關，須要用到去年春節期間品牌相關的人羣數據，與平常模型差別較大，不方便合併，須要單獨建模。

5.3.1 品牌相關年貨類目

1) 年貨類目挖掘：統計春節期間包含「年貨」的搜索詞所引導點擊的類目數據，再由運營同窗根據業務經驗篩選出部分與年貨相關性較強的類目，從而獲得二級類目粒度的年貨類目數據。

2) 品牌相關年貨類目：根據春節期間融合不一樣行爲的「用戶-類目」矩陣，經過I2I算法計算年貨類目的相關性，進而獲得品牌主營類目相關的年貨類目及其相關分。

5.3.2 年貨人羣特徵

1) 人羣屬性特徵：同平常人羣優選模型同樣，包括用戶人口基礎屬性、人口預測屬性等。

2) 人羣偏好特徵：同平常人羣優選模型同樣，包括與目標品牌相關的偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵。

3) 品牌主營類目行爲特徵、品牌相關年貨類目行爲特徵。包括有行爲的相關年貨類目id、類目相關性等特徵。

5.3.3 年貨人羣模型

1) 樣本選擇：根據投放時間的農曆日期，選取去年當日前1個月有行爲的用戶作樣本。其中以去年當日到元宵節期間轉化到品牌PL狀態的用戶爲正樣本，隨機採用同等數量的其餘用戶爲負樣本，訓練年貨人羣模型。

2) 模型訓練：基於平常人羣優選模型的經驗，一樣採用PS-SMART算法進行模型訓練、優化、及特徵重要性分析。

3) 模型預測：圈選投放日期前1個月對品牌主營類目及相關年貨類目有行爲的用戶，使用年貨人羣模型進行預測，去除預測分數小於0.5的用戶，根據拉新目標去除品牌現有IPL人羣。

5.4 目標人羣模型融合

根據平常人羣優選模型和年貨人羣模型的PredictTA TopN Precision指標，肯定目標人羣中2個模型優選結果的佔比，最終篩選出指定數量的投放人羣，導入數據銀行，供服務商同步到DMP進行品牌廣告投放。

5.5 投放效果追蹤

品牌A投放案例，算法優選年貨人羣（A人羣包），服務商經過策略中心找出品牌A購買人羣同時購買的年貨類目，選取買了對應類目的人羣（A人羣包），分別在鑽展投放。其中算法優選人羣在「O->IPL」人羣關係加深率指標上相比高47%，拉新轉化效果顯著。算法優選人羣內部，年貨模型轉化率最低，混合模型轉化率最高，說明在春節期間品牌A的目標人羣與平常目標人羣特徵比較相近，有年貨囤零食需求的平常目標人羣在春節期間轉化率最好。

6. 挑戰與應對

6.1 項目時間週期短

所以咱們優先保證模型目標與業務目標的一致，時間上作到最新，對投放渠道則沒有研究和優化。

6.2 無歷史反饋數據

品牌人羣優選模型，因爲沒有品牌投放歷史，不能從用戶的歷史投放反饋中來學習品牌人羣特徵。尤爲是不能獲取大量直接的負樣本，只能以隨機人羣來代替，在樣本選擇上還有很大的提高空間。

6.3 無歷史屬性特徵

年貨人羣模型和時間緊密相關，但因爲存儲週期的緣由，只能獲取用戶去年的行爲特徵，而沒法獲取去年的屬性和偏好特徵，只能用近期的屬性和偏好特徵來代替，在特徵實效性上也有較大提高空間。

6.4 重要的稀疏特徵

模型使用的特徵中有較多的稀疏特徵，這些特徵的特徵值呈長尾分佈，所有使用會引入不少噪聲影響模型效果，只選高頻特徵又會丟失較多信息，爲此咱們採用特徵值的TGI和TA濃度兩個指標綜合篩選，達到保留相關特徵值、減小噪音和信息丟失的目的。

6.5 有效的評估指標

也是因爲無歷史反饋數據，致使用於優選的擴散人羣與訓練模型的人羣分佈有較大差別，單純的AUC、Precision等指標不能準確衡量優選模型在擴散人羣上的效果，爲此咱們設計並驗證了PredictTA TopN Precision評估指標，有效指導了模型的優化。

7. 總結與展望

針對品牌目標人羣定向，這次實踐的人羣擴散+優選的算法流程、人羣優選/年貨人羣模型、及提出的PredictTA TopN Precision評估指標是很是有效的。後續優化方向，包括前面挑戰中提到的基於用戶反饋數據的樣本優化，須要大量的投放反饋數據；用戶歷史屬性和偏好特徵優化，須要存儲更多的歷史特徵數據；稀疏特徵的優化，可經過深度學習方法將稀釋特徵映射到稠密特徵空間實現；用戶在生活方式/消費心理方面的embedding特徵，對於人羣優選很是有用，多任務學習是不錯的實現方式。

本文做者：雲鳴

閱讀原文

本文來自雲棲社區合做夥伴「阿里技術」，如需轉載請聯繫原做者。