阿里妹導讀:品牌數字化營銷正在成爲熱點,在Uni-Marketing背景下,咱們經過策略中心海豹項目,探索和實踐了品牌目標人羣優選算法,在實際投放中取得了很是好的人羣轉化效果,並得出一些有價值的算法和業務結論。本文主要對品牌目標人羣優選算法及相關實踐結論進行介紹。算法
全域營銷(Uni-Marketing)戰略是依託大阿里生態,以消費者運營爲核心,在新零售體系下實現全鏈路、全媒體、全數據、全渠道的品牌大數據營銷。Uni-Marketing產品矩陣包括品牌數據銀行、全域策略(策略中心)、全域傳播(Uni-Desk)、全域運營(品牌號、智慧門店、天貓營銷產品)等。傳統品牌營銷的痛點在於效果沒法量化和追蹤,而阿里的產品和數據閉環能夠很好的解決這個問題。網絡
策略中心年貨節投放海豹項目,經過大數據+算法的手段,對A品牌的目標人羣進行分析,創建人羣優選算法模型,挖掘品牌目標潛客。品牌A的年貨節實際投放效果,算法優選人羣相比基於業務經驗使用規則圈選的人羣,在「O->IPL」人羣關係加深率指標上好47%,顯示了人羣優選算法的有效性。架構
品牌消費者關係:Opportunity(機會)、Awareness(認知)、Interest(興趣)、Purchase(購買)、Loyalty(忠誠)。ide
人羣關係加深率:衡量品牌營銷效果的直接指標。「O->I」人羣關係加深率,即機會人羣到興趣人羣的轉化率。函數
品牌數據銀行:從「融合、分析、激活」三個緯度實現品牌消費者數據資產的管理和增值,即品牌消費者數據資產的高效梳理、消費者全鏈路的透視分析、最後到多元營銷場景的應用,包括阿里的電商、娛樂和營銷服務矩陣。 品牌策略中心:以解決「機會在哪裏」和「如何增加」爲目標,賦能品牌開發生意策略,實現策略的可應用、可驗證、可優化。功能包括市場概覽與細分、競爭與得失分析、消費者細分與多維洞察、人羣放大與優選等,可用於新品上市、品類拉新、品類成長、品牌升級等場景。學習
基於策略中心的品牌人羣定向,與程序化廣告的不一樣之處在於,要根據品牌方的營銷需求(包括目標、渠道、時間和預算)產出特定規模的目標人羣,進而再針對性地營銷投放。大數據
這次實踐即以年貨節拉新爲目標,找到指定規模的潛在機會人羣或者認知人羣,經過營銷投放將其轉化爲品牌興趣人羣和已購人羣,從而提高品牌消費者資產。優化
業界相關方案主要與程序化廣告中人羣定向相關,方法基本都是Look-alike人羣擴散,具體有如下幾種:編碼
1)標籤擴散:根據已有目標用戶畫像,給用戶打各類標籤,再利用標籤找到機會人羣。spa
2)基於標籤的協同過濾:在標籤擴散的基礎上,採用基於用戶的協同過濾算法,找到與種子人羣類似的機會人羣。
3)基於社交關係的擴散:以具備類似社交關係的人也有類似的興趣愛好/價值觀爲前提假設,利用社交網絡關係進行人羣擴散。
4)基於聚類的擴散:根據用戶畫像或標籤,採用層次聚類算法(如BIRCH或CURE算法)對人羣進行聚類,再從中找出與種子人羣類似的機會人羣。
5)目標人羣分類方法:以種子人羣爲正樣本,候選對象爲負樣本,訓練分類模型,而後用模型對全部候選對象進行篩選。涉及PU Learning的問題。
根據項目目標,咱們制定了「種子人羣聚類細分+聚類人羣擴散」和「多方向人羣擴散+人羣分類優選」的兩種方案。因爲聚類分羣屬於無監督學習且分羣效果不容易評估,所以選擇後者優先實施。
方案總體流程以下圖所示:
在人羣擴散方向上,咱們探索了6類方向,並在每一個方向下挖掘有效特徵,經過白盒條件篩選和黑盒模型預測的方式進行人羣擴散。
5.1.1 興趣偏好方向
採用特徵值TGI和TA濃度2個指標,挖掘了4個特徵中與品牌相關的特徵值,並根據特徵值的全網覆蓋量設定TGI和TA濃度閾值,進行白盒擴散。TGI指標衡量了特徵值在品牌人羣中的顯著性,TA濃度則衡量了特徵值在品牌人羣中的覆蓋率,所以兩者共同考慮才能篩選出有效的人羣擴散特徵值。
5.1.2 相關品類方向
1) 主營類目分析:根據品牌在線商品數和銷售額計算篩選主營類目,並得出主營類目權重。
2) 相關品牌分析:根據brand-user關係矩陣,採用Jaccard類似度計算相關品牌及相關分。類似度計算公式以下:
3)相關類目分析:根據線上user-cate購買行爲,經過Association Rule Mining挖掘相關類目,使用confidence指標篩選類目並做爲相關分,而後通過類目關係的二度擴散獲得最終相關類目結果。類目擴散公式以下,其中表示類目k:
5.1.3 競品人羣方向
1)競品分析:當前品牌主營類目中,市場份額top10的其餘品牌。
2)人羣流轉分析:分析發現品牌新增人羣中,有較大比例來自競品,說明選擇該方向進行擴散是可靠的。
3) 競品人羣轉化模型:以來自競品的人羣爲目標,挖掘用戶在競品的AIPL狀態、退款、退貨、評分、評價等特徵,訓練競品人羣轉化模型。經過模型對競品人羣進行轉換預測,實現人羣擴散。
5.1.4 搜索人羣方向
1) 搜索關鍵詞:從引導到品牌成交的搜索詞中,綜合考慮搜索詞是否充分競爭以及本品牌在搜索詞上是否有優點,實現品牌拉相關的搜索詞發現。公式以下,其中E表示關鍵詞引導成交的類目信息熵,
表示關鍵詞引導成交額,
表示關鍵詞引導到品牌的成交額:
2)搜索人羣擴散:近15天內搜索了kwords並點擊了品牌主營類目的用戶。
5.1.5 流失人羣方向
對於以前屬於品牌人羣而現已流失了的用戶,也進行擴散召回,包括近半年從IPL狀態流失的用戶和近1個月從A狀態流失的用戶。
5.1.6 同好人羣方向
基於用戶的向量表示,能夠直接計算用戶與用戶直接的類似度,從而獲得種子用戶最類似的topN個用戶。用戶表示的方法有多種,例如:
a) 用戶偏好的類目向量、品牌向量組合。
b) 將user-item表示爲二部圖,基於graph embedding方法生成用戶向量。
5.1.7 人羣擴散彙總
最終6個方向的品牌擴散人羣彙總去重,做爲人羣優選模型的輸入。
沒有歷史投放數據,是這次項目面臨的一個挑戰。咱們經過訓練模型來區分目標人羣和非目標人羣。
5.2.1 評估指標
訓練集的正負樣本,分別從品牌已購人羣和其餘品牌的人羣中採樣獲得。從中訓練的分類模型,能夠較好的區分品牌目標人羣和全網其它人羣(大都和目標人羣相距較遠),但對區分和品牌目標人羣相距不遠的擴散人羣則並不是一樣有效。
所以,直接使用傳統的分類指標,只能評估模型在訓練集上的效果,不能準確評估其在擴散人羣上的分類效果,須要設計新的評估指標。
PredictTA TopNPrecision指標由此而來,表示優選的TopN人羣中品牌目標人羣的佔比,該指標越大說明模型預測效果越好。咱們經過對比該指標在不一樣模型上使用不一樣topN值的值,驗證了它的一致性;並設計NewTA topN Recall指標,即優選人羣在以後一段時間品牌新增目標人羣的佔比,驗證了它的正確性。
上圖中,紫色框表示品牌目標人羣即種子人羣,藍色框表示模型優選出的TopN人羣,它與種子人羣有小部分交集,交集佔藍色框的比例即爲PredictTATopN Precision。綠色框表示一週內品牌實際新增人羣,與藍色框的交集爲預測準確的人羣,交集佔綠色框的比例即爲NewTA topN Recall。
對於有效的算法模型,PredictTATopN Precision指標隨着TopN的減少而增大。兩個不一樣的算法模型,PredictTA TopN Precision指標在不一樣TopN取值上的表現是一致的,說明該指標的穩定性。以A品牌爲例,其一致性驗證結果以下圖所示:
5.2.2 模型訓練
以品牌目標人羣爲正樣本,從全網其它品牌的人羣中隨機選負樣本,通過數據預處理、歸一化、序列化編碼後,訓練並優化人羣優選模型。
1)樣本選擇
a. 正樣本選擇:對於線上市場份額大的品牌而言,直接用品牌已購人羣便可。但對新品牌或者線上市場份額小的品牌,已購人羣可能很小,這時就須要對正樣本進行擴充,好比加入興趣人羣、加入與品牌定位類似的其它品牌的人羣。
b. 負樣本選擇:默認從全網其它品牌的人羣中隨機採樣,但發現全網人羣中特徵缺失的狀況比較多,負樣本集離擴散人羣比較遠,所以實驗了從全網其它品牌的已購人羣中採樣,PredictTA TopN Precision(N=300萬)指標絕對值有0.8%的提高。
2)特徵工程
a. 數值型特徵離散化。年購物天數、近30天訂單數等特徵進行等距離散,提升模型穩定性和效果。
b. 枚舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈很是明顯,篩選出與目標品牌相關的特徵值。
c. 多值特徵處理。偏好品牌、偏好類目這樣的特徵,一個用戶能夠同時有多個特徵值。以品牌A品牌爲例,咱們在b步篩選的基礎上,對比了只保留偏好值最大的特徵、只保留品牌最相關的特徵、保留品牌相關的多個特徵3種不一樣的處理方法,效果以下:
d. 特徵編碼。主要採用one-hot編碼方式。
e. 稀疏特徵embedding。對於類目id,品牌id這種高維高稀疏性的特徵,直接將其做爲分類模型的特徵會影響最終的模型效果,爲此,咱們借鑑word embedding的思路,將用戶過去一段時間內對類目(或品牌)的行爲序列做爲doc,將類目(或品牌)自己做爲word,基於全網活躍用戶的行爲序列(doc集合)訓練類目(或品牌)的embedding表示。具體而言,咱們將類目(或品牌)編碼爲100維的低維稠密向量,並將其做爲預測特徵用於模型訓練。
f. 特徵選擇。首先使用所有特徵進行模型訓練,而後根據特徵重要性程度篩除部分尾部特徵,從新訓練模型,經過比較模型的PredictTA TopN Precision指標肯定這次特徵選擇是否更好。
3)訓練模型
a. LR模型。使用邏輯迴歸做爲baseline的算法,除了模型簡單容易理解外,還有個好處是能夠得出特徵和特徵值的重要性。
b. RF模型。對隨機森林模型的實驗效果並不理想,在相同的樣本和特徵上Precision和AUC指標均比LR低,且特徵重要性結果只能到特徵粒度不能到特徵值粒度,所以再也不使用。
c. PS-SMART。基於PS架構的GBDT算法模型,決策樹弱分類器加上GBM算法,具備較強的非線性擬合能力,在應用中相比其它兩種算法模型效果更好。所以選擇PS-SMART做爲最終的算法模型,並對損失函數、樹的個數深度、正則係數進行調優。
模型與特徵相關對比結果以下表:
5.2.3 模型預測
使用訓練好的人羣優選模型,對5.1節中產出的擴散人羣進行預測打分,篩除預測分數小於0.5的人羣,再根據拉新的目標過濾品牌現有IPL人羣。
這次品牌投放需求臨近春節,與年貨的相關性很大。雖然能夠用最新的樣本數據訓練平常的目標人羣優選模型,但人羣擴散方向和相關特徵並不是針對年貨場景而挖掘的,所以不能有效捕捉出於屯年貨動機的消費需求,須要針對年貨場景單獨創建一我的羣模型進行預測。
但因爲年貨場景與日期時間高度相關,須要用到去年春節期間品牌相關的人羣數據,與平常模型差別較大,不方便合併,須要單獨建模。
5.3.1 品牌相關年貨類目
1) 年貨類目挖掘:統計春節期間包含「年貨」的搜索詞所引導點擊的類目數據,再由運營同窗根據業務經驗篩選出部分與年貨相關性較強的類目,從而獲得二級類目粒度的年貨類目數據。
2) 品牌相關年貨類目:根據春節期間融合不一樣行爲的「用戶-類目」矩陣,經過I2I算法計算年貨類目的相關性,進而獲得品牌主營類目相關的年貨類目及其相關分。
5.3.2 年貨人羣特徵
1) 人羣屬性特徵:同平常人羣優選模型同樣,包括用戶人口基礎屬性、人口預測屬性等。
2) 人羣偏好特徵:同平常人羣優選模型同樣,包括與目標品牌相關的偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵。
3) 品牌主營類目行爲特徵、品牌相關年貨類目行爲特徵。包括有行爲的相關年貨類目id、類目相關性等特徵。
5.3.3 年貨人羣模型
1) 樣本選擇:根據投放時間的農曆日期,選取去年當日前1個月有行爲的用戶作樣本。其中以去年當日到元宵節期間轉化到品牌PL狀態的用戶爲正樣本,隨機採用同等數量的其餘用戶爲負樣本,訓練年貨人羣模型。
2) 模型訓練:基於平常人羣優選模型的經驗,一樣採用PS-SMART算法進行模型訓練、優化、及特徵重要性分析。
3) 模型預測:圈選投放日期前1個月對品牌主營類目及相關年貨類目有行爲的用戶,使用年貨人羣模型進行預測,去除預測分數小於0.5的用戶,根據拉新目標去除品牌現有IPL人羣。
根據平常人羣優選模型和年貨人羣模型的PredictTA TopN Precision指標,肯定目標人羣中2個模型優選結果的佔比,最終篩選出指定數量的投放人羣,導入數據銀行,供服務商同步到DMP進行品牌廣告投放。
品牌A投放案例,算法優選年貨人羣(A人羣包),服務商經過策略中心找出品牌A購買人羣同時購買的年貨類目,選取買了對應類目的人羣(A人羣包),分別在鑽展投放。其中算法優選人羣在「O->IPL」人羣關係加深率指標上相比高47%,拉新轉化效果顯著。算法優選人羣內部,年貨模型轉化率最低,混合模型轉化率最高,說明在春節期間品牌A的目標人羣與平常目標人羣特徵比較相近,有年貨囤零食需求的平常目標人羣在春節期間轉化率最好。
6.1 項目時間週期短
所以咱們優先保證模型目標與業務目標的一致,時間上作到最新,對投放渠道則沒有研究和優化。
6.2 無歷史反饋數據
品牌人羣優選模型,因爲沒有品牌投放歷史,不能從用戶的歷史投放反饋中來學習品牌人羣特徵。尤爲是不能獲取大量直接的負樣本,只能以隨機人羣來代替,在樣本選擇上還有很大的提高空間。
6.3 無歷史屬性特徵
年貨人羣模型和時間緊密相關,但因爲存儲週期的緣由,只能獲取用戶去年的行爲特徵,而沒法獲取去年的屬性和偏好特徵,只能用近期的屬性和偏好特徵來代替,在特徵實效性上也有較大提高空間。
6.4 重要的稀疏特徵
模型使用的特徵中有較多的稀疏特徵,這些特徵的特徵值呈長尾分佈,所有使用會引入不少噪聲影響模型效果,只選高頻特徵又會丟失較多信息,爲此咱們採用特徵值的TGI和TA濃度兩個指標綜合篩選,達到保留相關特徵值、減小噪音和信息丟失的目的。
6.5 有效的評估指標
也是因爲無歷史反饋數據,致使用於優選的擴散人羣與訓練模型的人羣分佈有較大差別,單純的AUC、Precision等指標不能準確衡量優選模型在擴散人羣上的效果,爲此咱們設計並驗證了PredictTA TopN Precision評估指標,有效指導了模型的優化。
針對品牌目標人羣定向,這次實踐的人羣擴散+優選的算法流程、人羣優選/年貨人羣模型、及提出的PredictTA TopN Precision評估指標是很是有效的。後續優化方向,包括前面挑戰中提到的基於用戶反饋數據的樣本優化,須要大量的投放反饋數據;用戶歷史屬性和偏好特徵優化,須要存儲更多的歷史特徵數據;稀疏特徵的優化,可經過深度學習方法將稀釋特徵映射到稠密特徵空間實現;用戶在生活方式/消費心理方面的embedding特徵,對於人羣優選很是有用,多任務學習是不錯的實現方式。
本文做者:雲鳴
本文來自雲棲社區合做夥伴「阿里技術」,如需轉載請聯繫原做者。