在大數據時代,機器要學會從比特流中解讀用戶,構建用戶畫像就變得尤爲重要。本文介紹了用戶畫像的理論和實踐,以及在實際中的應用。如何根據用戶畫像進行精準營銷?將用戶畫像應用於個性化推薦?一塊兒來尋找答案吧~算法
首先看一下大數據與應用畫像的關係,如今大數據是煊赫一時,相信你們對大數據的四個V都很是瞭解,大數據應該說是 信息技術的天然延伸,意味着無所不在的數據。網絡
咱們先看下數據地位發生轉變的歷史,在傳統的IT時代,TI系統圍繞業務服務,在這個服務的過程當中沉澱了不少數據,再在數據的基礎上作一些分析。可是到了DT時代不同了,數據是現實世界的虛擬化表現,數據自己構成了一個虛擬世界,IT系統構建在虛擬系統上,變得更加智能。架構
1機器學習
大數據無處不在體如今幾個方面學習
第一個就是說咱們社會信息化的建設愈來愈發達。大數據
第二個是隨着可穿戴設備的發展,人產生了愈來愈多的數據,接入網絡當中,同時人和人之間溝通的方式也不只僅是傳統的面對面,傳統理解人、與人溝通的方式發生了根本的變革,所以咱們要學會從比特流中去認識人類,所以構建用戶畫像這件事就變得更加劇要。優化
並且如今機器也變得很智能了,因此咱們還要教會機器來認識人類,這樣才能在畫像的基礎上構建應用,譬如個性化推薦、精準廣告、金融徵信等等。以前我一直是在從事這方面的應用開發,所以知道用戶畫像對於這些應用的重要性。網站
若是你們是來自互聯網公司的話,咱們常常會提到這些詞:用戶畫像、標籤、360度用戶視圖等等,有很多人甚至就是作這面的研發工做,可是這些概念讓你感受有一點似是而非,我之前也有這樣的感受,就是說沒有從根本上把這些概念弄清楚,所以有必要把這些概念從根本上弄清楚。設計
2blog
首先看一下咱們生活中的用戶畫像
舉個例子,」身長八尺、面如冠玉、頭戴綸巾」,你們會想到一我的是誰?諸葛亮是吧,這是一段文本上的描述。你們再看一下,下面這張圖你們又會想到誰,希特勒。再看一下右邊這幅圖,這是一個球員。這個就不用說了,是美國的奧巴馬。這些都是生活中的畫像,都是爲了描述一我的,可是它們的描述方式和角度不同的。
可是從咱們這些描述當中能夠看出一些共性,主要體如今以下幾個方面:
第一個是目標,目標都是爲了描述人、理解人,這是用戶畫像最大的目標。
第二個是咱們描述的方式,能夠分爲兩種:第一種是非形式化的手段,咱們前面看到的語音、文本,都是非形式化的,另一種是形式化的手段,譬如剛纔咱們看到的奧巴馬身份證,你能夠把身份證放在讀卡器上,就能夠把對應的信息讀取出來。
第三個就是結構化和非結構化的組織方式,咱們前面看到的球員數據它就是結構化的。
第四個就是用戶畫像標準,這個很重要,這是咱們一會要講的,爲何?好比說,咱們在描述用戶的過程中要有一些共識,舉個例子,我說某我的特別二次元,這個詞對方就可能聽不懂,是由於雙方對二次元這個詞沒有達成共識,因此必須有一套達成共識的的知識體系,否則用戶畫像這件事是沒有辦法達到的。
最後一個是驗證,就是說咱們作完用戶畫像之後,必定要去驗證。舉個例子,我跟你說某我的特別不靠譜,至關於打上了一個標籤,你必定會反問我爲何不靠譜,你的依據是什麼,就是咱們給用戶生成畫像以後,咱們必定要給出依據和推理的過程,告訴你這個結論是怎麼獲得的,否則就沒有可信力。
3
那麼到底什麼是用戶畫像呢?
用戶畫像是對現實世界中用戶的數學建模,它包括兩方面:
一方面是描述用戶,沒有說人,是說明它跟業務密切相關,它是從業務中抽象出來的,所以來源於現實,高於現實。
第二個是用戶畫像它是一種模型,是經過分析挖掘用戶儘量多的數據信息獲得的,它是從數據中來,但對數據作過了抽象,比數據要高,後面全部用戶畫像的內容都是基於這個展開的。好比剛剛說的月光族,這個確定是挖掘分析出來的,不是說原來的數據中包含月光族這個標籤,因此說這是它的兩層含義。
而後就是剛剛說的,用戶畫像是現實生活中的數學建模,可是咱們如何描述這樣一個模型,核心是要有一套標準的知識體系,描述用戶畫像。
另一個方面,就是要有一套數據化、符號化、形式化的方式去描述這套知識體系,什麼叫形式化?就是機器要可以理解這套知識體系,若是隻有人理解的話,這個東西是沒有辦法使用的,所謂形式化就是這個含義。
這種方法到底存在不存在,60、70年代就已經存在了,作語義分析的朋友可能聽過這個本體論,在90年代的時候,本體和語義網絡很是流行,這個東西是比較複雜的,它幫助機器去理解知識體系,因爲很是複雜,我就簡單說一下,相似於UML這種語言,包括實體、聯繫、推理等等。就是說經過這套方法論,能夠理解知識,甚至教會它怎麼去推理,這就是前面說的本體論。這個方法是很複雜的,很是麻煩。
咱們這裏有一套很是樸素的方法,你們能夠看一下這張圖,咱們在現實世界中怎麼表述知識。
咱們最開始學習語文的時候用的是什麼,是新華字典是否是,字典中你們看到的組織形式是什麼,首先是詞,詞做爲它的表現符號。
另外是什麼,它後面會跟着比較長的解釋文本,就對應一個概念,那麼就是說,這裏符號與概念是相對應的。
用咱們現實生活中的一個例子來講,你好比說拿狗這個例子來講,狗這個詞是一個符號,可是對應咱們腦子中的概念是什麼,」四條腿,一個能看家的、一個能汪汪叫的 動物」,對不對?對應的實體就是咱們現實生活中看的各類品類的狗,是嗎?我但願你們能夠記住這張圖。
上面這張圖中的模型就對應前面圖中所指的概念,標籤就對應前面這張圖上的符號,在這張圖當中,標籤是一個符號要去表達模型對不對。舉一個簡單的例子,好比說我這個產品,想賣給」收入高、坐辦公室」 這個羣體,白領能夠表示這樣一個用戶羣,白領這個詞就是一個一個符號,一個標籤。
另外要強調的是標籤它是跟業務密切相關的,好比說就拿最簡單的標籤男女來講,在阿里內部,關於男女,這樣最簡單的標籤,也有12個男和女,它與業務密切相關,不只僅是指生理上的男和女,另外還包括在互聯網喜歡買男性的商品或者女性的商品定義的男女等等,在這個層面來說,對男女的標籤又有了一層新的理解。
這個符號是跟業務場景綁定在一塊兒的,脫離這個業務場景,這個符號就沒有明確的含義。
剛剛說到了用戶畫像的定義、標籤的定義,那麼咱們平時常常說的用戶畫像和標籤,它們之間是一個什麼樣的關係呢?
實際上是一個總體和局部的關係,用戶畫像是總體,標籤是局部,總體和局部的關係經過「標籤體系」體現。總體和局部總包含兩方面的關係:化整爲零:總體如何反映在局部;化零爲整:局部如何組成總體。舉例來講:「人有一雙眼睛一個鼻子」,那:化整爲零:對每一個人都應該觀察到一雙眼睛和一個鼻子;化零爲整:只有位置合適的一雙眼睛和一個鼻子咱們才認爲他是一我的。
這裏還有標籤體系,要重點說的是,咱們在給實際企業客戶構建用戶畫像的過程當中,須要和他們的業務部門、產品部門去構建標籤體系,由於標籤是和業務密切相關的,他們的標籤體系是要蒐集全部業務方的需求,制定出來標籤體系之後,給出每個標籤標準的定義,而後纔是進行標籤的開發。
4
用戶畫像的驗證
最後說的是用戶畫像的驗證,就是說咱們在給客戶提供方案的時候,他們常常會問的一個問題,構建的用戶畫像結果怎麼去驗證?在咱們看來,用戶畫像做爲用戶在現實中的數學建模,對模型的驗證能夠分紅兩個方面,一個是準確率的驗證,你的標籤打得準不許,就是咱們常常說的準確率。第二個是標籤打得全不全。可是對於這兩個方面來講,你是沒有辦法同時知足的。現實業務中沒法追求徹底,由於你不可能作出一個100%完備的標籤體系。
所以咱們驗證更多談的是準確性,能夠分爲兩種,一種是有事實標準的,譬如生理性別,能夠用標準的數據集驗證模型的準確性,另一種是無事實標準的,譬如用戶的忠誠度,咱們只能驗證過程,具體的效果須要經過線上業務A/B Test進行驗證。
前面介紹了用戶畫像的理論:用戶畫像是對現實用戶的數學建模,標籤是一個符號,標籤與業務關聯在一塊兒纔有意義,用戶畫像和標籤是總體和局部的關係。接下來介紹用戶畫像的實踐。
5
用戶畫像實踐
上面這張圖是用戶畫像生產和應用的邏輯架構,包括5層:
數據採集層收集用戶的各類數據,就拿一個公司來講,它的數據源分佈在各地,有CRM系統的,有分散在各個部門的,構建DMP的一個難點就是要把各處數據都蒐集起來,甚至須要老闆去推進。
數據管理層對這些數據進行清洗、拉通、整合以及分析建模,構建用戶畫像。
數據接口層和應用層基於用戶畫像,提供各類分析、服務類以及營銷類的應用,服務於金融、製造、航空等各個行業的用戶。
要精準構建用戶畫像,面臨着許多技術難題,接下來重點介紹用戶多渠道信息打通、多渠道的產品打通以及用戶數據挖掘建模,這三個方面接下來會一一展開講。
首先介紹用戶多渠道信息打通,用戶與企業的觸點很是多,譬如手機、郵箱、Cookie等等。咱們要將同一個用戶的這些多個觸點進行打通,須要站在上帝的視角。咱們能夠把用戶ID視爲圖中的頂點,若是用戶的兩個觸點在同一個場景出現,譬如用郵箱登錄,那麼咱們會在用戶的郵箱和Cookie用一條邊進行鏈接,從而構建一張圖。
圖中連通的ID能夠視爲同一個用戶,從而實現用戶拉通,拉通能夠基於圖的方法進行強拉通,也能夠採用機器學習的方法進行模糊拉通,預測出拉通的機率。
另外,拉通的可信程度由業務的密度決定,密度越高,對可信度的要求越高,譬如推薦是低密度業務,即便識別錯誤,影響比較小,但對於 電商的 短信通知服務,若是識別錯誤,體驗就會很是差。
剛剛講到的是用戶打通,接下來要講的是如何將不一樣渠道的產品拉通,譬如咱們的電商客戶第一方的標籤體系都是有差異的,所謂標籤體系拉通就是創建一套標準的分類標籤體系,通常都是一顆分類樹,任何一個商品都能劃分到這個分類樹的葉子節點。根據咱們的實踐經驗,手工映射的方法成本高、難以大規模開展,咱們實際是採用機器學習模型+少許的人工規則來實現的。
具體的模型實現見上面這張圖,要實現自動分類,其中的難點不在於模型,而在於得到訓練數據、feature engineering以及分類樹層級節點之間的依賴問題,在這裏我就不具體展開了,目前對於咱們電商渠道的商品,分類準確率在95%以上。
在用戶畫像建模方面,咱們把標籤建模分爲四層:
第一層是事實類標籤,譬如用戶購物了什麼品類;
第二層是機器學習模型的預測標籤,譬如當下需求、潛在需求等等;
第三層是營銷模型類標籤,譬如用戶價值、活躍度和忠誠度等等;
第四層是業務類的標籤,譬如高奢人羣、有房一族等等,它是由底層的標籤組合生成的,一般由業務人員定義。
用戶畫像的應用前面介紹了用戶畫像的理論和實踐,接下來介紹基於用戶畫像的應用。
用戶畫像的具體應用包括售前的精準營銷、售中的個性化推薦以及售後的增值服務等等,後面會進行展開。
用戶畫像的標籤維度和應用是相互相承的關係,一方面能夠根據現有的標籤維度開發應用,另外一方面能夠根據應用的需求擴展標籤的維度,二者互相促進。
咱們在這裏舉的例子分爲三類。
第一類是售前的精準營銷,譬如電商客戶和企業客戶,須要通過精準營銷,把站外的用戶吸引到你的網站上面來。
第二,售中的個性化推薦是說,你把這些用戶吸引過來了之後,如何經過個性化推薦的方式可以更好地提高站內轉化的效果。
第三個是售後的增值服務,就是你把這個產品賣出去以後,不是這樣就結束了,而僅僅只是你跟用戶接觸的開始,可能涉及到用戶後續的產品諮詢或者吐槽等等,也就是會涉及到售後增值服務方面的問題等等,這三個應用都跟用戶畫像密切相關。
首先是根據用戶畫像進行精準營銷,這塊你們對門戶廣告、百度的搜索廣告或者如今的一些dsp公司投放的程序化廣告比較熟悉,百分點要作的事情是幫助企業整合以及拉通它們本身的第一方數據,創建企業創建用戶畫像,實現全渠道營銷。
這是咱們爲某知名製造企業客戶作的一個大數據項目,目標就是拉通和創建消費者統一的用戶數據平臺,創建消費者用戶畫像,並基於用戶畫像實現精準營銷。上面這張圖是爲該企業構建的用戶畫像體系,具體的維度包括基本信息、產品信息、財務信息、風險信息和資產信息等等。
並且結合百分點的營銷管家產品,能夠實現觸發式的營銷,譬如用戶在某網站下單購買一款手機,即可以立馬給他推送該品牌手機對應的手機配件廣告。最終的效果是,經過用戶拉通與用戶畫像,對59萬潛在消費者造成4個精準人羣進行投放,是盲投點擊率的10倍。
再舉社會化營銷的一個例子,咱們的某個家電製造企業客戶,新品發佈時指望經過短信和郵件方式,從老用戶中找出最有可能參加活動的粉絲。咱們利用企業的CRM、客服、銷售等數據,對用戶忠誠度進行綜合評定並挑選忠誠度最高的用戶做爲招募目標,帶來了超過一半的粉絲,但成本只有以往的40%。
前面講的售前的精準營銷,接下來是售中的個性化推薦,這是百分點最開始創立時作的事情,目前已經服務超過1500家的電商和媒體客戶,是國內最大的第三方推薦服務提供商,百分點推薦一個很大的優點是利用全網用戶畫像進行推薦。譬如對於王府井商城的一個新用戶,在首頁進行推薦時,由於對它的歷史沒有了解,只能推薦一些熱門商品。但對於百分點來講,咱們知道該用戶在其它客戶網站上的行爲,譬如它對化妝品很感興趣,就能夠推薦相關的化妝品,利用全網用戶畫像解決了王府井推薦的冷啓動問題。
這是百分點推薦引擎的設計架構,核心是四大組件,包括場景引擎、規則引擎、算法引擎和展現引擎,尤爲是規則引擎很是強大,能夠根據客戶的業務需求可視化配置推薦邏輯,譬如推新品、清庫存等等,而不只僅是點擊率最優。因爲時間關係我在這裏再也不詳細介紹了。
咱們這裏舉一個推薦的實際應用例子,咱們的某個團購網站客戶,下網採用咱們的推薦引擎解決它下單率的問題,咱們經過分析發現該網站用戶的一系列特徵,譬如忠誠度低、區域性購買等等。
咱們採用了一系列的優化措施,譬如根據用戶畫像中品類偏好、商圈偏好、消費能力等標籤優化召回,使得該團購網站的點擊率平均提高18.23%,直接下單提高86.95%,取得了很是理想的效果。
最後一個例子是如何結合用戶畫像提供「售後」增值服務,上面這張圖是咱們給客戶的一個應用系統方案,能夠經過數據接口實時反饋用戶相關信息,譬如歷史維修、歷史諮詢等等,以及進行知識推薦,支撐服務效率和客戶滿意度;同時收集用戶的服務滿意度數據,補充和完善用戶畫像信息。
6
小結
最後再對前面講的內容進行一個小結,在大數據時代,機器要學會從比特流中解讀用戶,構建用戶畫像就變得尤爲重要,是上層各類應用的基礎。
構建用戶畫像的核心是進行標籤建模,標籤不只僅是個符號,而是和業務緊密關聯,是業務和技術很是好的結合點。
最後再結合咱們本身的實踐經驗,給出了畫像在精準營銷、個性化推薦以及售後服務的3個例子,說明了用戶畫像在實際業務中的重要價值。