大數據中的用戶畫像(persona)

時間 2019-12-05

標籤數據用戶畫像 persona 简体版

原文原文鏈接

摘要：　數據庫

用戶畫像的含義網絡

用戶畫像(persona)的概念最先由交互設計之父Alan Cooper提出:「Personas are a concrete representation of target users.」是指真實用戶的虛擬表明，是創建在一系列屬性數據之上的目標用戶模型。隨着互聯網的發展，如今咱們說的用戶畫像又包含了新的內涵——一般用戶畫像是根據用戶人口學特徵、網絡瀏覽內容、網絡社交活動和消費行爲等信息而抽象出的一個標籤化的用戶模型。構建用戶畫像的核心工做，主要是利用存儲在服務器上的海量日誌和數據庫裏的大量數據進行分析和挖掘，給用戶貼「標籤」，而「標籤」是能表示用戶某一維度特徵的標識。具體的標籤形式能夠參考下圖某網站給其中一個用戶打的標籤。工具

用戶畫像的做用oop

提取用戶畫像，須要處理海量的日誌，花費大量時間和人力。儘管是如此高成本的事情，大部分公司仍是但願能給本身的用戶作一份足夠精準的用戶畫像。性能

那麼用戶畫像有什麼做用，能幫助咱們達到哪些目標呢?學習

大致上能夠總結爲如下幾個方面：大數據

精準營銷：精準直郵、短信、App消息推送、個性化廣告等。
用戶研究：指導產品優化，甚至作到產品功能的私人定製等。
個性服務：個性化推薦、個性化搜索等。
業務決策：排名統計、地域分析、行業趨勢、競品分析等。

用戶畫像的內容優化

用戶畫像包含的內容並不徹底固定，根據行業和產品的不一樣所關注的特徵也有不一樣。對於大部分互聯網公司，用戶畫像都會包含人口屬性和行爲特徵。人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻狀況、生育狀況、工做所在的行業和職業等。行爲特徵主要包含活躍度、忠誠度等指標。網站

除了以上較通用的特徵，不一樣類型的網站提取的用戶畫像各有側重點。

之內容爲主的媒體或閱讀類網站，還有搜索引擎或通用導航類網站，每每會提取用戶對瀏覽內容的興趣特徵，好比體育類、娛樂類、美食類、理財類、旅遊類、房產類、汽車類等等。

社交網站的用戶畫像，也會提取用戶的社交網絡，從中能夠發現關係緊密的用戶羣和在社羣中起到意見領袖做用的明星節點。

電商購物網站的用戶畫像，通常會提取用戶的網購興趣和消費能力等指標。網購興趣主要指用戶在網購時的類目偏好，好比服飾類、箱包類、居家類、母嬰類、洗護類、飲食類等。

消費能力指用戶的購買力，若是作得足夠細緻，能夠把用戶的實際消費水平和在每一個類目的心理消費水平區分開，分別創建特徵緯度。

另外還能夠加上用戶的環境屬性，好比當前時間、訪問地點LBS特徵、當地天氣、節假日狀況等。

固然，對於特定的網站或App，確定又有特殊關注的用戶緯度，就須要把這些維度作到更加細化，從而能給用戶提供更精準的個性化服務和內容。

用戶畫像的生產

用戶特徵的提取即用戶畫像的生產過程，大體能夠分爲如下幾步：

用戶建模，指肯定提取的用戶特徵維度，和須要使用到的數據源。
數據收集，經過數據收集工具，如Flume或本身寫的腳本程序，把須要使用的數據統一存放到Hadoop集羣。
數據清理，數據清理的過程一般位於Hadoop集羣，也有可能與數據收集同時進行，這一步的主要工做，是把收集到各類來源、雜亂無章的數據進行字段提取，獲得關注的目標特徵。
模型訓練，有些特徵可能沒法直接從數據清理獲得，好比用戶感興趣的內容或用戶的消費水平，那麼能夠經過收集到的已知特徵進行學習和預測。
屬性預測，利用訓練獲得的模型和用戶的已知特徵，預測用戶的未知特徵。
數據合併，把用戶經過各類數據源提取的特徵進行合併，並給出必定的可信度。
數據分發，對於合併後的結果數據，分發到精準營銷、個性化推薦、CRM等各個平臺，提供數據支持。

下面以用戶性別爲例，具體介紹特徵提取的過程：

1.提取用戶本身填寫的資料，好比註冊時或者活動中填寫的性別資料，這些數據準確率通常很高。

提取用戶的稱謂，如文本中有提到的對方稱呼，例如：xxx先生/女士，這個數據也比較準。
根據用戶姓名預測用戶性別，這是一個二分類問題，能夠提取用戶的名字部分(百家姓與性別沒有相關性)，而後用樸素貝葉斯分類器訓練一個分類器。過程當中遇到了生僻字問題，好比「甄嬛」的「嬛」，因爲在名字中出現的少，所以分類器沒法進行正確分類。考慮到漢字都是由偏旁部首組成，且偏旁部首也經常具備特殊含義(不少與性別具備相關性，好比草字頭傾向女性，金字旁傾向男性)，咱們利用五筆輸入法分解單字，再把名字自己和五筆打法的字母一塊兒放到LR分類器進行訓練。好比，「嬛」字的打法：『女V+罒L+一G+衣E = VLGE 』，這裏的女字旁就頗有女性傾向。
另外還有一些特徵能夠利用，好比用戶訪問過的網站，常常訪問一些美妝或女性服飾類網站，是女性的可能性就高;訪問體育軍事類網站，是男性的可能性就高。還有用戶上網的時間段，常常深夜上網的用戶男性的可能性就高。把這些特徵加入到LR分類器進行訓練，也能提升必定的數據覆蓋率。

數據管理系統

用戶畫像涉及到大量的數據處理和特徵提取工做，每每須要用到多數據來源，且多人並行處理數據和生成特徵。所以，須要一個數據管理系統來對數據統一進行合併存儲和分發。咱們的系統以約定的目錄結構來組織數據，基本目錄層級爲：/user_tag/屬性/日期/來源_做者/。以性別特徵爲例，開發者dev1從用戶姓名提取的性別數據存放路徑爲 /user_tag/gender/20170101/name_dev1，開發者dev2從用戶填寫資料提取的性別數據存放路徑爲 /user_tag/gender/20170102/raw_dev2。

從每種來源提取的數據可信度是不一樣的，因此各來源提取的數據必須給出必定的權重，約定通常爲0-1之間的一個機率值，這樣系統在作數據的自動合併時，只須要作簡單的加權求和，並歸一化輸出到集羣，存儲到事先定義好的Hive表。接下來就是數據增量更新到HBase、ES、Spark集羣等更多應用服務集羣。

應用示例：個性化推薦

以電商網站的某種頁面的個性化推薦爲例，考慮到特徵的可解釋性、易擴展和模型的計算性能，不少線上推薦系統採用LR(邏輯迴歸)模型訓練，這裏也以LR模型舉例。不少推薦場景都會用到基於商品的協同過濾，而基於商品協同過濾的核心是一個商品相關性矩陣W，假設有n個商品，那麼W就是一個n n的矩陣，矩陣的元素wij表明商品Ii和Ij之間的相關係數。而根據用戶訪問和購買商品的行爲特徵，能夠把用戶表示成一個n維的特徵向量U=[ i1, i2, ..., in ]。因而UW能夠當作用戶對每一個商品的感興趣程度V=[ v1, v2, ..., vn ]，這裏v1便是用戶對商品I1的感興趣程度，v1= i1w11 + i2w12 + in*w1n。若是把相關係數w11, w12, ..., w1n 當作要求的變量，那麼就能夠用LR模型，代入訓練集用戶的行爲向量U，進行求解。這樣一個初步的LR模型就訓練出來了，效果和基於商品的協同過濾相似。

這時只用到了用戶的行爲特徵部分，而人口屬性、網購偏好、內容偏好、消費能力和環境特徵等其餘上下文尚未利用起來。把以上特徵加入到LR模型，同時再加上目標商品自身的屬性，如文本標籤、所屬類目、銷量等數據，以下圖所示，進一步優化訓練原來的LR模型。從而最大程度利用已經提取的用戶畫像數據，作到更精準的個性化推薦。

點評：

用戶畫像是當前大數據領域的一種典型應用，也廣泛應用在多款網易互聯網產品中。本文基於網易的實踐，深刻淺出地解析了用戶畫像的原理和生產流程。

精確有效的用戶畫像，依賴於從大量的數據中提取正確的特徵，這須要一個強大的數據管理系統做爲支撐。網易大數據產品體系中包含的一站式大數據開發與管理平臺 – 網易猛獁，正是在網易內部實踐中打磨造成的，可以爲用戶畫像及後續的業務目標實現提供數據傳輸、計算和做業流調度等基礎能力，有效下降大數據應用的技術門檻。

上海大數據培訓原做，轉載請註明出處！後續大數據相關技術文章陸續奉上，請多關注！