摘要: 數據庫
用戶畫像(persona)的概念最先由交互設計之父Alan Cooper提出:「Personas are a concrete representation of target users.」 是指真實用戶的虛擬表明,是創建在一系列屬性數據之上的目標用戶模型。隨着互聯網的發展,如今咱們說的用戶畫像又包含了新的內涵——一般用戶畫像是根據用戶人口學特徵、網絡瀏覽內容、網絡...服務器
用戶畫像的含義網絡
用戶畫像(persona)的概念最先由交互設計之父Alan Cooper提出:「Personas are a concrete representation of target users.」 是指真實用戶的虛擬表明,是創建在一系列屬性數據之上的目標用戶模型。隨着互聯網的發展,如今咱們說的用戶畫像又包含了新的內涵——一般用戶畫像是根據用戶人口學特徵、網絡瀏覽內容、網絡社交活動和消費行爲等信息而抽象出的一個標籤化的用戶模型。構建用戶畫像的核心工做,主要是利用存儲在服務器上的海量日誌和數據庫裏的大量數據進行分析和挖掘,給用戶貼「標籤」,而「標籤」是能表示用戶某一維度特徵的標識。具體的標籤形式能夠參考下圖某網站給其中一個用戶打的標籤。工具
用戶畫像的做用oop
提取用戶畫像,須要處理海量的日誌,花費大量時間和人力。儘管是如此高成本的事情,大部分公司仍是但願能給本身的用戶作一份足夠精準的用戶畫像。性能
那麼用戶畫像有什麼做用,能幫助咱們達到哪些目標呢?學習
大致上能夠總結爲如下幾個方面:大數據
用戶畫像的內容優化
用戶畫像包含的內容並不徹底固定,根據行業和產品的不一樣所關注的特徵也有不一樣。對於大部分互聯網公司,用戶畫像都會包含人口屬性和行爲特徵。人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻狀況、生育狀況、工做所在的行業和職業等。行爲特徵主要包含活躍度、忠誠度等指標。網站
除了以上較通用的特徵,不一樣類型的網站提取的用戶畫像各有側重點。
之內容爲主的媒體或閱讀類網站,還有搜索引擎或通用導航類網站,每每會提取用戶對瀏覽內容的興趣特徵,好比體育類、娛樂類、美食類、理財類、旅遊類、房產類、汽車類等等。
社交網站的用戶畫像,也會提取用戶的社交網絡,從中能夠發現關係緊密的用戶羣和在社羣中起到意見領袖做用的明星節點。
電商購物網站的用戶畫像,通常會提取用戶的網購興趣和消費能力等指標。網購興趣主要指用戶在網購時的類目偏好,好比服飾類、箱包類、居家類、母嬰類、洗護類、飲食類等。
消費能力指用戶的購買力,若是作得足夠細緻,能夠把用戶的實際消費水平和在每一個類目的心理消費水平區分開,分別創建特徵緯度。
另外還能夠加上用戶的環境屬性,好比當前時間、訪問地點LBS特徵、當地天氣、節假日狀況等。
固然,對於特定的網站或App,確定又有特殊關注的用戶緯度,就須要把這些維度作到更加細化,從而能給用戶提供更精準的個性化服務和內容。
用戶畫像的生產
用戶特徵的提取即用戶畫像的生產過程,大體能夠分爲如下幾步:
下面以用戶性別爲例,具體介紹特徵提取的過程:
1.提取用戶本身填寫的資料,好比註冊時或者活動中填寫的性別資料,這些數據準確率通常很高。
數據管理系統
用戶畫像涉及到大量的數據處理和特徵提取工做,每每須要用到多數據來源,且多人並行處理數據和生成特徵。所以,須要一個數據管理系統來對數據統一進行合併存儲和分發。咱們的系統以約定的目錄結構來組織數據,基本目錄層級爲:/user_tag/屬性/日期/來源_做者/。以性別特徵爲例,開發者dev1從用戶姓名提取的性別數據存放路徑爲 /user_tag/gender/20170101/name_dev1,開發者dev2從用戶填寫資料提取的性別數據存放路徑爲 /user_tag/gender/20170102/raw_dev2。
從每種來源提取的數據可信度是不一樣的,因此各來源提取的數據必須給出必定的權重,約定通常爲0-1之間的一個機率值,這樣系統在作數據的自動合併時,只須要作簡單的加權求和,並歸一化輸出到集羣,存儲到事先定義好的Hive表。接下來就是數據增量更新到HBase、ES、Spark集羣等更多應用服務集羣。
應用示例:個性化推薦
以電商網站的某種頁面的個性化推薦爲例,考慮到特徵的可解釋性、易擴展和模型的計算性能,不少線上推薦系統採用LR(邏輯迴歸)模型訓練,這裏也以LR模型舉例。不少推薦場景都會用到基於商品的協同過濾,而基於商品協同過濾的核心是一個商品相關性矩陣W,假設有n個商品,那麼W就是一個n n的矩陣,矩陣的元素wij表明商品Ii和Ij之間的相關係數。而根據用戶訪問和購買商品的行爲特徵,能夠把用戶表示成一個n維的特徵向量U=[ i1, i2, ..., in ]。因而UW能夠當作用戶對每一個商品的感興趣程度V=[ v1, v2, ..., vn ],這裏v1便是用戶對商品I1的感興趣程度,v1= i1w11 + i2w12 + in*w1n。若是把相關係數w11, w12, ..., w1n 當作要求的變量,那麼就能夠用LR模型,代入訓練集用戶的行爲向量U,進行求解。這樣一個初步的LR模型就訓練出來了,效果和基於商品的協同過濾相似。
這時只用到了用戶的行爲特徵部分,而人口屬性、網購偏好、內容偏好、消費能力和環境特徵等其餘上下文尚未利用起來。把以上特徵加入到LR模型,同時再加上目標商品自身的屬性,如文本標籤、所屬類目、銷量等數據,以下圖所示,進一步優化訓練原來的LR模型。從而最大程度利用已經提取的用戶畫像數據,作到更精準的個性化推薦。
點評:
用戶畫像是當前大數據領域的一種典型應用,也廣泛應用在多款網易互聯網產品中。本文基於網易的實踐,深刻淺出地解析了用戶畫像的原理和生產流程。
精確有效的用戶畫像,依賴於從大量的數據中提取正確的特徵,這須要一個強大的數據管理系統做爲支撐。網易大數據產品體系中包含的一站式大數據開發與管理平臺 – 網易猛獁,正是在網易內部實踐中打磨造成的,可以爲用戶畫像及後續的業務目標實現提供數據傳輸、計算和做業流調度等基礎能力,有效下降大數據應用的技術門檻。
上海大數據培訓原做,轉載請註明出處!後續大數據相關技術文章陸續奉上,請多關注!