一篇文章幫你創建本身的大數據知識體系！

時間 2019-11-30

標籤一篇文章幫你創建本身數據知識體系简体版

原文原文鏈接

如今大數據很是火爆，相信你必定看過很多關於大數據的書、文章、資訊，但基本上獲取的都是零碎的知識點，不成系統，沒有造成本身的知識體系，「看過不少知識點但依然搞不懂大數據」，然並卵。那麼，今天這篇文章呢，就帶你們從總體思路上，剖析大數據的產品設計架構和技術策略，幫助你們創建本身的大數據知識體系！前端

大數據產品，從系統性和體系思路上來作，主要分爲五步：程序員

針對前端不一樣渠道進行數據埋點，而後根據不一樣渠道採集多維數據，也就是作大數據的第一步，沒有全量數據，何談大數據分析。算法

第二步，基於採集回來的多維度數據，採用ETL對其各種數據進行結構化處理及加載。後端

而後第三步，對於ETL處理後的標準化結構數據，創建數據存儲管理子系統，歸集到底層數據倉庫，這一步很關鍵，基於數據倉庫，對其內部數據分解成基礎的同類數據集市。架構

而後基於歸集分解的不一樣數據集市，利用各種R函數包對其數據集進行數據建模和各種算法設計，裏面算法是須要本身設計的，個別算法能夠用R函數，這個過程產品和運營參與最多；這一步作好了，也是不少公司用戶畫像系統的底層。函數

最後根據創建的各種數據模型及算法，結合前端不一樣渠道不一樣業務特徵，根據渠道觸點自動匹配後端模型自動展示用戶個性化產品和服務。oop

想學習好大數據能夠關注公衆號程序員大牛有視頻資源分享一塊兒學習學習

創建系統性數據採集指標體系大數據

創建數據採集分析指標體系是造成營銷數據集市的基礎，也是營銷數據集市覆蓋用戶行爲數據廣度和深度的前提，數據採集分析體系要包含用戶全活動行爲觸點數據，用戶結構化相關數據及非結構化相關數據，根據數據分析指標體系才能歸類彙總造成篩選用戶條件的屬性和屬性值，也是發現新的營銷事件的基礎。優化

構建營銷數據指標分析模型，完善升級數據指標採集，依託用戶全流程行爲觸點，創建用戶行爲消費特徵和個體屬性，從用戶行爲分析、商業經營數據分析、營銷數據分析三個維度，造成用戶行爲特徵分析模型。用戶維度數據指標是不一樣維度分析要素與用戶全生命週期軌跡各觸點的二維交叉得出。

目前作大數據平臺的公司，大多數採集的數據指標和輸出的可視化報表，都存在幾個關鍵問題：

採集的數據都是以渠道、日期、地區統計，沒法定位到具體每一個用戶；
計算統計出的數據都是規模數據，針對規模數據進行挖掘分析，沒法支持；
數據沒法支撐系統作用戶獲客、留存、營銷推送使用。

因此，要使系統採集的數據指標可以支持平臺前端的個性化行爲分析，必須圍繞用戶爲主線來進行畫像設計，在初期可視化報表成果基礎上，將統計出來的不一樣規模數據，細分定位到每一個用戶，使每一個數據都有一個用戶歸屬。

將分散無序的統計數據，在依據用戶來銜接起來，在現有產品界面上，每一個統計數據都增長一個標籤，點擊標籤，能夠展現對應每一個用戶的行爲數據，同時能夠連接到其餘統計數據頁面。

由此能夠推導出，以用戶爲主線來創建數據採集指標維度：用戶身份信息、用戶社會生活信息、用戶資產信息、用戶行爲偏好信息、用戶購物偏好、用戶價值、用戶反饋、用戶忠誠度等多個維度，依據創建的採集數據維度，能夠細分到數據指標或數據屬性項。

① 用戶身份信息維度

性別，年齡，星座，居住城市，活躍區域，證件信息，學歷，收入，健康等。

② 用戶社會生活信息維度

行業，職業，是否有孩子，孩子年齡，車輛，住房性質，通訊狀況，流量使用狀況……

③ 用戶行爲偏好信息

是否有網購行爲，風險敏感度，價格敏感度，品牌敏感度，收益敏感度，產品偏好，渠道偏好……

④ 用戶購物偏好信息

品類偏好，產品偏好，購物頻次，瀏覽偏好，營銷廣告喜愛，購物時間偏好，單次購物最高金額……

⑤ 用戶反饋信息維度

用戶參與的活動，參與的討論，收藏的產品，購買過的商品，推薦過的產品，評論過的產品……

基於採集回來的多維度數據，採用ETL對其各種數據進行結構化處理及加載

數據補缺：對空數據、缺失數據進行數據補缺操做，沒法處理的作標記

數據替換：對無效數據進行數據的替換

格式規範化：將源數據抽取的數據格式轉換成爲便於進入倉庫處理的目標數據格式

主外鍵約束：經過創建主外鍵約束，對非法數據進行數據替換或導出到錯誤文件從新處理

數據合併：多用表關聯實現（每一個字段加索引，保證關聯查詢的效率）

數據拆分：按必定規則進行數據拆分

行列互換、排序/修改序號、去除重複記錄

數據處理層由Hadoop集羣組成 , Hadoop集羣從數據採集源讀取業務數據，經過並行計算完成業務數據的處理邏輯，將數據篩選歸併造成目標數據。

數據建模、用戶畫像及特徵算法

提取與營銷相關的客戶、產品、服務數據，採用聚類分析和關聯分析方法搭建數據模型，經過用戶規則屬性配置、規則模板配置、用戶畫像打標籤，造成用戶數據規則集，利用規則引擎實現營銷推送和條件觸發的實時營銷推送，同步到前端渠道交互平臺來執行營銷規則，並將營銷執行效果信息實時返回到大數據系統。

根據前端用戶不一樣個性化行爲，自動匹配規則並觸發推送內容

根據用戶全流程活動行爲軌跡，分析用戶與線上渠道與線下渠道接觸的全部行爲觸點，對營銷用戶打標籤，造成用戶行爲畫像，基於用戶畫像提煉彙總營銷篩選規則屬性及屬性值，最終造成細分用戶羣體的條件。每一個用戶屬性對應多個不一樣屬性值，屬性值可根據不一樣活動個性化進行配置，支持用戶黑白名單的管理功能。

能夠預先配置好基於不一樣用戶身份特性的活動規則和模型，當前端用戶來觸發配置好的營銷事件，數據系統根據匹配度最高的原則來實時自動推送營銷規則，並經過實時推送功能來配置推送的活動內容、優惠信息和產品信息等，同時彙總前端反饋回的效果數據，對推送規則和內容進行優化調整。

大數據系統結合客戶營銷系統在現有用戶畫像、用戶屬性打標籤、客戶和營銷規則配置推送、同類型用戶特性歸集分庫模型基礎上，將來將逐步擴展機器深度學習功能，經過系統自動蒐集分析前端用戶實時變化數據，依據建設的機器深度學習函數模型，自動計算匹配用戶需求的函數參數和對應規則，營銷系統根據計算出的規則模型，實時自動推送高度匹配的營銷活動和內容信息。

機器自學習模型算法是將來大數據系統深度學習的核心，經過系統大量採樣訓練，屢次數據驗證和參數調整，才能最終肯定相對精準的函數因子和參數值，從而能夠根據前端用戶產生的實時行爲數據，系統可自動計算對應的營銷規則和推薦模型。

大數據系統在深度自學習外，將來將經過逐步開放合做理念，對接外部第三方平臺，擴展客戶數據範圍和行爲觸點，儘量覆蓋用戶線上線下全生命週期行爲軌跡，掌握用戶各行爲觸點數據，擴大客戶數據集市和事件庫，才能深層次挖掘客戶全方位需求，結合機器自學習功能，從根本上提高產品銷售能力和客戶全方位體驗感知。