Dataphin做爲阿里巴巴數據中臺OneData (OneModel、OneID、OneService)方法論的產品載體,幫助企業構建三大數據中心:基於數據集成造成的垂直數據中心、基於數據開發沉澱的公共數據中心和基於標籤工廠構建的萃取數據中心。今天咱們就一塊兒來看看,Dataphin是如何基於OneID思想構建數據萃取中心,鏈接上下游應用爲企業創造更多價值的吧~算法
大數據時代,任何微小的數據均可能產生難以想象的價值。做爲智能數據構建與管理平臺,Dataphin的規範建模、數據處理等核心功能幫助企業高效整合來自不一樣業務數據庫的海量數據,沉澱數據資產,構建本身的數據中臺,應對大數據時代Volume(大量)、Variety(多樣)、Velocity(高速)方面的挑戰。然而,相比於傳統的小數據,大數據更大的價值在於從海量不相關的各種數據中,挖掘出對預測分析有參考意義的數據,提高數據價值密度並應用於指導生產,從而幫助企業實現提效降本的目的。Dataphin的數據萃取功能正提供了這樣的能力。數據庫
從業務視角來看,平常生產和營銷活動中,不論是人羣圈選、選址仍是個性化投放,都離不開標籤的指導。標籤是對一個實體的立體刻畫(不侷限於人,任何可被描述和分析的存在均可以是實體,如商品、公司等)。不一樣維度的標籤從不一樣角度對實體進行描述,例如以零售視角爲切入點,咱們能夠從天然屬性(如性別、年齡)、社會屬性(如經濟情況、婚姻狀態)、興趣偏好(如喜歡整潔的環境、但願有漂亮的牙齒)和行業消費偏好(如美妝偏好、母嬰偏好)來對消費者進行描述。高質量、全面的標籤可以有效地抽象出一個實體的信息全貌,爲精準營銷奠基了基礎。運維
數據只有融通才能產生更大的價值,咱們不只但願能夠分析和應用大數據,更但願獲得經過跨業務單元鏈接起來的數據和精細化萃取的數據。這種狀況下,Dataphin數據萃取模塊基於業務數據庫的原始數據和建模研發等沉澱的數據資產,將全系統中主數據——即貫穿各個隔離業務的核心對象,進行識別與關聯鏈接,打通業務數據孤島,進一步提煉可直接應用的高價值標籤數據,從而幫助企業構建本身的萃取數據中心,並對接上游應用(QuickAudience等)進一步指導生產營銷活動。大數據
1)ID中心:相關ID自動化識別與鏈接
Dataphin基於OneID的思想,以惟一標識打通來自不一樣平臺、系統、渠道的數據,支持經過可視化界面參數配置的方式,從全部數據中提煉並基於算法自動識別各種型ID 之間的映射關係(購物會員ID、視頻觀看者ID、購物設備mac、觀看設備IP 等),並將屬於同一實體的不一樣類型ID經過惟一的One ID進行鏈接,使得基於ID生產的標籤能夠聚合到同一實體,從而對實體進行更精準、全面的刻畫。ui
2)行爲中心:沉澱行爲元素,構建行爲規則
Dataphin目前支持以人的相關ID 爲中心,經過可視化界面表單配置的方式,歷來源行爲數據中提煉進而聚攏不一樣業務域下的行爲數據(如電商購物、視頻觀看)。阿里雲
首先,咱們須要從業務視角對行爲數據進行梳理,從中提煉出可複用的行爲元素(行爲域、業務線、動做、對象、對象屬性),並經過對行爲元素進行組合定義不一樣的行爲(行爲域-業務線-動做-對象)。行爲域聚合業務含義一致的行爲數據,如電商域、文娛域;業務線基於行爲域將行爲數據進一步細分,各業務線之間相對獨立,如淘寶業務線、天貓業務線;動做指行爲主體發出的操做,如購買、瀏覽;對象指行爲主體操做的具體事物,如商品、電影;對象屬性是對象的描述性信息,如名稱、品牌、年份。經過抽取沉澱行爲元素,咱們能夠未來源數據更好地進行劃分組合以獲得具備明確業務含義的行爲,如電商域-淘寶-購買-商品、文娛域-優酷-瀏覽-電影。經過沉澱行爲元素,咱們能夠更好地規範來源數據,並減小重複建設和人力投入。
spa
給同一行爲選擇不一樣的來源表並添加配置,即生成不一樣的行爲規則(由行爲+來源表惟一肯定),後續標籤生產將依賴已經構建的行爲和行爲規則。規則配置主要包括行爲主體ID、對象、對象屬性和行爲發生次數,歷來源表選擇相應的字段,再經過行爲規則的週期調度任務,咱們就能獲得持續更新的行爲數據做爲標籤生產的來源。
3d
3)標籤中心:高效標籤生產
構建完成行爲和行爲規則後,進一步地,咱們將基於算法模型,經過簡單的界面配置定義標籤的生成規則。視頻
標籤的配置分爲兩大步驟:第一步首先基於定義的行爲圈選出某標籤須要依賴的行爲數據,接着對預期獲得的標籤值和打標方式進行配置;第二步須要對已選的行爲數據設置時間衰減模式,並基於業務含義給不一樣的行爲分配不一樣的權重。例如,咱們認爲「購買母嬰用品」和「觀看親子視頻」的用戶均可以被打上「母嬰人羣」的標籤,那麼第一步,咱們將這兩種行爲相關的數據都勾選出來,設置預期標籤值爲「母嬰人羣」;第二步,咱們認爲近期的行爲比以前發生的行爲更有參考性,所以選擇線性衰減模式,給近期行爲賦予更大的時間權重;同時,基於業務經驗,咱們認爲「購買母嬰用品」比「觀看親子視頻」更能精肯定位到目標用戶,因此給「購買母嬰用品」行爲分配更大的權重。這樣,咱們就完成了「母嬰人羣」這樣一個購物偏好標籤的生產。對象
不一樣於傳統標籤生產,Dataphin數據萃取的用戶只須要關心標籤的具體業務含義和規則,而不用關心底層算法的實現,經過簡單的界面操做便可完成標籤的配置,並自動生成代碼和週期調度任務,極大程度上下降了標籤生產的難度和門檻。
4)萃取運維
最後,咱們在萃取模塊配置的行爲規則和標籤都會生成自動化調度的週期任務。在「運維」界面的「萃取運維」子模塊下,咱們能夠從業務視角更清晰明瞭地查看相應任務和對應生成的實例,並針對異常調度經過補數據等操做回覆生產。如此一來,業務人員也能夠配置並查看萃取任務,大大下降了對技術人員的依賴。
Dataphin萃取數據中心的創建,幫助企業更好的實現了目標對象相關ID 的識別與鏈接、目標對象全部行爲的規範化結構化彙集和目標對象相關標籤屬性的快速建立,從而快速構建企業本身用戶數據資產,以便對接數據應用類產品,實現營銷投放等。
看了這些介紹,是否是對Dataphin的數據萃取功能充滿了期待和信心?那就快來體驗一下吧~更多Dataphin的驚喜等你來挖掘!
結語:
阿里巴巴數據中臺團隊,致力於輸出阿里雲數據智能的最佳實踐,助力每一個企業建設本身的數據中臺,進而共同實現新時代下的智能商業!
阿里巴巴數據中臺解決方案,核心產品:
Dataphin,以阿里巴巴大數據核心方法論OneData爲內核驅動,提供一站式數據構建與管理能力;
Quick BI,集阿里巴巴數據分析經驗沉澱,提供一站式數據分析與展示能力;
Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人羣圈選、洞察及營銷投放能力,鏈接阿里巴巴商業,實現用戶增加。
本文爲雲棲社區原創內容,未經容許不得轉載。