所謂建設背景,就是要弄明白咱們爲何要建設這個統一數據平臺。數據庫
統一數據平臺,我給它起了個英文全稱叫 Unified Data Platform,簡稱 UDP。安全
採用Hadoop生態軟件(如:HDFS、HBase、Hive、Kafka、Spark stream等)、傳統關係型數據庫、MPP數據庫相結合的大數據混搭技術架構,採集加工傳統的結構化經營數據、半結構化的日誌數據以及非結構化的上網行爲數據,建設大數據倉庫,實現一點加工,統一服務。網絡
平臺建設背景主要分爲內因和外因。架構
內因主要表如今數據的採集、存儲、管理、使用等環節發生了新的形式變化,這些變化大體來源於數據量增長、數據多樣、使用個性化等方面,須要採起新的手段來改善當前局面;外因主要是當前的技術趨勢,社會廣泛開始引入大數據進入企業,這也說明各個企業的數據也在發生着翻天蓋地的變化,也在謀求新的技術手段來解決各類數據問題以服務公司的運營,幾大巨頭公司(Google、Facebook、Amazon、Apache等)做爲技術先驅正引領着這一潮流。oop
截止目前,原底層數據倉庫已服務企業八年半,於09年初開始建設投入使用。大數據
數據開發人員更替快,數據管理沒有制定執行嚴格的標準,不一樣的人使用不一樣的模型生產一樣的數據;後一半時間幾乎徹底的以需求爲導向,自上而下建設底層數據模型,不遵循科學的數據倉庫建設方法,使得倉庫數據模型更加混亂,過分冗餘,加工繁雜。日誌
從09年到18年,互聯網發生了翻天覆地的變化,數據呈幾何級數增加,咱們進入了大數據時代。orm
電信行業流量業務需求呈爆發式增加,用戶高速4G網絡數據使用愈來愈多,流量價格愈來愈低,運營商急需相應的大數據技術來採集分析用戶的消費行爲數據,瞭解用戶行爲特徵,挖掘潛在業務增加點,在激烈的4G時代爭奪用戶。資源
從我來到如今的公司,縱觀已經實施的數據類需求,從基本的多維報表、專題模塊這類固定式數據展示的需求到根據用戶需求,貼身爲其提供統計個性化數據服務,再到用戶自行選擇維度,橫縱向挖掘式地探索式分析數據,用戶的需求呈現多樣化複雜化,我的定製需求愈來愈豐富。開發
固定化的報代表顯沒法再知足其撰寫分析報告的數據需求,數據中心直接提供給用戶用來解決自身數據需求的模型的顆粒度明顯細化,用戶轉而但願本身能夠在同一時間類自行分析不一樣維度不一樣層次的數據集。
要想及時知足用戶這樣的數據需求,底層數據的加工效率、數據的統計展示效率是兩個很是重要的環節。
數據資產管理通常地認爲有十大數據管理職能:數據治理、數據架構管理、數據開發、數據操做管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理、數據質量管理。
用戶使用的系統呈煙囪式分佈,原數據倉庫(Data Warehouse)經過ETL把生產系統的數據取過來後,分發給其餘系統,每一個系統都保留了大量的原始數據,根據本身的業務需求進行數據沉澱和彙總。
這種模式形成數據資源的重複建設和硬件資源的浪費,同時因爲各個系統的數據彙總口徑有誤差,一樣的指標數據在多個系統結果不徹底一致,整個數據中心對外的數據結果差別致使數據的說服力不夠,容易引發業務部門對數據質量的不信任。
統一數據平臺計劃採集各個生產系統的數據,建設大數據倉庫,提供大數據服務,最終實現全部數據的一點採集、一點加工、一點存儲、一點管控、一點服務。
注:以上文字僅是從我的業務實踐的角度來思考,文字表述未細雕琢,立意未高屋建瓴,較爲淺陋。