大數據平臺架構思考

筆者早期從事數據開發時,使用spark開發一段時間,感受大數據開發差很少學到頭了,該會的彷佛都會了。在後來的實踐過程當中,發現不少事情須要站在更高的視角來看問題,否則很容易陷入「不識廬山真面目」的境界。最近在思考數據資產管理平臺的建設,進行血緣分析開發,有以下感悟:架構

大數據平臺從數據層面來講,包括數據自己和元數據;從業務層面來講,在數據中心(數據倉庫)的基礎上,支撐數據分析、數據挖掘,提升其分析、挖掘效率;從管理角度來講,爲了提高開發效率,須要利用好組件管理平臺,對元數據進行管理,打造數據開發運維平臺。運維

在此基礎上,一個完善的大數據架構,至少包括三個方面:性能

  1. 開發組件管理平臺:用於搭建和管理大數據開發組件,如etl、hdfs、hbase、presto、kerbose等;
  2. 數據資產(元數據)管理平臺:元數據採集、元數據管理、血緣分析、數據質量、數據標準、數據指標、數據生命週期管理等。
  3. 開發運維平臺:數據脫敏、權限管理、調度管理、開發管理、發佈管理、運維監控與預警等等。

大數據架構設計須要兼顧不一樣需求,根據不一樣的數據分析、數據挖掘場景,在資源限制與性能要求下,提供不一樣的平臺方案。大數據

對於大數據架構師,不只要熟悉各類組件的使用及其適用場景,還須要熟悉組件管理、元數據管理、開發運維管理等。其搭建的平臺,可否提升數據分析效率,可否提升數據挖掘的效率,可否保證數據質量,可否打通整個數據鏈條等。spa

相關文章
相關標籤/搜索