大數據治理——搭建大數據探索平臺

在數據治理中,數據探索服務的價值在初期每每是被忽視的,可是隨着業務的增長,分析人員的增長,數據探索服務的價值就會愈來愈大。apache

一個成功的數據管理平臺,不只僅要提供各類數據分析的工具,提供各類各樣的數據源,更要提供數據探索的能力。安全

爲何數據探索服務很重要?

想象一下,做爲一名數據科學家,他剛剛得到新的任務是創建一個機器學習模型對業務問題進行分析。處理數據的人的第一個本能是尋找任何有意義的信息,能對其分析過程提供幫助。在這個過程當中一般會出現如下問題:架構

  1. 我能夠/應該使用哪一種數據?
  2. 在哪裏能夠找到數據?
  3. 我應該問誰申請數據訪問權限?
  4. 我能夠信任咱們擁有的數據嗎?
  5. 咱們擁有的數據的實時性和質量如何?
  6. 還有誰在使用這些數據?

沒有數據探索服務的世界

數據科學家最多將三分之一的時間用於數據探索。框架

若是沒有數據探索服務,數據科學家須要和同事溝通,瀏覽他們能夠訪問的對象進行搜索。而後作出一些假設,來驗證他們的選擇是否正確。機器學習

這個過程其實很是的耗時,由於沒有合適的工具幫忙。必需要不斷的去尋找可靠的數據。可是隨着數據量增大,數據平臺使用者的增長,數據分析需求的增長,元數據的數量也在增長。這個過程就爲尋找的過程帶來了很是大的挑戰。分佈式

數據科學家用來查找與他們的需求相關的數據的方式可能很快會拔苗助長,變得不可靠,從而致使不少挫敗感,不肯定性和創造力降低。工具

解決這些問題的方案就是數據探索服務。學習

數據探索服務

數據探索服務意味着向用戶提供一種工具,使其能夠了解平臺中的數據及其質量。讓咱們來了解下具體的實現。大數據

Amundsen

Lyft是一家總部位於美國的打車應用,其開源了大量的技術框架,其中就包括Amundsen。這是一個以偉大的挪威探險家的名字命名的數據探索服務,Lyft的數據探索服務旨在解決經過在元數據中搜索有價值的信息。它提供的是用戶數據探索服務的搜索界面。3d

Amundsen的社區很是的繁榮,正在不斷的更新改進。

Apache Atlas

做爲元數據管理的領軍,atlas無疑是最好的選擇之一。

元數據聽起來很容易解釋,用於描述數據信息的數據。最簡單的示例是數據存在表裏,而表的相關的信息,如表名等信息就是元數據。沒有元數據的支撐,數據探索服務不復存在。

Atlas做爲大數據元數據管理平臺,能夠捕獲平臺上的各類組件的元數據信息。稱爲鉤子,好比可從Kafka,Hive,Hbase中收集元數據。有着安全性和豐富的Rest Api。

Atlas依賴於Hbase和Solr做爲分佈式的數據存儲,從而實現了元數據的存儲和搜索功能。經過這種方式,能夠創建一個全面的元數據目錄。

​ Apache Atlas架構

在實際的應用中,經過二者的結合,能夠徹底的知足咱們的需求。

這樣數據科學家就能夠在Amundsen中,尋找到目標數據了。

但搜索顯然只是第一步,在找到搜索結果後,能夠進入表詳細信息頁面。

能夠查看諸如描述、更新時間、經常使用用戶之類的信息。並且這些元數據信息都是實時更新的。

相信開源的力量,在Amundsen+Atlas的體系下,不斷探索適合本身的實現方案。

相關文章
相關標籤/搜索