「數據治理那點事」系列之一:那些年咱們一塊兒踩過的坑

大數據時代,數據成爲社會和組織的寶貴資產,像工業時代的石油和電力同樣驅動萬物,然而若是石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用不敢用,所以,數據治理是大數據時代咱們用好海量數據的必然選擇。架構

但你們都知道,數據治理是一項長期而繁雜的工做,能夠說是大數據領域中的髒活累活,不少時候數據治理廠商作了不少工做,客戶卻認爲沒有看到什麼成果。大部分數據治理諮詢項目都能交上一份讓客戶足夠滿意的答卷,可是當把諮詢成果落地到實處的時候,由於種種緣由,極可能是另外一番大相徑庭的風景。如何避免這種狀況發生,是每個作數據治理的企業都值得深思的問題。運維

「數據治理那點事」系列之一:那些年咱們一塊兒踩過的坑

筆者涉獵大數據治理領域有6年多的時間,負責過政府、軍工、航空、大中型製造企業的數據治理項目。在實踐當中有過成功的經驗,固然也經歷過不少失敗的教訓,在這些過程當中,我一直在思考大數據治理到底是在治理什麼?要達到什麼樣的合理目標?中間應該怎麼避免走一些彎路?今天就借這個機會跟各位分享一下我曾經趟過的坑,但願對你們有一些借鑑意義。ide

誤區一:客戶需求不明確

客戶既然請廠商來幫助本身作數據治理,一定是看到了本身的數據存在種種問題。可是作什麼,怎麼作,作多大的範圍,先作什麼後作什麼,達到什麼樣的目標,業務部門、技術部門、廠商之間如何配合作······不少客戶其實並無想清楚自已真正想解決的問題。數據治理,難在找到一個切入點。工具

誤區二:數據治理是技術部門的事

數據問題產生的緣由,每每是業務>技術,如:數據來源渠道多,責任不明確,致使同一份數據在不一樣的信息系統有不一樣的表述;業務需求不清晰,數據填報不規範或缺失,等等。不少表面上的技術問題,如ETL過程當中某代號變動致使數據加工出錯,影響報表中的數據正確性等,在本質上其實仍是業務管理的不規範。大數據

我在與不少客戶作數據治理交流的時候,發現大部分客戶認識不到數據質量問題發生的根本緣由,只想從技術維度單方面來解決數據問題,這樣的思惟方式致使客戶在規劃數據治理的時候,根本沒有考慮到創建一個涵蓋技術組、業務組的強有力的組織架構和能有效執行的制度流程,致使效果大打折扣。人工智能

誤區三:大而全的數據治理

出於投資回報的考慮,客戶每每傾向於作一個覆蓋全業務和技術域的、大而全的數據治理項目。從數據的產生,到加工、應用、銷燬,數據的整個生命週期他們但願都能管到。從業務系統,到數據中心,到數據應用,裏面的每一個數據他們但願都能被歸入到數據治理的範圍中來。blog

但卻不知廣義上的數據治理是一個很大的概念,包括不少內容,想在一個項目裏就作完一般是不可能的,而是須要分期分批地實施,因此廠商若是屈從於客戶的這種想法,很容易致使最後哪一個也作很差,用不起來。因此,咱們須要引導客戶,遵循2/8原則——80%的問題產生於20%的系統和數據——從最核心的系統、最重要的數據、最容易產生問題的地方開始着手作數據治理。生命週期

誤區四:工具是萬能的

不少客戶都認爲,數據治理就是花一些錢,買一些工具,認爲工具就是一個過濾器,過濾器作好了,數據從中間一過,就沒問題了。結果是:一方面功能越作越多,另外一方面實際上線後,功能複雜,用戶不肯意用。it

其實上面的想法是一種簡單化的思惟,數據治理自己包含不少的內容——組織架構、制度流程、成熟工具、現場實施和運維——這四項缺一不可,工具只是其中一部份內容。你們在作數據治理最容易忽視的就是組織架構和人員配置,但實際上全部的活動流程、制度規範都須要人來執行、落實和推進,沒有對人員的安排,後續工做很可貴到保障。建議你們在作數據治理的時候將組織架構放在第一位,有組織的存在,就會有人去思考這方面的工做,怎麼去推進,持續把事情作好,以人爲中心的數據治理工做,才更容易推廣落地。自動化

「數據治理那點事」系列之一:那些年咱們一塊兒踩過的坑

誤區五:數據標準難落地

不少客戶一說到數據治理,立刻就說咱們有不少數據標準,可是這些標準卻通通沒有落地,所以,咱們要先作數據標準的落地。數據標準真正落地了,數據質量天然就行了。

但這種說法其實混淆了數據標準和數據標準化。首先要明白一個道理:數據標準是必定要作的,可是數據標準化,也就是數據標準的落地,則須要分狀況實施。後續會有一篇專門的文章,來討論數據標準和標準化工做。

誤區六:數據質量問題找出來了,而後呢?

辛辛苦苦創建起來平臺,業務和技術人員通力合做,配置好了數據質量的檢核規則,也找出來了一大堆的數據質量問題,而後呢?半年以後,一年以後,一樣的數據質量問題依舊存在。

發生這種問題的根源在於沒有造成數據質量問責的閉環。要作到數據質量問題的問責,首先須要作到數據質量問題的定責。定責的基本原則是:誰生產,誰負責。數據是從誰那裏出來的,誰負責處理數據質量問題。定責以後是問責,問責以後是整改和反饋,而後是質量問題的新一輪評估,直至造成績效考覈和排名。只有造成這種工做閉環,才能真正提高數據質量。

誤區七:大家好像什麼也沒作?

不少數據治理的項目難驗收,客戶每每有疑問:大家作數據治理究竟幹了些啥?看大家彙報說幹了一大堆事情,咱們怎麼什麼都看不到?發生這種狀況,緣由每每有前面誤區一所說的客戶需求不明確,誤區三所說的作了大而全的數據治理而難以收尾等,但還有一個緣由不容忽視,那就是沒有讓客戶感知到數據治理的成果,能夠在成果的可視化呈現,以及日常與客戶的溝通、培訓、知識轉移等過程當中,就數據治理的重要性、發揮的價值等方面對客戶進行潛移默化的影響。

【總結】

在激烈的市場競爭下,大數據廠商提出來數據治理的各類理念,有的提出覆蓋數據全生命週期的數據治理,有的提出以用戶爲中心的自服務化數據治理,有的提出減小人工干預、節省成本的基於人工智能的自動化數據治理,在面對這些概念的時候,咱們一方面要對數據現狀有清晰的認識,對數據治理的目標有明確的訴求,另外一方面還要知道數據治理中各類常見的誤區,跨越這些陷阱,才能把數據治理工做真正落到實處,項目取得成效,作到數據更準確,數據更好取,數據更好用,真正地用數據提高業務水平。

做者簡介:蔣珍波, 6年+大數據治理經驗,擅長爲客戶提供科學合理的數據治理解決方案。曾前後供職於東南融通、軟通動力、普元信息等公司,負責過數據倉庫建設、BI、大數據平臺、數據治理等售前諮詢等工做,有政府、電力、製造業等行業經驗。目前在數瀾科技擔任大數據平臺售前諮詢工做。

「數據治理那點事」系列之一:那些年咱們一塊兒踩過的坑

相關文章
相關標籤/搜索