提高數據分析能力正成爲企業數字化轉型的當務之急。數據庫
成功的企業數字化案例顯然有本身的共同點:性能
重視數據質量、重視數據上下文、以及創建有效的數據管理體制。學習
而失敗的企業則各有各的問題。對象
咱們調研了118家公司的首席信息官(CIO)、首席技術官(CTO)、數據總管以及IT部門的員工及顧問,找到了這7種企業數據實踐中最可能出現的問題。blog
只作數據集中,並無對數據進行整合生命週期
「數據整合是當今數據分析面臨的最大挑戰。」SAS公司的業務解決方案顧問,數據治理專業組織(DGPO)的首席發言人Anne Buff說道。深度學習
實際上,許多公司只是簡單地將數據堆積在一塊兒,並未對不一樣來源的數據進行整合。就拿身份認定來講,好比一套系統下「路人A」的信息與另外一套系統下「路人A」(甚至多是重名)的信息之間,沒有進行關聯,這樣的話,就沒法對「路人A」的身份進行完整性描述。數據分析
「數據整合並不等於將數據集中到一塊兒,」Buff說,「對於某個研究對象,要將不一樣來源的數據相互關聯,以便獲取更準確的信息定位。一旦你這樣作,當這一切相關數據都彙集在一塊兒時,它將達到一個更完整的結果,即比爾史密斯是誰。你必須將它們關聯起來。」互聯網
Buff還說道:各類數據集成技術使之成爲可能,同時,正確的選用、實現並執行數據整合的技術,減小沒必要要的人工操做和重複勞動這點很重要。程序
數據科學家會經過數據來尋找並分析競爭優點,可能的突破點等等,所以,數據整合也變得愈加重要。
「若是不將以往全部的數據整合,就沒法發現其中的模式。」Buff說道。
忽視了不一樣業務對數據的需求差異
「整合的集成數據技術對於一個成功的分析程序是相當重要的,必需要意識到不一樣業務部門對數據的需求是不一樣的,」Buff說道,「數據的形式不能千篇一概。相反,還須要考慮數據供給,IT部門須要將業務類型與數據形式相匹配。」
並非全部的業務都須要整合事後的數據。以金融機構的衆多需求爲例,風控部門須要未經處理的原始數據,以從中發現異常。好比經過搜尋多組數據中某我的地址信息的,肯定其是否申請了多筆貸款等。
「這些業務更傾向於研究多組類似數據間的差異,所以這些差異是要有所保留的。」Buff解釋道。
另外一方面,諸如市場部等部門但願實現準確的用戶信息定位,所以只須要其中正確的那組數據。
數據工程師可能比數據科學家更重要
數據科學家這個職業在過去幾年中正迅速搶佔硅谷、紐約、中關村、西二旗的各大互聯網公司。一大批傳統企業也開始設置這個職位,而且大批招募。
畢竟,每一個公司都但願經過勢頭正盛的新興技術使業務分析具備必定的預測性和分析說明,這須要專業團隊和人員的支持。
但一般,這些公司掛出的招募崗位只有數據科學家這一種。
這是遠遠不夠的。
數據科學家須要數據工程師來收集數據集,可是,數據工程師這一職位,在許多公司沒有受到應有的重視。
「目前,大公司對數據工程師的需求增速是對數據科學家需求的兩倍。」 貝恩公司舊金山辦事處合夥人,高級分析和數字化實踐負責人Lori Sherer這樣說。
美聯邦勞工統計局預測,目前數據工程師的平均年薪已經達到135,800美圓,且將來十年裏,對數據工程師的需求將繼續保持快速增加態勢,2026年前將新增44200個相關的就業崗位。
有專家稱,同不少IT崗位同樣,數據工程師的人才供不該求,部分企業會經過招聘或者從IT部門普通員工中選拔培訓,來彌補這一人才缺口。
缺少對數據時效性和生命週期的管理
近十年來,隨着數據存儲成本不斷下降, IT部門能夠將大量數據存儲起來,並保存很長的時間。對於不斷增加的數據量和數據分析需求來講,這是個好消息。
「公司都但願擁有大量數據。」Soaring Eagle諮詢公司的創始人、《挖掘新黃金:管理你的商業數據(Mining New Gold: Managing Your Business Data)》的合著做者Penny Garbus說道。
但Garbus同時認爲,許多企業都將數據留存的太久了。
「這不只僅是存儲成本的問題,超過十年的數據基本沒有時效性了。」她說,「數據要被賦予生命週期。」
Garbus認爲,數據留存期限要根據不一樣部門、不一樣組織來肯定。例如,零售行業須要的是即時和相關的數據,而市場部門須要多年來的歷史數據以探尋趨勢。
這須要IT部門根據不一樣部門的需求,制定一套明確的數據時效標準,從而確保數據的有效性。
Garbus還補充道,對於那些「老舊」數據,只要保證有就能夠了,不要將其放在覈心數據庫中。
只關注數據量而忽視數據相關性
「咱們總喜歡用最容易得到的數據進行建模與分析,而不是最相關的。」 Booz Allen Hamilton(IT諮詢公司)的高級副總裁Steve Escaravage說。
他認爲,這是目前公司或組織廣泛存在的一個誤區。或許,在尋找更多的數據集以前,應該先想一想數據是否相關,而不是詢問咱們是否有正確的數據。
好比,許多公司會從大量數據中尋找異常。儘管充分性很重要,但優秀的公司一樣兼顧數據的針對性。他們會關注來自於特定個體和機構的數據,並從中發現異常。好比醫療結構在分析病例時,會考慮到醫生的輪班週期等。
Escaravage認爲,公司或組織能夠列一個數據意願清單,由業務部門填寫意願,由CIO、CTO或首席數據高管實現數據收集。
忽略數據來源
「當今數據分析存在一個顯著的問題,是數據偏見。偏向性的數據會形成分析結果誤差,從而影響到正確的業務決策與結果。其中的偏見來源於整個分析過程涉及的許多個部門,包括IT部門處理數據方式,都會有一些偏見。」Escaravage說道。
「不少時候,IT部門在對數據來源的追蹤上,作的並不完善。若是沒法意識到這一點,就會影響到數據模型的的性能,並且,缺少數據來源的可見性使得對偏見的控制更爲困難。」
Escaravage以爲,IT有義務搞清楚數據的來源在哪裏,以及來源的相關狀況。在投資數據管理的同時,也要制定一套源數據管理解決方案。
缺少面向用戶的數據上下文
Escaravage認爲,不只應該有一個強大的源數據管理程序,它能夠追蹤數據的來源,以及它是如何在系統中運行的,它應該爲用戶提供一些歷史信息,併爲一些經過分析產生的結果提供背景信息。
「有時咱們會認爲,擁有絕佳的數據和模型已經足夠完美,可是近幾年,因爲分析方法愈來愈複雜,對數據和分析結果的解釋變得愈來愈少。不像前幾年,在將分析結果應用於業務時,會根據業務規則對數據進行分析闡述。」他說。
Escaravage解釋道,更新的深度學習模型爲分析結果提供了一些註解,也爲決策提供了一些可行的建議,但沒法提供對最佳決策有幫助甚至相當重要的上下文,例如某件事情發生的可能性與肯定性等信息。所以,須要能提供更好的用戶界面以幫助用戶進行決策。
「其中的技術問題在於,要明確用戶與數據模型的交互程度如何。UI/UX界面決定了系統對用戶的透明度,而透明度取決於用戶對分析結果的鑽研深度,這些都是首席信息官(CIO)在創建分析系統前,應當考慮清楚的。」