大數據科學新發展展望:不得不知的四大趨勢

從2012年開始,幾乎人人(至少是互聯網界)言必稱大數據,彷佛不和大數據沾點邊都很差意思和別人聊天。從2016年開始,大數據系統逐步開始在企業中進入部署階段,大數據的炒做逐漸散去,隨之而來的是應用的蓬勃發展期,一些表明成熟技術的標誌性IPO在國內外資本市場也不斷出現。轉眼間,大數據幾年前經歷的泡沫正在無可爭議地轉移到人工智能身上。能夠說,在過去的一年,AI所經歷的共贊成識「大爆炸」與當年的大數據相比,有過之而無不及。最近風口又轉移到區塊鏈上了,某種程度上也成爲業內人士焦慮的一種誘因了。數據庫

但不管技術熱點如何變換,咱們能看到的是,隨着行業沉下心來進行實質的落地,大數據生態也愈來愈細分。今天就我和你們來談談大數據領域的一些新變化、新趨勢。安全

 

1、數據治理與安全 Data Governance& Security

就發展趨勢而言,這個能夠放在第一位來說講。工具

多年來,數據已經在企業中不斷快速積累。物聯網(IoT) 更是不斷加速數據的生成。oop

對於許多企業來講,大數據的解決方案就是利用相似於開源的Apache Hadoop等技術做爲基礎支持,建立數據湖(Data Lake),即建立整個企業的數據管理平臺,用於以本機格式存儲企業的全部數據。數據湖將經過提供一個單一的數據存儲庫來消除信息孤島,整個組織均可以使用該存儲庫來進行業務分析、數據挖掘等各類應用。當有了數據湖以後,你們會傾向於認爲這東西將會成爲一個全方位和萬能的大數據集,例如點擊流數據、物聯網數據、日誌數據等都會被要求進入這個湖中,而這些數據很難處理的問題卻會被忽略。區塊鏈

可是,除非你知道數據湖裏具體有什麼,而且可以訪問到合適的數據進行分析,不然數據湖再大也沒有意義。所以,最後你們都會意識到許多數據湖是表現不佳的資源,人們不知道其中存儲着什麼內容,如何進行訪問,或者如何從這些數據中獲取洞察力。大數據

可是,方便地找到想要的東西、同時管理好權限並不容易。除了數據湖之外,治理的另外一個主題是以安全的、可審計的方式爲任何人提供對可靠數據的便捷訪問。人工智能

因此,站在管理並使用好公司數據資產的角度而言,數據治理猶如公司的頂層制度和宣言同樣須要被重視,而且用相應的策略、流程等來進行落實。最終目的是經過實現數據治理,來提高數據管理、確保數據質量、造成開放共享的新局面等。此外,數據治理也是決策、職能以及操做流程有機組合的系統,而且人們對這些數據資產承擔責任。spa

2、致力於協做的數據工做臺發展

在大多數大型企業裏,大數據的採用是從少數獨立項目開始的,個推也是如此:譬如這裏作一點Hadoop集羣,那裏用一用分析工具,跑一個簡單業務模型,以及意識到須要設立一些新的職位(數據科學家、首席數據官)等等。日誌

如今,業務場景愈來愈豐富,異質性也愈來愈突出,各類各樣的工具在整個企業範圍內獲得了使用。在公司的組織範圍內,集中化的「數據科學部門」正在逐漸讓位於更加去中心化的組織,緣由在於集中化的部門愈來愈走向瓶頸,也更容易形成資源的流失。對象

這個由數據科學家、數據工程師以及數據分析師組成的羣體,正日益嵌入到不一樣的業務部門裏。所以,對於平臺來講需求已經很明顯了,那就是要讓一切都能協做到一塊兒來,由於大數據的成功正是創建在設立一條由技術、人以及流程組成的裝配線基礎之上的。

所以,一些全新的協做平臺類型(譬如 Jupyter等)正在加快出現,引領着所謂的DataOps(與DevOps對應)領域的發展。

 

3、數據科學自動化

數據科學家(Data Scientist)依然是市場上煊赫一時的爭奪對象。可是咱們在周圍卻不多見到這類人,哪怕是財富前1000強的公司也爲沒法招到更多「數據科學家」而感到困擾。而在一些組織裏,數據科學部門正在從使能者演變爲瓶頸。

與此同時,AI的大衆化以及自服務工具的蔓延使得數據科學技能有限的數據工程師,甚至是數據分析師在執行一些基本操做時變得更加容易了,而這些操做直到最近仍然是數據科學家的領地。在自動化工具的幫助下,企業大量的大數據工做,尤爲是那些簡單枯燥的工做,將由數據工程師和數據分析師進行處理,而沒必要麻煩有着深厚技術技能的數據科學家。固然,即使如此,數據科學家目前還不須要太過「恐懼」。

在可預見的將來裏,自服務工具和自動化模型將會「加強」數據科學家而不是消滅他們,會解放他們,讓他們把焦點放在須要判斷、創造力、社會化技能或者須要垂直行業知識的任務上,那樣才能更加體現科學家的名號。

 

4、大數據管理員的崛起

大數據管理員(BDA)也對標於數據庫管理員(DBA),雖然兩個英文字母只是變換了一下順序,可是其內涵相差甚遠。一個很是明顯的趨勢是,企業將對一個新崗位角色產生需求,即大數據管理員。DBA你們已經很是熟悉,但它與大數據時代下的數據管理員,有很是大的差異。

數據管理員處於數據使用者和數據工程師之間。爲了取得成功,數據管理員在進行大數據系統的維護工做以外,還必須瞭解數據的含義以及掌握應用於數據中的一些技術。

數據管理員須要清楚整個組織內須要執行的數據分析類型,哪些數據集很是適用於這項工做,以及如何將數據從原始狀態轉換爲數據使用者執行這項工做所需的形態和形式。數據管理員應使用像自助服務數據平臺這樣的系統來加快數據使用者訪問基本數據集的端到端流程,而無需製做無數的數據副本。

 

結語

以上四個方面是數據科學在實踐發展中提出的新需求,誰能在這些方面獲得好的成績,誰便會在這個大數據時代取得領先的位置。

相關文章
相關標籤/搜索