數據智能時代:數據體系建設的實質、思路和方式

二十一世紀,互聯網新科技層出不窮。伴隨着大數據、雲技術以及整個算力的發展,人工智能技術的研究及應用也迅速壯大,在語音、圖像和天然語言方面取得了卓越的成績。更爲重要的是,政府也在大力發展數字經濟,包括黨的十九屆四中全會首次增列了「數據」做爲生產要素,這也進一步反映了隨着經濟活動數字化轉型的加快,數據對提升生產效率的乘數做用凸顯,成爲最具時代特徵新生產要素的重要變化。個推做爲專業的數據智能服務商,於2010年成立至今,在大數據技術的發展過程當中,收穫了一些成果,也獲得了本身的經驗和體會。安全

2019年3月,個推(每日互動,300766.SZ)在創業板上市,主打數據智能。公司在該領域積極佈局,並在實踐中探索總結了數據沉澱、數據挖掘和數據應用的「三步走」數據智能方法論。關於底層,個推提供了消息推送、用戶畫像、應用統計、一鍵認證四種開發者服務,同時沉澱了海量數據;中間層是個推引擎層,經過對數據脫敏、篩選、清洗、整理,並經深度挖掘後建模,自主構建「個推大數據平臺」。最上層爲數據應用層,提供品牌營銷、風控服務、人口空間規劃、公共服務等多種大數據服務,增能諸多垂直領域。架構

本文將結合個推實踐,主要圍繞三個方面進行展開:數據智能時代的特徵、企業面臨的實際挑戰、數據智能體系建設思路。運維

數據智能時代的特徵
數據智能時代已經來臨,如同《大數據時代》中闡述的那樣,咱們發現並印證了大數據對咱們思惟、商業、管理等方面存在着巨大的影響。機器學習

思惟變革工具

在思惟變革方面,咱們認爲數據智能時代的特徵能夠概括爲三點:更多、更繁雜、更相關。更多,意味着人們再也不依賴於一小部分數據,而是使用所有數據,並從第三範式向第四範式躍進。佈局

那麼,第三範式和第四範式的區別是什麼呢?以「霧霾造成的緣由」爲例進行說明。第三範式的霧霾研究過程是:首先,提出問題。好比說,想了解霧霾是什麼?怎麼預防?其次,提出理論。根據已有的機理認識,霧霾天氣的造成不只與源頭、大氣化學成分相關,還與氣象因素,包括地形、風向、溫度、溼度等有關。而參數之多,超過了咱們常規監測的能力範圍。學習

爲此,咱們只能去除一些看起來不怎麼重要的參數,保留一些簡單的參數,提出一個理論。而後收集數據、模擬計算,並根據計算結果對理論進行修正。最後獲取可信度比較高的結果,對霧霾天氣進行預測。大數據

相對應地,第四範式的研究方法是怎樣的呢?它的第一個環節與最後一個環節跟第三範式相同,但在中間兩個環節二者順序是相反的,即在第四範式中,咱們要先進行數據收集再造成理論。人工智能

在第一步問題提出後,咱們首先去作的並非建立一個理論模型,而是把全部可能有用的數據收集起來,而後在此基礎上經過機器學習的方法,或者說人工智能的方法,找出對於霧霾造成影響較大的因素,進而提出有關理論。最後,進行預測,驗證結果。得益於大數據的出現,第三範式才能向第四範式躍進,這也帶來了整個思惟方式和方法論的變革。spa

思惟變革的第二個特色是更繁雜,即從精確性向機率性的轉變。精確性做爲信息缺少時代和模擬時代的產物,要求數據保證質量、減少偏差。而大數據時代,海量的數據使咱們沒法一一驗證數據的準確性。更多狀況是,咱們經過整個數據的分佈,找出數據背後的機率性,而後找到有用的數據,剔除沒用的數據。

思惟變革的第三個特色是更相關。數據之間不是因果關係,而是相關關係,核心是創建在相關關係分析法上的預測。
總結起來,大數據時代思惟變革的特色能夠概括爲:

  1. 改變操做方式,使用收集到的全部數據,而不是樣本;
  2. 不把精確性做爲重心;
  3. 接受混亂和錯誤的存在;
  4. 側重於分析相關關係,而不是預測背後的緣由。

商業變革

在商業變革方面,數據智能時代的特色主要有三:一切皆可量化、無限的創新可能、數據的選擇價值。

「一切皆可量化」指的是隨着數據智能時代的發展,咱們會發現身邊全部的東西都在產生數據,也就是說咱們所處的現實世界,與信息世界存在着對應關係。將來,咱們物理世界裏的每一種事物都將與數字孿生世界裏的一一對應。

數據的真實價值猶如冰山,首要價值只是上面看得見的部分,而背後蘊藏着「無限的創新可能」。數據在完成直接的業務用途以後,看似好像沒有用了,可是一旦跟別的行業數據結合,咱們會發現其協同效應很是強,能夠創造出巨大的使用價值。也就是說,目前看似沒有價值的業務數據或許在之後能發揮出重要做用。所以咱們建議數據較爲豐富的企業或者公司,最好能從如今開始,把業務數據經過某種方式予以保存,譬如採用數據湖的方案。

數據的價值是其全部可能用途的總和,面對這些無限可能的潛在用途就像是在選擇,這些選擇的總和即是數據的價值,即數據的選擇價值。

總結起來,在商業變革方面,數據智能時代的特色主要能夠歸納爲:

  1. 數據的選擇價值意味着無限可能;

2.數智時代要求咱們對待數據有別於傳統資產;
3.數據的創新意味着很大的不肯定性。

咱們面臨的實際挑戰
數智時代咱們面臨挑戰的本質在於數據組織及管理要求(側重穩定性)與業務的創新需求(側重靈活性)的衝突。

使用數據核心要解決的幾個問題
數據不可知:用戶不知道大數據平臺有什麼樣的數據,也不知道這些數據和業務的關係是什麼。雖然用戶意識到了大數據的重要性,但不清楚平臺中是否存在能解決業務問題的關鍵數據以及該如何尋找相關數據。

數據不可控:數據不可控是從傳統數據平臺開始就一直存在的問題,在大數據時表明現得尤其明顯。缺少統一的數據標準致使數據難以集成,缺少質量控制致使許多數據因質量太低而難以被利用。

數據不可取:用戶即便知道本身業務所須要的是哪些數據,也不能自助便捷地拿到數據。實際上,數據獲取須要很長的開發過程,漫長的需求響應與大數據時代須要快速出具問題解決方案的目標相違背。

數據不可聯:大數據時代,企業雖然擁有海量數據,但企業數據知識間的關聯還比較弱,還沒有把數據和知識體系關聯起來。此外,企業員工難以作到數據與知識之間的快速轉換,沒法對數據進行深刻探索和挖掘,這致使數據的深層價值難以凸顯。

咱們在公司內部對數據問題進行收集,發現存在幾大困難點:業務響應速度慢、數據質量問題頻發、數據使用難且取數慢、開發效能低、試錯成本高以及數據能力重複建設等。

數據智能技術體系建設思路
整體目標
1.敏捷地支撐業務部門的創新需求,打造快速響應商業需求的服務能力;
2.把不一樣領域的數據實時打通,體現數據的最大價值;
3.把數據做爲資產進行管理。

大多數狀況下,咱們經過業務的需求,反過來推動公司數據智能體系的建設,其直接的價值體現是成本節約、效率提高和質量提高。

建設思路和原則
1.主要面向內部客戶,特別是公司的研發人員及建模人員,以提升業務開發效率爲目標;
2.作好元數據、血緣關係管理,提升數據治理程度,以保證數據的質量和安全;
3.提煉公共服務能力等複用程度高的能力優先建設,如:數據提取分析速度、數據治理平臺、數據開發平臺;
4.數據能力原則上由相應領域熟悉業務,有必定技術積累的團隊一塊兒參與建設;
5.能力建設須要重點考慮幾大標準:穩定、易運維、可運營、可審計。

在能力建設方面,公司能夠設立三層結構:底層是技術中臺;中層是數據中臺;上層是業務系統。須要注意的是,有了平臺並不意味着問題就解決了。咱們認爲最理想的方式是平臺與人的能力相結合。平臺沉澱證實了的、可複用的能力;而人更多地去應對創新需求,利用知識創造工具和完善平臺。這也是一個螺旋上升的過程。平臺須要專門的人進行運營、推廣;業務須要有會使用平臺的、能快速產生解決方案的人,來保證與平臺人員的良好溝通與協做。

基於這樣的想法,個推在公司的組織保障上構建了這樣一個體系:上層目前是虛擬的數據中臺部,在合適的時候會成爲一個實體部門。架構組與技術組參與建設數據中臺。此外,咱們把部分與數據相關的技術人員派駐到業務部,這樣不只能更好地把數據應用於業務,還能讓他們把業務部門的使用效果及問題予以反饋,以此造成一個閉環,咱們把它稱之爲DO(Data Owner)。

互聯網的發展將你們帶入了大數據時代,而數據智能時代是大數據時代一個重要的發展階段,機會與挑戰並存。個推將積極把握機會、應對挑戰,不斷探索數據智能與行業應用的結合點,以創新的技術爲開發者提供增能服務、爲移動互聯網和品牌營銷等各垂直領域提供定製化的大數據解決方案。將來,個推將持續用數據的力量,攜手更多的行業夥伴,建立數據智能雙贏生態!

相關文章
相關標籤/搜索