安森,個推CTO
畢業於浙江大學,現全面負責個推技術選型、研發創新、運維管理等工做,已帶領團隊開發出針對移動互聯網、金融風控等行業的多項前沿數據智能解決方案。安全
曾任MSN中國首席架構師,擁有十餘年資深技術開發與項目管理經驗,在大數據處理系統、大規模併發平臺、分佈搜索系統、手機應用開發、無線通訊領域和智慧金融系統等領域擁有豐富實踐經驗。
架構
引言
中國移動互聯網的發展見證了中國大數據行業的蓬勃發展。數據智能做爲移動互聯網時代的天然產物,也是將來很長一段發展階段的核心所在。個推(每日互動)和業界的共識不謀而合,從2010年成立到如今,通過多年的發展,從一家移動互聯網時代服務於開發者的基礎推送平臺服務商,已經成長爲創業板的上市公司,也是國內首家在A股上市的數據智能公司。做爲專業的數據智能服務商,個推立足開發者服務,將不斷致力於用數據推進產業智變。併發
圍繞「數據智能」主題,我將經過一系列文章進行闡述。本文主要從技術角度來探討數據智能中涉及的各個方面,但願經過這一系列內容,能讓你們對數據智能以及所涉及的技術體系有一個比較清晰的瞭解。運維
本系列將從如下五方面展開:
01數據智能時代的來臨:本質和技術體系要求
核心內容:咱們根據個推在數據智能領域多年的實踐來說講咱們對於數據智能的理解,而且從整體上提出對應的技術體系要求。機器學習
02數據智能下的數據資產治理思路工具
核心內容:主要探討做爲資產後的數據如何進行治理,須要具有的基礎,具體如何實施,最終保證數據資產的安全、合理使用、以及價值創造。學習
03數據智能下的安全計算體系大數據
核心內容:在保證數據資產的全部權和使用權分開的前提下,目前能夠採用的技術和方法論。優化
04數據智能下的數據質量保證體系網站
核心內容:大數據之因此爲大,是由於其規模以及多樣性,不一樣於傳統的小數據,能夠很快去驗證其正確性,那麼能夠採起什麼方法去保證數據的質量及可檢驗性呢?
05數據智能下的不一樣行業的業務探索實踐
核心內容:隔行如隔山,數據智能也具備鮮明的行業區分性,這個主題會講述幾個咱們涉及比較深的行業的探索實踐,並總結一些經驗和教訓。
正文
大數據的發展歷程
本文是系列文章的開篇,首先聊一聊咱們理解中的數據智能的本質;同時做爲公司技術負責人,和你們探討一下基於技術體系的要求,也就是數據智能時代,要從數據中體現智能,從技術方面須要作哪些事情。
什麼是數據智能,這個概念怎麼來的呢?
記得從2010年開始,隨着移動互聯網的興起,大數據也隨之出如今各個媒體網站和行業論壇,你們見面都會問一句:「大家搞大數據了嗎?」 其實你們對大數據該如何加以應用都不太清楚。
大數據的發展過程是什麼樣的呢?下圖比較清楚地對此進行了詮釋。
我把它稱之爲大數據成熟度模型。這個過程實質上咱們理解也是數據從工具變成爲資產的過程,從一個輔助的東西變成生產資料的過程。如今在提的數字經濟,不少人試圖對此進行理論定義,以便把數字經濟和實體經濟從概念上區分開來,個人建議是就從數字是否做爲主要生產資料,是否做爲核心資產這個角度去界定,會比較簡單明瞭。
從這幾年的實際發展來看,大數據基本上按照上圖的這個模型在演進發展。
2013年左右,企業已經開始認知到數據價值,各個具備大數據生產環境的行業如電信運營商、政府、公安、金融等開始建設大數據平臺,收集並存儲企業業務產生的數據。同時,金融等行業也開始大量購買外部數據,但願經過外部數據快速挖掘數據的價值,彌補自身數據短缺的問題,很多從事數據聚合和相關服務公司得到了發展機遇。
2015年,大數據進入到了監測階段,經過數據大屏等形式,實現對業務的監測,這是大數據最先、最早成熟的應用方向。對於政府、央企及大型國企而言,數據大屏、領導看板等數據展示應用是大數據最直接可以反映價值的方式。
2017年,大數據平臺建設基本完善,單純數據展示開始難以知足企業的多樣化需求,大數據開始與業務場景結合,基於大數據實現對業務問題的洞察,呈現出百花齊放的局面,分別應用在金融領域的精準營銷和風控反欺詐,公安領域的刑偵破案,工業領域的故障預測預警等。
企業對業務場景的洞察,單純靠簡單的數理統計已經不足以知足要求,所以,數據挖掘、數據建模技術應運而生。AI建模平臺、數據科學平臺開始進入人們的視野,出現了一些主打建模平臺的創業公司,但更多公司將AI建模平臺內化成自身的能力,基於AI建模平臺,造成解決方案,幫助企業客戶落地大數據應用。
在2019年左右,大數據開始進入到業務決策階段,也就是說,由機器造成數據報表或者數據報告,業務人員進行決策變成機器直接給出決策建議,讓機器具有推理能力。例如,在外賣、出行場景,美團和滴滴的系統直接造成最佳調度方式,系統自動完成決策環節,將任務下發給騎手和司機。這種消費互聯網相對常見的場景,將在產業互聯網、企業業務場景中逐漸出現。也就是說,大數據開始從業務數字化階段向數據智能化階段邁進。
數據智能的特徵和定義
從上節中的大數據發展歷程中,咱們看到數據智能目前對應的是決策、優化以及商業重塑階段,也就是說讓機器具有推理能力;而這些能力意味着天然語言處理(NLP)、知識圖譜(Knowledge Graph) 等認知技術的逐漸成熟,這也是爲什麼2018年NLP、知識圖譜成爲市場的熱點的緣由。所以,數據驅動決策,數據驅動業務發展的企業新需求,也必然會帶動一批數據智能公司的興起。
將來,隨着技術更加成熟,大數據會從決策進入到最後一個環節,也就是業務重塑。不少執行環節能夠由機器來實現,但仍然有不少環節須要人蔘與其中。所以,人機協同會迎來迅猛發展,從人工智能 AI (Artificial Intelligence ) 向人類智力加強 IA (Intelligence Augmented) 進發。
至此, 咱們試着給數據智能作一個定義:數據智能就是以數據做爲生產資料,經過結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從大量的數據中提煉、發掘、獲取知識,爲人們在制定決策時提供有效的數據智能支持,減小或者消除不肯定性。
大數據的發展歷程
數據智能首先須要有數據提供,並且數據在其中充當着核心資產和生產資料的角色,那麼對於數據的治理就顯得尤其重要。什麼是數據治理(Data Governance) 呢? 咱們常常聽到公司治理這個詞,公司治理在經濟學上主要解決幾個問題:
全部權和經營權如何分離?
公司全部者如何向職業經理人進行科學的受權及監督?
那麼對應地,數據治理也要解決相似的幾個問題:
數據(資產)有哪些?
如何讓數據全部權和使用權分離?
數據資產全部者如何向數據使用者進行科學的受權及監督?
數據智能的全部手段其實都是在解決上述的幾個問題。關於數據治理方面的內容我將在本系列的第二部分進行詳細描述。
同時,咱們知道窮人和富人之間的差異在於對待財富的態度,富人更多的是從資產增值的角度去對待財富,想的是如何創造更多資產,而且讓資產不斷增值;窮人更偏向於從消費的角度去看待財富,賺來的錢更多的是用於消費。那麼在數據智能時代,若是咱們想成爲一個「富人」,就須要考慮如何讓數據發揮更大的價值,如何找到其餘合做者去聯合創造價值,可是數據不一樣於別的資產,其具備可複製性、難確權的性質,這就須要咱們去解決數據安全問題,也就是目前行業內比較關注的安全計算技術,在本系列的第三部分我將對此進行詳細闡述。
還有一個須要咱們關注的點是:大數據因爲其具有的 4V 特性,特別是量大、種類多,有時候會讓咱們對於其聚合或者產生的結果存疑,雖然有一些能夠經過常識或者直覺去判斷,可是老是有說不出的味道。這就須要有一個質量保證體系來讓咱們對於數據從產生到最終的各個環節有一個完整的檢驗過程,本系列的第四部分會對質量保證體系進行詳細描述。
在這裏小結一下,數據智能的技術體系至少須要包含三個方面:
數據治理系統
數據質量保證系統
數據安全計算體系
結語
數據智能做爲大數據時代一個重要且激動人心的階段,機會與挑戰並存。做爲本系列開篇文章,本文對該主題內容進行了一個總體概述,後續會對具體內容逐步展開,但願對你們有所幫助。
番外
文章構思於2019年7月24日,突然發現這個數字很應景。7*24 是不少行業中服務的態度和承諾,表示一週天天24小時提供服務。在數據智能時代,個推的產品和服務也一定是全天在線,一週七天!
咱們一直深耕於開發者服務領域,以消息推送爲基礎,發展了「用戶畫像」、「應用統計」、「一鍵認證」等一系列面向APP開發和運營的產品,構建開發者新生態。同時,個推不斷拓寬以數據智能爲核心的服務邊界,以創新的技術爲移動互聯網、品牌營銷、金融風控、智慧城市和公共服務等各垂直領域提供定製化的大數據解決方案。將來,個推但願用數據和技術的力量與更多的行業共築數據智能雙贏生態!
更多精彩內容,請關注:個推技術學院