近日,奇點雲副總裁何夕應創業邦BangTalk邀請,首次線上直播分享《數據中臺建設之道》,直播間人氣爆棚互動活躍。如下爲演講實錄分享(文字根據現場演講錄音整理)。算法
數字化轉型,其實並非個新詞。服務器
根據IDC(互聯網數據中心)的報告,自從數字化浪潮開啓以來,企業就開始數字化進程。而據IDC預計,到2020年中國GDP的20%未來自業務數字化轉型的增長值,數字化轉型已上升到宏觀經濟層面,不只將改變企業運營方式,還將重塑經濟面貌。工具
咱們要如何去定義人工智能的將來?大數據
它影響到咱們去怎麼去理解數字化轉型的本質。阿里雲
過去10年中,雲計算、大數據和人工智能技術的發展,不斷驅動機器智能替代體力和腦力,那些高頻重複的體力和腦力工做,愈來愈多地被機器智能所取代;而腦力賴以生存的經驗公式(方法論、思惟工具等),也愈來愈多地被算法所代替。雲計算
站在今天的角度,咱們或許能夠清晰地定義數字化轉型,本質上就是以算力、算法和數據爲表明的信息技術,以數字化的方式驅動社會總體的改變和變革。數字化轉型的將來清楚指向人工智能的發展,從而讓人作人該作的事情,讓機器作機器該作的事情,人類和機器腦力算力協同發展。人工智能
傳統的數據分析實際上是一種刀耕火種的狀態,手工對數據進行提取,手工清洗數據、手工的透視和分析,以及在此基礎上生成一些可視化圖表,在這個過程當中,其實只有透視和分析是人真正應該去作的事情。前面的數據提取、數據清洗,包括後來的數據可視化,其實均可以經過相關的BI工具和一些可視化工具來完成。spa
《富足》這本書講到,當人類社會的生產資料從供不該求進入供過於求後,不少商業模式和商業邏輯都會發生巨大的變化。日誌
今天咱們面臨着一個很是大的變局——數據量的指數級增加。2015年是人類社會數據增加的一個關鍵節點,由於在2015年,其一年產生的數據量是人類過去歷史上產生的數據量的總和。換句話說,人類的數據量自此進入了指數級增加,2015年以後,數據量每一年增加40%-50%。而後它會給咱們帶來巨大的數據富足的挑戰。這種挑戰咱們稱它爲日益增加的數據存儲費用和仍然稀缺的數據應用之間的矛盾。blog
這個矛盾到底會給咱們公司的業務帶來哪些挑戰?須要如何解決?
做爲一家已經跨越了數據指數級增加的公司,阿里巴巴的經歷或許能夠給咱們啓示。2007年,阿里巴巴決定將來要成爲一家數據公司。2009年,阿里成立了阿里雲,正式開啓了去IOE的路程。
從2003年成立以來,淘寶收集了大量的數據,其中90%是非結構化的日誌數據,當有了數據以後,全部人都想看見數據背後的真相:用戶從哪來,他們買了什麼,爲何購買,轉化率如何……相似這樣的分析問題,給阿里帶來巨大的數據挑戰。
2012年數據平臺部的成立,這個被稱爲CDO的部門,誕生了一系列數據分析和挖掘工具,包括在雲端、數據魔方、淘寶時光機、淘寶指數、TCIF等等。特別要提一下TCIF(淘寶消費者數據工廠),由如今奇點雲的創始人行在創立,拉通了阿里巴巴全部的消費者數據,而且完成了3000+標籤體系的建設。2012年的標誌性事件,就是TCIF的存儲和計算消耗量超過了BI,以TCIF爲表明的人羣定向成爲了計算資源的消耗大戶;另外一個標誌性的指標是,阿里巴巴有50%的服務器再也不處理任何事務,而僅僅用於處理數據。
2015年也有兩個標誌性事件:一是阿里雲數加平臺的成立(行在創立),表明阿里巴巴開始把內部造成的大數據能力外化,賦能社會去創建大數據能力;二是推出千人千面算法,推薦算法一躍成爲了存儲和計算資源的頭號消耗大戶。
推薦算法不只僅是咱們看到的淘寶界面那麼簡單,在某種程度上,推薦算法讓阿里巴巴跨越了「從人指揮機器到機器指揮人的奇點」。
爲何今年數據中臺特別火?
咱們全部的企業在數字化轉型走到今天,會發現業務問題背後每每可能隱藏的爲數衆多的數據問題,如數據不通,數據不可用,數據變現等問題。
拿「數據變現」打個比方,在數據進入了乘數級增加或者指數級增加的領域會特別明顯,好比汽車因車聯網的關係,它的整個數據增加量很是快,可能每一年都有幾十T的數據增加。而這些數據只是把它們存了下來,可能我有幾億行的數據,但我連一張大寬表都拉不出來,因此這個狀況下它的數據是徹底不可用的,因此須要解決數據變現的問題,而數據變現就是日益增加的數據存儲費用和仍然稀缺的數據應用之間的矛盾。
不少的企業其實去作了不少算法、數據應用的嘗試,可是由於沒有解決數據採集、數據質量的問題,就會出現例如採集到的數據一半是空值,統計口徑不一致所帶來的數據總和之差,也有好比說咱們的發票數據和銷售數據的總和,它可能相差5%~10%不等,而後在不在某些行業來講,這可能就幾千萬到上億的一個差距。這些業務問題背後其實都不一樣程度地體現爲數據問題。
講數據中臺的時候,咱們必定會講,須要和數據中臺一塊兒去創建整個企業的數據資產的管理體系,那麼如何去建設?這也是不少企業會碰到的問題。
數據若是僅僅是存下來,它是不能解決咱們所說的主要矛盾的。那麼數據資產要如何增值?如何變成業務價值?哪些業務是這個領域,哪些業務是個人數字化轉型過程當中最核心的業務?它是有業務痛點、業務場景的,包括它多是一些明星需求可以帶動整個公司來認知這件事情,提高對數據的認知,這些都是在這個過程當中須要去解決的。
數據戰略不能僅僅是把它當成一個技術問題,而是要從業務、技術、組織三個維度綜合的來考量咱們的整個數據的問題。那麼要如何去考量這件事情?此前一年,爲幫助企業推動數字化轉型戰略,解決數字化轉型中的問題,奇點雲推出了大數據諮詢服務,並付諸大量案例實踐。奇點雲也將這些實踐經驗總結提煉成方法論,以白皮書的形式開放給更多商業機構。
而大數據諮詢服務,它的核心的價值也就是釐清差距、明確方向。
咱們如何去建設整個數據中臺?做爲咱們公司的一個基礎設施,通常把數據中臺拆成4個部分來作建設規劃。首先對於咱們的數據中臺來講,他必定會須要解決的是數據的來源問題,包括對咱們的數據進行有效梳理,在此基礎上,咱們有專業的團隊來構建一站式大數據智能服務平臺DataSimba,經過咱們的數據中臺去解決整個數字資產管理問題,以及創建整個資產管理體系,整合全部的數據。咱們把這個過程稱爲數據的工業化生產體系,在這個基礎上,咱們會仰賴一些專業的分析師團隊去own,仰賴於算法工程師挖掘數據價值,真正去幫助咱們作數據決策,而後去產生業務價值,最終必定是實現經過數據去創建數據決策能力,並面向市場進行一些應用的開拓,從而真正有效的使用,創建內部協同、外部協同,提高總體的經營水平。
具體如何基於明星需求去開展一些業務數據化的規劃和實施呢?從數據的維度,首先要創建ETL數據抽取清洗處理的能力,有專門團隊再進行探索性數據分析造成算法,去賦能整個溝通決策,至關於自動化分析,在此過程當中構建數據產品,在現實世界中使用,完成整個閉環動做。
下面介紹咱們創建的一套數據資產管理體系的方法論,咱們叫它「盤理管用」。
從數據用起來的角度,根據業務場景,看數據是否已被收集、治理,是否已變成數據資產價值,因此叫「盤理管用」。但從咱們思考的維度則相反,咱們要關注怎麼去盤、怎麼去理、怎麼去管,以及最終怎麼去用。
當咱們具有了這樣的數據中臺能力,具有了這樣的數據資產管理體系,咱們就會進入到如何去賦能咱們的業務,而後也分享咱們在實踐過程當中的一些經驗。咱們在跟一些企業作諮詢的時候,其實你們慢慢對算法這件事情會產生極大的認同,由於算法代替經驗公式在今天是一個不可阻擋的潮流。那麼對於公司來講,將來的競爭的態勢極可能會是每一個公司所擁有的算法的數量和質量的競爭,公司就須要去沉澱本身的算法平臺,去沉澱本身的算法模型,包括在集團管控、研發、製造、營銷、服務、人才,包括共享服務上,都須要有本身的算法模型,去真正的去一方面去提高人效,下降整個成本,另外一方面就去沉澱本身的一些實實在在的競爭壁壘。
目前線下的傳統企業,不少時候數據問題並不只僅是數據不通或者數據變現的問題,不少時候仍是數據有無的問題。想要具有淘寶同樣的數據化運營能力,那麼它最大的數據來源會是哪裏?從科學的角度來講,線下90%其實都是視圖聲的。而視圖聲數據你們都知道,它必定是非結構化數據,那麼咱們就須要去解決這些非結構化數據的採集和結構化的問題。咱們如何把「數據原油」轉化爲企業所須要的燃料,助推商業引擎?
奇點雲提出了AI+DATA「雲(智能)+端(感知)」解決方案,幫助更多企業實現數字化轉型,爲他們賦能。
今天咱們更多地還要去創建使用非結構化數據的能力,也就是奇點雲在雲端所提供的全場景智能化的企業轉型服務,圍繞整個數據中臺建設AI算法,經過360度數據管家幫助企業更好地掌握企業的數據現狀,及運用大數據諮詢解決發展中的重大數據問題,幫助客戶真正實現數據化企業運營,盤活企業的數據資產,創造更多商業價值。