摘要 : 百度將用互聯網的方式來作開放的大數據引擎。它不可能採起與軟件方案公司同樣的「一竿子買賣」方式進行合做。而是將大數據引擎作成一個開放平臺,造成標準的接口,讓每一個行業不一樣企業能夠根據自身需求各取所需。而它的首要目的是獲取數據,而後是考慮變現。
百度在大數據領域邁出一大步。在昨天的百度技術開放日上,李彥宏現身並推出了百度大數據引擎。簡單地將,大數據引擎將百度在大數據的數據、能力和技術開放給行業,行業嚐嚐距離甚遠的大數據盛宴,百度則尋到了一個新的增加點。算法
大數據引擎三件套數據庫
一年前,BAT紛紛開挖大數據,一年後BAT在大數據應用上均取得了一些成績。如今百度則率先將其大數據能力開放出來,百度大數據引擎一共分三個部分。服務器
開放雲:百度的大規模分佈式計算和超大規模存儲雲。過去的百度雲主要面向開發者,大數據引擎的開放雲則是面向有大數據存儲和處理需求的「大開發者」。微信
百度的開放雲擁有超過1.2萬臺的單集羣,超過阿里飛天計劃的5k集羣。百度開放雲還擁有CPU利用率 高、彈性高、成本低等特色。百度是全球首家大規模商用ARM服務器的公司,而ARM架構的特徵是能耗小和存儲密度大,同時百度仍是首家將GPU(圖形處理 器)應用在機器學習領域的公司,實現了能耗節省的目的。網絡
數據工廠:開放雲是基礎設施和硬件能力,你能夠把數據工廠理解爲百度將海量數據組織起來的軟件能力。就像數據庫軟件的位置同樣。只不過數據工廠是被用做處理TB級甚至更大的數據。數據結構
百度數據工廠支持單詞百TB異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各類查詢業務場景。同時百度數據工廠還將承載對於TB級別大表的併發查詢和掃描,大查詢、低併發時每秒可達百GB,在業界已是很領先的能力了。架構
百度大腦:有了大數據處理和存儲的基礎以後,還得有一套可以應用這些數據的算法。圖靈獎得到者N.Wirth(沃斯)提出過「程序=數據結構+算法」的理論。若是說百度大數據引擎是一個程序,那麼它的數據結構就是數據工廠+開放雲,而算法則對應到百度大腦。併發
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們 被應用在語音、圖像、文本識別,以及天然語言和語義理解方面,被應用在很多App,還經過百度Inside等平臺開放給了智能硬件。如今這些能力將被用來 對大數據進行智能化的分析、學習、處理、利用。百度深度神經網絡擁有200億個參數,是全球規模最大的,它擁有獨立的深度學習研究院(IDL)和較早的布 局,在人工智能上百度已經快了一步,如今貢獻給業界代表了它要開放的決心。機器學習
大數據引擎到底是什麼?分佈式
百度將基礎設施能力、軟件系統能力以及智能算法技術打包在一塊兒,經過大數據引擎開放出來以後,擁有大數據的行業能夠將本身的數據接入到這個引擎進行處理。同時,一些企業在沒有大數據的狀況下,還可使用百度的數據以及大數據成果。
從架構來看,企業或組織也能夠只選擇三件套中的同樣使用,例如數據存放在本身的雲,但要運用百度大腦的一些智能算法應該也是支持的。
舉幾個例子可能你更加清楚百度大數據引擎到底是什麼。
許多政府部門擁有海量大數據——大數據經典之做《大數據》也是在講美國政府的大數據。但政府部門幾乎都 沒有大數據處理和挖掘技術。交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據,衛生部門擁有流感法定報告數據、全國流感樣病例哨 點監測和病原學監測數據,公安部門有大量的視頻監控數據。若是這些數據與百度的搜索記錄、全網數據、LBS數據結合,在利用百度大數據引擎的大數據能力, 則能夠實現智能路徑規劃、運力管理、流感預測、疫苗接種指導、安防追逃等等。
許多企業也擁有海量大數據——通訊、金融、物流、製造、農業等行業。不過,它們幾乎都沒有大數據能力, 坐擁海量數據卻束手無策。這時候若是可以應用百度大數據引擎,則能夠對海量數據進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。在百度技術開放日 上,中國平安便介紹瞭如何利用百度的大數據能力增強消費者理解和預測,細分客戶羣制定個性化產品和營銷方案。
能夠看出,大數據引擎的輸入其實是百度擁有的大數據以及行業已有的大數據,而輸出則是各類行業應用成果,也就是大數據的「價值」。若是要爲百度大數據引擎想一個SLOGAN,能夠是「把大數據交給咱們便可」。
百度大數據引擎的出現並不是一日之功。大數據技術自己已發展數年,而百度在大數據方面也進行了很多佈局,例如百度雲、深度學習、計算中心等等。同時與中國平安和一些政府部門此前也已進行一些大數據應用的初步嘗試。
與一些相似項目的對比
在百度以前,業界已經有一些相似的思路,即有一些大數據能力的企業視圖將本身在基礎能力或者軟件方面的優點釋放出來。
Google:大數據時代的奠 基者。對應到百度開放雲,它有聞名中外的數據中心以及基於Colossus的雲;對應到百度數據工廠,Google近年來爲迎接大數據時代不斷改造核心技 術,包括比MapReduce批處理索引系統搜索更快的Caffeine,專爲BigTable設計的分佈式存儲Colossus比GFS還要先 進,Dremel和PowerDrill管理和分析大數據,以及Instant和Pregel。對應到百度大腦,Google提供的大數據分析智能應用包 括客戶情緒分析、交易風險(欺詐分析)、產品推薦、消息路由、診斷、客戶流失預測、法律文案分類、電子郵件內容過濾、政治傾向預測、物種鑑定等多個方面。 技術有Big Query、趨勢圖等。
能夠說Google與百度的思路最爲接近,不過Google目前還未將它的大數據能力打包起來以一個新「引擎」的方式共享。毫無疑問,這在不久以後就會發生。
亞馬遜:雲計算的奠定者。亞馬遜是IaaS(基礎設施即服務),與 阿里雲很是類似。亞馬遜在用戶交易、我的偏好、經濟領域的大數據能力可能比Google還要優秀,也被一些人視做這是亞馬遜與Google競爭的惟一機 會。亞馬遜目前更多仍是在雲領域作貢獻,雖然也有Redshift的方案,但在數據工廠和人工智能的開放上進展慢一些。
阿里巴巴:
亞馬遜對應回中國天然是阿里巴巴。阿里雲是國內最先的獨立運做的雲部門。數據則是阿里三大核心戰略之 一,大數據也被擺到了阿里十分重要的位置,不懂技術的馬雲常常談及大數據都有人調侃他應該更名Data Ma。阿里在大數據基礎設施領域確實取得了日新月異的進展,飛天、Apsara、跨機房5K集羣都是知名的大數據項目,應對雙11、餘額寶規模取現預測、 廣告業務高速增加等業務場景也證實了阿里的大數據能力。
阿里大數據的思路即是作大數據的集市,讓阿里系以外的大數據可以跑在阿里苦心搭建的大數據機器上運轉起 來。不久以前阿里與東軟合做,後者的業務將來都將部署在阿里雲。這意味着東軟客戶的數據極可能會進入阿里的大數據體系。能夠肯定阿里將會推出相似大數據引 擎的平臺,將大數據能力徹底開放出來。
相比百度,阿里在「數據工廠」這塊應該是各有所長,在數據基礎領域以及業務理解方面有着電商領域的專一,但人工智能這塊跟百度比確定會有不小差距。語音、圖像和天然語言理解,阿里並無多少積累,它更擅長處理結構化的數據。
其餘電商玩家如京東和蘇寧也有相似的雲,與阿里和百度徹底不在一個級別就不比較了。
Salesforce等軟件公司:
Salesforce近兩年收購了超過5家與社交大數據相關的營銷公司,目的是獲取更多的數據。其餘的 軟件廠商和方案廠商也有大數據引擎方面的佈局,EMC、Oracle有對應的大數據處理軟件,IBM有大數據行業方案,英特爾入股大了數據初創企業 Cloudera,Cloudera推出的Impala比Google Dremel還要快。Intel還推出了基於Hidoop的「大數據引擎」,加州伯克利大學AMPLab開發了名爲Shark 的大數據分析系統。
回到國內,華爲在去年發佈了大數據平臺產品FusionInsight,還有百分點科技這樣的基於大數據的推薦服務公司。而「天河2號」等獨立超級計算機也對外宣稱它們的超級計算能力將會逐步開放出來。
不過,軟件公司、方案公司以及超級計算機都沒法作到像百度同樣將大數據做爲一種雲端能力打包開放出來,也沒法同時具有基礎設施、數據工廠和智能算法的開放能力。尤爲是「百度大腦」這部分,不多有其餘具有這樣的「數據智能」的能力。
百度將用互聯網的方式來作開放的大數據引擎。它不可能採起與軟件方案公司同樣的「一竿子買賣」方式進行合做。而是將大數據引擎作成一個開放平臺,造成標準的接口,讓每一個行業不一樣企業能夠根據自身需求各取所需。而它的首要目的是獲取數據,而後是考慮變現。
變現方式多是增值服務、收費雲、數據分析結果、技術諮詢等方式,這將改變百度盈利模式過渡依賴「搜索 廣告」的現狀。有消息稱,大數據已經給Google天天帶來2300萬美圓的收入,一年約爲82億美圓。這已經遠遠超過百度2013年51億美金的年收入 了。所以,若是百度大數據引擎可以成功,極可能會爲之帶來源源不斷的數據以及現金流。基於此,能夠認爲大數據引擎是百度的新大陸,是李彥宏一直在尋找的 「百度的微信」。
做者微博@互聯網阿超,微信SuperSofter
http://luochao.baijia.baidu.com/article/13275