程學旗先生是中科院計算所副總工、研究員、博士生導師、網絡科學與技術重點實驗室主任。本次程學旗帶來了中國大數據生態系統的基礎問題方面的內容分享。大數據的發展愈來愈快,可是對於大數據的認知大都還停留在最初的階段——大數據是一類資源、一類工具,其實「大數據」更多的體現的是一個認知和思惟,是一種戰略、認知和文化。算法
如下爲分享實錄全文:數據庫
一年多來,經過組織中國大數據技術大會、CCF大數據學術會議以及各種大大小小的應用峯會與學術論壇,結合咱們科學院網絡數據科學與技術重點實驗室所承擔的與大數據相關的重大基礎課題研究以及與情報分析、互聯網數據分析相關的應用開發實踐,我談談本身的一些思考。安全
今天引導性討論的內容能夠包括三大塊,包括:對大數據的再認識、引擎平臺系統支撐下的大數據分析技術、創建大數據產學研生態環境的基礎性問題思考。服務器
一、關於大數據的再認識網絡
大數據是一個寬泛的概念,見仁見智。關於大數據的概念,當前比較廣泛使用的定義都與維基百科中的描述相似:「大數據,指的是所涉及的資料量規模巨大到沒法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成爲幫助企業經營決策更積極目的的資訊」。而這類定義的一個明顯的侷限是僅僅從大數據的計算機處理視角給出的關於大數據的一個特色描述。架構
咱們知道,對一門學科的認識,每每是從分類開始的。就像達爾文提出進化論,原始的動機就是將從全世界觀察到的動物和植物進行劃分,造成體系。在分類體系上進行提煉,最終造成了一個全新的世界觀和認識論。咱們如今所關注的網絡大數據、金融大數據、科學大數據等相關領域的問題,正像歐洲文藝復興開始的的時候那樣,從不一樣領域觀察現象,挖掘價值,而最終咱們可能可以發現本質,造成全新的「數據認識論」,從而產生本質性的價值效應。框架
我我的認爲,「大數據」更多的體現的是一個認知和思惟,它與錢學森先生提倡的「大成智慧學」的要義很是接近。錢老將「大成智慧」翻譯成「WisdominCyberspace」,強調「必集大成,才能得智慧」。大數據從內涵來看的四個V的特性,體現出來的是大量的「零金碎玉」,相互之間還有關聯性和做用力,可是局部看都很是零散、價值不明顯。因此有了數據,不等於就有價值、出智慧,出智慧的關鍵在「集」。大數據中包括的所有事實、經驗、信息都是「集」的對象和內容。採集到的原始數據每每是些沒有什麼邏輯,不必定能直接用如今掌握的科學技術解釋,須要集成融合各個側面的數據,才能挖掘出前人未知的大價值。每一種數據來源都有必定的侷限性和片面性,事物的本質和規律隱藏在各類原始數據的相互關聯之中。只有融合、集成各方面的原始數據,才能反映事物的全貌。開展大數據研究和應用,所以,大數據不只僅是一類資源、一類工具,而是一種戰略、認知和文化,要大力推廣和樹立「數據方法論」、「數據價值觀」。dom
固然,咱們既要擡頭看路,更要腳踏實地。所以,在大數據概念滿天飛的時候,咱們既要抓住時機,挖掘價值,還要思考本質,不在混亂的時候迷失方向!分佈式
從業界來看,當前大數據系統有三個明顯的特色與咱們2013年末發佈的十大趨勢相關!工具
【1】大數據的高效深度分析須要專用化的系統
在應用數據快速增加的背景下,爲了下降成本得到更好的能效,大數據系統須要逐漸擺脫傳統的通用技術體系,趨向專用化的架構和處理技術。這方面,國內百度、阿里巴巴和騰訊三大互聯網巨頭作出了嘗試並取得了很好的效果。衆所周知,百度的大數據典型應用是中文搜索,阿里巴巴的大數據典型應用是基於交易日誌分析的數據服務,騰訊的大數據典型應用是圖片數據存儲和基於用戶行爲的廣告實時推薦。百度去年末成立專門的大數據部門,旨在深度挖掘大數據的價值。阿里巴巴已將不一樣業務部門的大數據技術整合在一塊兒爲數據產品提供統一的服務。騰訊的數據平臺部正在將全公司的數據歸入統一管理平臺。阿里巴巴在技術上與開源社區結合得最爲緊密;騰訊大數據目前正在向開源技術靠攏;百度在技術層面偏好自行研發,包括軟硬件定製化方案也是最早投入實用。技術上,他們的共同之處是,再也不依賴傳統的IOE,而基於開源系統(如Hadoop等)開發面向典型應用的大規模、高通量、低成本、強擴展的專用化系統。
【2】大數據處理架構多樣化模式並存
當前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以來逐漸被互聯網企業所普遍接納,併成爲大數據處理領域的事實標準。但2013年出現的Spark做爲一匹黑馬終結了這一神話,大數據技術再也不一家獨大。因爲應用不一樣致使Hadoop一套軟件系統不可能知足全部需求,在全面兼容Hadoop的基礎上,Spark經過更多的利用內存處理大幅提升系統性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出現並非取代Hadoop,而是擴大了大數據技術的生態環境,促使生態環境向良性化和完整化發展。從此在非易失存儲層面、網絡通訊層面、易失存儲層面和計算框架層面還會出現更多、更好和更專用化的軟件系統。
【3】實時計算逐步受到業界關注
Google於2010年推出了Dremel,引領業界向實時計算邁進。實時計算是針對MapReduce這種批量計算的性能問題提出的,可分爲流式計算和交互式分析計算兩種模式。在大數據背景下,流式計算源於服務器日誌的實時採集,如Facebook開源的Scribe是分佈式日誌收集系統,ApacheFlume是相似的系統。ApacheKafka是高吞吐率的分佈式消息系統,特色是高通量和容錯。Storm是容錯的分佈式實時計算系統,能夠可靠的處理流式數據並進行實時處理,單機性能可達到百萬記錄每秒。Storm可集成ApacheKafka做爲其隊列系統。做爲批量計算的補充,交互式分析計算的目標是將PB級數據的處理時間縮短到秒級。ApacheDrill是開源的Dremel實現,雖已有應用但尚不成熟。由Cloudera主導的Impala也參照Dremel實現,同時還參考了MPP的設計思想,目前已經接近實用階段。Hortonworks主導開發了TEZ/Stinger,TEZ是運行在YARN(Hadoop2.0的資源管理框架)上的DAG計算框架,而Stinger是下一代的Hive。2013年末,由Facebook開源的Presto分佈式SQL查詢引擎可對250PB以上的數據進行交互式分析,比Hive的性能高出10倍。相似的Shark是Spark上的SQL執行引擎,得益於Shark的列存儲和Spark的內存處理等特性,Shark號稱能夠比Hive的性能提升100倍。
二、系統支撐下的大數據分析技術
【1】內容分析與深度學習
要挖掘大數據的大價值必然要對大數據進行內容上的分析與計算。這其中一個核心問題是如何來對數據的進行有效表達、解釋和學習,不管是對圖像、聲音仍是文本數據。傳統的研究也有不少數據表達的模型和方法,但一般都是較爲簡單或者淺層的模型,不能得到好的學習效果。大數據的出現提供了使用更加複雜的模型來更有效地學習數據表徵、解釋數據的機會,深度學習就是這樣一個研究領域,它已經在計算機視覺、語音識別等應用取得了成功。在國際上,微軟將RBM和DBN引入語音識別中,使得錯誤率相對減低30%;Google的深度學習系統(DistBelief)在獲取數百萬YouTube視頻數據後,可以精準地識別出這些視頻的關鍵元素貓。在國內,2011年科大訊飛首次將DNN技術運用到語音雲平臺,並提供給開發者使用,並在訊飛語音輸入法和訊飛口訊等產品中獲得應用。百度成立了IDL(深度學習研究院),專門研究深度學習算法,目前已有超過8項深度學習技術在百度產品上線。深度學習對百度影響深遠,在語音識別、OCR識別、人臉識別、圖像搜索等應用上取得了突出效果。此外,國內其它公司如搜狗、雲知聲等紛紛開始在產品中使用深度學習技術。
【2】知識計算
基於大數據的知識計算是大數據分析的基礎。當前,基於開放網絡大數據構建知識庫是國內外工業界開發和學術界研究的一個熱點。世界各國各個組織創建的知識庫多達50餘種,相關的應用系統更是達到了上百種。其中,有表明性的知識庫或應用系統有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基於維基百科等在線百科知識構建的知識庫DBpedia,YAGO,Omega,WikiTaxonomy。除此以外,一些著名的商業網站、公司和政府也發佈了相似的知識搜索和計算平臺,如Evi公司的TrueKnowledge知識搜索平臺美國官方政府網站Data.gov,Wolfram的知識計算平臺wolframalpha,Google的知識圖譜(Knowledgegraph),Facebook推出的相似的實體搜索服務graphsearch等。在國內,中文知識圖譜的構建與知識計算也有大量的研究和開發工做。表明性工做有中科院計算所的基於OpenKN(開放知識網絡)的「人立方、事立方、知立方」系統,中科院數學院陸汝鈐院士提出的知件(Knowware),上海交通大學構建的中文知識圖譜平臺zhishi.me,百度推出的中文知識圖譜搜索,搜狗推出的知立方平臺,復旦大學GDM實驗室推出的中文知識圖譜展現平臺等。
【3】在線社會計算
社會媒體計算是大數據分析的典型應用之一。以Facebook、Twitter、新浪微博等爲表明的社會媒體正深入改變着人們傳播信息和獲取信息的方式,人和人之間結成的關係網絡承載着網絡信息的傳播,人的互聯成爲信息互聯的載體和信息傳播的媒介,社會媒體的強交互性、時效性等特色使其在信息的產生、消費和傳播過程當中發揮着愈來愈重要的做用,成爲一類重要信息載體。正因如此,當前社會媒體計算不管在學術圈和工業界都備受重視,你們關注的問題包括有對社交網絡的分析、網絡信息傳播的內在機理以及社會媒體中的信息檢索與挖掘(包括用戶搜索、用戶關係挖掘、話題發現、情感分析等)。在這些面向社會媒體計算的研究中,面對的社交網絡是一個異常龐大、關係異質、結構多尺度和動態演化的網絡,一般有億級的節點,幾十億條連邊,對它的分析、建模和計算不只須要提出適配這樣的複雜網絡的關係抽象、結構建模和演化計算方法,更關鍵的也是更基礎的是須要支持這樣大規模網絡結構的圖數據存儲和管理結構,以及高性能的圖計算系統結構和算法,這也催生了當前不少圖數據庫和圖計算平臺的產生(如neo4j,GraphLab等)
【4】可視化成爲大數據分析的熱點
大數據引領着新一波的技術革命,對大數據查詢和分析的實用性和實效性對於人們可否及時得到決策信息很是重要,決定着大數據應用的成敗。愈來愈多的企業在直面紛繁的海量數據衝擊時面露難色。一個緣由是由於數據容量巨大,類型多樣,數據分析工具面臨性能瓶頸。另外一緣由在於,數據分析工具一般僅爲IT部門熟練使用,缺乏簡單易用、讓業務人員也能輕鬆上手實現自助自主分析即時獲取商業洞察的工具。所以,數據可視化技術正逐步成爲大數據時代的顯學。對大數據進行分析之後,爲了方便用戶理解也須要有效的可視化技術,這其中交互式的展現和超大圖的動態化展現值得重點關注。若是一個機構嘗試邁向大數據模式,那麼必定要有至關份量的數據可視化投入。
總結:系統支撐下的大數據分析技術,從學界的關注點以及業界的突破點來看,當前能夠總結爲四個特色:「深度學習提升精度」、「知識驅動提升深度」、「社會計算與仿社會計算促進認知」、「可視化與分析算法互爲因果」。固然,數據分析技術解決的問題仍是如何有效的挖掘和利用數據價值。
三、關於中國大數據生態系統的基礎問題思考
【1】創建良性生態環境的目標
針對國家安全、社會經濟等領域的數據化生存與競爭的需求,咱們須要切實解決網絡化數據社會與現實社會缺少有機融合、互動以及協調機制的難題,造成大數據感知、管理、分析與應用服務的新一代信息技術架構和良性增益的閉環生態系統,達到大幅度提升數據消費指數、數據安全指數,下降數據能耗指數等目標。咱們認爲,創建良性的大數據生態系統是有效應對大數據挑戰關鍵問題,須要科技界、產業界以及政府部門在國家政策的引導下共同努力,經過轉變認識、消除壁壘、創建平臺,突破技術瓶頸等途徑,創建可持續、和諧的大數據生態系統。
【2】評價先行,提出考量大數據生態的三大指數,包括數據消費指數、數據能效指數、數據安全指數。
1)數據消費指數:
數據消費指數是指使用或者消費的數據佔產生的數據的比例,旨在衡量數據消費的能力。當前由大數據引起的新產品、新服務、新業態大量涌現,不斷激發新的消費需求,成爲日益活躍的消費熱點。然而,數據消費指數受到多方面發展狀態的制約,包括數據開放和互通程度、大數據分析技術、智能訪問終端的普及、數據服務基礎設施的建設、數據服務新興產業的發展等等。當前大數據消費指數低,美國NSA聲稱只是掃描1.6%的全球網絡流量(約29.21PB),分析其中0.025%的數據來支持其分析和決策。我國數據消費面臨基礎設施支撐能力有待提高、產品和服務創新能力弱、市場準入門檻高、行業壁壘嚴重、機制不適應等問題,亟需採起措施予以解決。
2)數據能效指數:
數據能效指數是指大數據處理中的價值能耗比例,是衡量大數據價值獲取的綠色指數。當前面對大數據,一般採起基於數據中心的粗放式的分析處理和價值提煉方式,致使數據能效低下。一方面,因爲缺少適應大數據的計算模式,每每採起集中式全量處理方式,致使數據處理效率低,獲取單位價值所需的數據規模很是龐大,造成了大數據價值密度低的現象;另外一方面,爲了適應大數據爆炸式的增加,數據中心存儲系統的容量、擴展能力、傳輸瓶頸等方面面臨巨大挑戰,直接結果就是數據中心的能耗愈來愈大。有關調查顯示在過去5年全球數據中心的能耗增加率是56%,我國對數據中心流量處理能力的需求增加更快,數據中心能耗的問題就更加突出。目前國內數據中心的PUE平均值基本都在2.5以上,與歐美地區的PUE(能源使用效率)廣泛值1.8如下還存在着較大的差距。且目前其全球的數據中心50%是徹底用天然冷卻的,前十大數據中心的PUE都在1.2如下。所以數據能效指數是在大數據發展中必須面對的,關乎國家能源消耗的重要指數。
3)數據安全指數:
數據安全指數包括了數據從建立、傳輸、存儲到分析的全生命週期的安全指標,旨在衡量數據安全、隱私保護等方面的能力。數據安全是一個囊括我的,企業和國家的全方位的大數據安全體系。從我的層面,大數據對於隱私將是一個重大挑戰,哈佛大學近期的一項研究顯示,只要知道一我的的年齡、性別和郵編,從公開的數據庫中即可識別出該人87%的身份。對於企業,數據做爲一種資產,其安全保護問題十分重要,隨着大數據的不斷增長,對數據存儲的物理安全性要求會愈來愈高,從而對數據的多副本與容災機制提出更高的要求。而在國家層面,來自外部的威脅在大數據時代顯然比以往更加突出和危險。舉世矚目的「維基解密」和「棱鏡」事件生動昭示着大數據的嚴酷挑戰。「維基解密」幾回泄露美國軍事外交等機密,規模之大,影響之廣,震驚全球。「棱鏡」事件向全世界曝光出網絡空間國家與我的,國家與國家之間的安全對抗。所以評估數據安全指數,有利於推進大數據安全體系的完善,提高國家、社會和我的的信息安全。
1.如何創建支撐數據密集型科學發現新範式的基礎設施:這包括了創建一系列通用的工具,以支撐從數據採集、驗證到管理、分析和長期保存等整個流程,支持跨工具、跨項目、跨領域的數據共享與整合,將是支持數據密集型科學發現的基礎問題。
2.如何創建數據全生命週期的計算模型:研究以數據爲中心的新型計算架構,將計算推送到數據從獲取、存儲、處理、交換到服務的全生命週期的各個部分,研究數據全生命週期中不一樣計算之間的關聯、互動和共享機制,在提升數據消費能力的同時有效下降數據計算能耗,造成數據安全體系,這是大數據計算的關鍵問題。
3.如何完成數據資產化和造成數據資產流轉體系:亟需創建數據資產化的基本標準,讓不一樣機構、不一樣領域的數據造成規範化資產;創建數據資產訪問、鏈接和共享機制,搭建數據資產交易平臺,造成數據流轉的層次化體系結構;研究數據資產的全部權、使用權以及價值評估體系,經過市場化模式保障數據資產流轉的可行性。