中國大數據六大技術變遷記(CSDN)

大會召開前期,特別梳理了歷屆大會亮點以記錄中國大數據技術領域發展歷程,並立足當下生態圈現狀對即將召開的BDTC 2014進行展望:算法

追本溯源,悉大數據六大技術變遷數據庫

伴隨着大數據技術大會的發展,咱們親歷了中國大數據技術與應用時代的到來,也見證了整個大數據生態圈技術的發展與衍變:跨域

1. 計算資源的分佈化——從網格計算到雲計算。服務器

  回顧歷屆BDTC大會,咱們不難發現,自2009年,資源的組織和調度方式已逐漸從跨域分佈的網格計算向本地分佈的雲計算轉變。而時至今日,雲計算已成爲大數據資源保障的不二平臺。網絡

2. 數據存儲變動——HDFS、NoSQL應運而生。架構

  隨着數據格式愈來愈多樣化,傳統關係型存儲已然沒法知足新時代的應用程序需求,HDFS、NoSQL等新技術應運而生,併成爲當下許多大型應用架構不可或缺的一環,也帶動了定製計算機/服務器的發展,同時也成爲大數據生態圈中最熱門的技術之一。框架

3. 計算模式改變——Hadoop計算框架成主流。機器學習

  爲了更好和更廉價地支撐其搜索服務,Google建立了Map/Reduce和GFS。而在Google論文的啓發下,原雅虎工程師Doug Cutting開創了與高性能計算模式迥異的,計算向數據靠攏的Hadoop軟件生態系統。Hadoop天生高貴,時至今日已成爲Apache基金會最「Hot」的開源項目,更被公認爲大數據處理的事實標準。Hadoop以低廉的成本在分佈式環境下提供了海量數據的處理能力。所以,Hadoop技術研討與實踐分享也一直是歷屆中國大數據技術大會最亮眼的特點之一。分佈式

4. 流計算技術引入——知足應用的低延遲數據處理需求。oop

  隨着業務需求擴展,大數據逐漸走出離線批處理的範疇,Storm、Kafka等將實時性、擴展性、容錯性和靈活性發揮得淋漓盡致的流處理框架,使得舊有消息中間件技術得以重生。成爲歷屆BDTC上一道亮麗的風景線。

5. 內存計算初露端倪——新貴Spark敢與老將叫板。

  Spark發源於美國加州大學伯克利分校AMPLab的集羣計算平臺,它立足於內存計算,從多迭代批量處理出發,兼容幷蓄數據倉庫、流處理和圖計算等多種計算範式,是罕見的全能選手。在短短4年,Spark已發展爲Apache軟件基金會的頂級項目,擁有30個Committers,其用戶更包括IBM、Amazon、Yahoo!、Sohu、百度、阿里、騰訊等多家知名公司,還包括了Spark SQL、Spark Streaming、MLlib、GraphX等多個相關項目。毫無疑問,Spark已站穩腳跟。

6. 關係數據庫技術進化—NewSQL改寫數據庫歷史。

  關係數據庫系統的研發並無停下腳步,在橫向擴展、高可用和高性能方面也在不斷進步。實際應用對面向聯機分析處理(OLAP)的MPP(Massively Parallel Processing)數據庫的需求最迫切,包括MPP數據庫學習和採用大數據領域的新技術,如多副本技術、列存儲技術等。而面向聯機事務處理(OLTP)的數據庫則向着高性能演進,其目標是高吞吐率、低延遲,技術發展趨勢包括全內存化、無鎖化等。


立足揚帆,看2014大數據生態圈發展

時光荏苒,轉眼間2014中國大數據技術大會將如期舉行。在技術突飛猛進的當下,2014年的BDTC上又能夠洞察些什麼?這裏咱們不妨着眼當下技術發展趨勢:

1. MapReduce已成頹勢,YARN/Tez是否能夠再創輝煌?

  對於Hadoop來講,2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等衆多巨頭都加大了Hadoop方面的投入。然而對於衆多機構來講,這一年卻並不輕鬆:基於MapReduce的實時性短板以及機構對更通用大數據處理平臺的需求,Hadoop 2.0轉型已勢在必行。那麼,在轉型中,機構究竟會遭遇什麼樣的挑戰?各個機構如何才能更好地利用YARN所帶來的新特性?Hadoop將來的發展又會有什麼重大變化?爲此,BDTC 2014特邀請了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成員Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等國際頂尖Hadoop專家,咱們不妨當面探討。

2. 時過境遷,Storm、Kafka等流計算框架前途未卜。

  若是說MapReduce的緩慢給衆多流計算框架帶來了可乘之機,那麼當Hadoop生態圈組件愈加成熟,Spark更加易用,迎接這些流計算框架的又是什麼?這裏咱們不妨根據BDTC 2014近百場的實踐分享進行一個側面的瞭解,亦或是與專家們當面交流。

3. Spark,是顛覆仍是補充?

  與Hadoop生態圈的兼容,讓Spark的發展突飛猛進。然而根據近日Sort Benchmark公佈的排序結果,在海量(100TB)離線數據排序上,對比上屆冠軍Hadoop,Spark以不到十分之一的機器,只使用三分之一的時間就完成了一樣數據量的排序。毫無疑問,當下Spark已不止步於實時計算,目標直指通用大數據處理平臺,而終止Shark,開啓Spark SQL或許已經初見端倪。那麼,當Spark越發成熟,更加原生的支持離線計算後,開源大數據標準處理平臺這個榮譽又將花落誰家?這裏咱們一塊兒期待。 

4. 基礎設施層,用什麼來提高咱們的網絡?

  時至今日,網絡已成爲衆多大數據處理平臺的攻堅對象。好比,爲了克服網絡瓶頸,Spark使用新的基於Netty的網絡模塊取代了原有的NIO網絡模塊,從而提升了對網絡帶寬的利用。那麼,在基礎設施層咱們又該如何克服網絡這個瓶頸?直接使用更高效的網絡設備,好比Infiniband可以帶來多少性能提高?創建一個更智能網絡,經過計算的每一個階段,自適應來調整拆分/合併階段中的數據傳輸要求,不只提升了速度,也提升了利用率。在BDTC 2014上,咱們能夠從Infiniband/RDMA技術及應用演講,以及數場SDN實戰上吸收寶貴的經驗。

5. 數據挖掘的靈魂——機器學習。

  近年來,機器學習領域的人才搶奪已進入白熱化,相似Google、IBM、微軟、百度、阿里、騰訊對機器學習領域的投入也是越來越高,囊括了芯片設計、系統結構(異構計算)、軟件系統、模型算法和深度應用各個方面。大數據標誌一個新時代的到來,PB數據讓人們坐擁金山,然而缺乏了智能算法,機器學習這個靈魂,價值的提取無疑變得鏡花水月。而在本屆會議上,咱們一樣爲你們準備了數場機器學習相關分享,靜候諸位參與。

相關文章
相關標籤/搜索