淺析 hadoop與spark

Apache Hadoop和Apache Spark算法

接下來談多核機器、 PB級數據和任務,這跟全部從twitter提到的Java或重載機器學習算法相似。談到Hadoop,不得不說這個應用普遍的框架及它的組 件:Hadoop分佈式文件系統(HDFS)、資源管理平臺(YARN)、數據處理模塊(MapReduce)和其餘所需的類庫和工具(Common)。 在這些組件上層還有一些其餘很受歡迎的可選工具,好比運行在HDFS上的數據庫(HBase)、查詢語言平臺(Pig)和數據倉庫基礎結構(Hive)。數據庫

Apache Spark 做爲一種新數據處理模塊,之內存性能和快速執行的彈性分佈式數據集(RDDs)而出名,不一樣於不能高效使用內存和磁盤的Hadoop MapReduce。Databricks公佈的最新標準顯示當用少於10倍節點的時候,對1PB數據的排序Spark比Hadoop快三倍。框架

典型的Hadoop用例在於查詢數據,而Spark正以其快速的機器學習算法愈來愈出名。但這只是冰山一角,Databricks如是說:「Spark 使應用程序在Hadoop集羣中運行在內存中快100倍,當運行在磁盤中時甚至快10倍」。機器學習

小結:Spark是在Hadoop生態系統中的後起之秀,有一個常見的誤解是咱們如今常常談它一些不合做或競爭的事情,可是我認爲咱們在這正在看到這個框架的發展。分佈式

相關文章
相關標籤/搜索