好程序員技術解析Hadoop和spark的性能比較

時間 2019-12-05

標籤程序員技術解析 hadoop spark 性能比較欄目快樂工作简体版

原文原文鏈接

　　好程序員技術解析 Hadoop和spark的性能比較，大數據培訓一度受到廣大IT愛好者的追捧，成爲最熱門的培訓學科！前景無需多述，高薪就業，職場一片坦途！今天好程序員就爲你們講解下關於大數據的知識要點。問：程序員

Hadoop和spark的性能有何區別。機器學習

　　若是說Hadoop是一家大型包工隊，咱們能夠經過它組織人員進行合做，搬磚建造房屋，弊端在於速度較慢。oop

Spark是另外一家包工隊，成立時間較晚，可是他們搬磚更爲靈活，能夠實時交互地蓋房子，工做效率比Hadoop快得多。性能

當Hadoop開始升級，指定調度專家YARN調度工人。Spark從多個倉庫搬磚(HDFS，Cassandra,S3，HBase)，還容許不一樣專家如YARN/ MESOS對人員和任務進行調度。學習

固然，Spark和Hadoop團隊進行合做，問題變得更加複雜。做爲兩個獨立的包工隊，兩者都有着各自的優缺點和特定的業務用例。大數據

所以，咱們說Hadoop和spark的性能區別在於：優化

Spark在內存中運行速度比Hadoop快100倍，在磁盤上運行速度快10倍。衆所周知，Spark在數量只有十分之一的機器上，對100TB數據進行排序的速度比Hadoop MapReduce--3倍。此外，Spark在機器學習應用中的速度一樣更快，例如Naive Bayes和k-means。spa

Spark性能之因此比Hadoop更優，緣由在於每次運行MapReduce任務時，Spark都不會受到輸入輸出的限制。事實證實，應用程序的速度要快得多。再有Spark的DAG能夠在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性鏈接，這意味着在該級別不會發生性能調整。可是，若是Spark與其餘共享服務在YARN上運行，則性能可能會下降並致使RAM開銷內存泄漏。出於這個緣由，若是用戶有批處理的訴求，Hadoop被認爲是更高效的系統。排序