好程序員技術解析 Hadoop和spark的性能比較,大數據培訓一度受到廣大IT愛好者的追捧,成爲最熱門的培訓學科!前景無需多述,高薪就業,職場一片坦途!今天好程序員就爲你們講解下關於大數據的知識要點。問:
Hadoop和spark的性能有何區別。
若是說Hadoop是一家大型包工隊,咱們能夠經過它組織人員進行合做,搬磚建造房屋,弊端在於速度較慢。
Spark是另外一家包工隊,成立時間較晚,可是他們搬磚更爲靈活,能夠實時交互地蓋房子,工做效率比Hadoop快得多。
當Hadoop開始升級,指定調度專家YARN調度工人。Spark從多個倉庫搬磚(HDFS,Cassandra,S3,HBase),還容許不一樣專家如YARN/ MESOS對人員和任務進行調度。
固然,Spark和Hadoop團隊進行合做,問題變得更加複雜。做爲兩個獨立的包工隊,兩者都有着各自的優缺點和特定的業務用例。
所以,咱們說Hadoop和spark的性能區別在於:
Spark在內存中運行速度比Hadoop快100倍,在磁盤上運行速度快10倍。衆所周知,Spark在數量只有十分之一的機器上,對100TB數據進行排序的速度比Hadoop MapReduce快3倍。此外,Spark在機器學習應用中的速度一樣更快,例如Naive Bayes和k-means。
Spark性能之因此比Hadoop更優,緣由在於每次運行MapReduce任務時,Spark都不會受到輸入輸出的限制。事實證實,應用程序的速度要快得多。再有Spark的DAG能夠在各個步驟之間進行優化。Hadoop在MapReduce步驟之間沒有任何週期性鏈接,這意味着在該級別不會發生性能調整。可是,若是Spark與其餘共享服務在YARN上運行,則性能可能會下降並致使RAM開銷內存泄漏。出於這個緣由,若是用戶有批處理的訴求,Hadoop被認爲是更高效的系統。程序員