Spark基礎及架構

爲什麼使用Spark (1)MapReduce編程模型的侷限性 1、繁雜 只有Map和Reduce兩個操作,複雜的邏輯需要大量的樣板代碼 2、處理效率低: Map中間結果寫磁盤,Reduce寫HDFS,多個Map通過HDFS交換數據 任務調度與啓動開銷大 3、不適合迭代處理、交互式處理和流式處理 (2)Spark是類Hadoop MapReduce的通用並行框架 1、Job中間輸出結果可以保存在內
相關文章
相關標籤/搜索