Spark內核:RDD基礎

RDD產生的背景 MR程序 每個hadoop作業都是從物理存儲上加載數據,然後操作數據進行運算,最後寫入到物理存儲設備中。 但是這樣的話就無法複用曾經的計算結果或中間計算結果等。Hadoop每次作業多從磁盤上讀寫數據而且第二次作業的時候會再次從磁盤上讀寫數據。 MR對兩種應用的處理並不是很高效,一個是因爲需要大量迭代的算法(圖計算和機器學習),另一個是交互式數據挖掘工具(重複採集一個數據子集)。基
相關文章
相關標籤/搜索