三, Spark的RDDspa
在Spark中一切都是以RDD爲基礎和核心的:orm
每一個RDD的API以下所示:文檔
Spark官方文檔中給出了的衆多的RDD:it
RDD中的操做分爲transformations和actions兩種:io
下面舉一個例子來講明RDD的使用:form
另外有兩個特殊的RDD:基礎
他們都是controlling operations:transform
RDD在執行的時候都是並行的:並行
四, Spark的高容錯機制lineageim
基於DAG圖,lineage是輕量級而高效的:
操做之間相互具有lineage的關係,每一個操做只關心其父操做,各個分片的數據之間互不影響,出現錯誤的時候只要恢復單個Split的特定部分便可: