Spark(1)——spark基本原理與啓動

spark在離線計算方面可以類比於mapreduce,它完美的運用內存來進行計算,效率比mapreduce要高得多。 RDD(彈性分佈式數據集) spark中操作的數據最終都會轉成對RDD的操作,RDD會在多個節點上進行保存,RDD也像HDFS那樣,會切分成幾個partition,就像hdfs裏的數據被切分成block那樣。 ps:RDD是不可變的,如果要對RDD進行修改,RDD會保存出一個新的R
相關文章
相關標籤/搜索