RDD(彈性分佈式數據集)

1、什麼是RDD RDD(分佈式彈性數據集)是對分佈式計算的抽象,代表要處理的數據,一個數據集,RDD是隻讀分區的集合。數據被分片,分成若干個數據分片,存儲到不同的節點中,可以被並行的操作,所以叫分佈式數據集。計算時優先考慮放於內存中,如果放不下把一部分放在磁盤上保存。 RDD(分佈式彈性數據集)是整個Spark抽象的基石,是基於工作集的應用抽象。Spark的各個子框架,Spark SQL、Spa
相關文章
相關標籤/搜索