Spark筆記三之RDD,算子

RDD核心概念 Resilientdistributed DataSet,彈性分佈式數據集apache 1是隻讀的,分區記錄的集合對象緩存 2分區(partition)是RDD的基本組成單位,其決定了並行計算的粒度。應用程序對RDD的轉換最終都是對其分區的轉換。分佈式 3用戶能夠指定RDD的分區個數,若是不指定則默認程序分配到的CPU的core數ide 4每一個分區被影射爲一個block,在調用h
相關文章
相關標籤/搜索