初學spark基本操作SparkSession、Dataset<Row>

RDD的具體描述RDD(彈性分佈式數據集)是Spark提供的最重要的抽象的概念,它是一種有容錯機制的特殊集合,可以分佈在集羣的節點上,以函數式編操作集合的方式,進行各種並行操作。可以將RDD理解爲一個具有容錯機制的特殊集合,它提供了一種只讀、只能有已存在的RDD變換而來的共享內存,然後將所有數據都加載到內存中,方便進行多次重用。 a.他是分佈式的,可以分佈在多臺機器上,進行計算。  b.他是彈性的
相關文章
相關標籤/搜索