Spark 中RDD和DataSet之間的轉換

什麼是RDD:Spark提供了一個抽象的彈性分佈式數據集,是一個由集羣中各個節點以分區的方式排列的集合,用以支持並行計算。RDD在驅動程序調用hadoop的文件系統的時候就建立(其實就是讀取文件的時候就建立),或者經過驅動程序中scala集合轉化而來,用戶也能夠用spark將RDD放入緩存中,來爲集羣中某臺機器宕掉後,確保這些RDD數據能夠有效的被複用。 總之,RDD能自動從宕機的節點中恢復過來。
相關文章
相關標籤/搜索