Spark 中RDD和DataSet之間的轉換

時間 2019-12-06

原文原文鏈接

什麼是RDD:Spark提供了一個抽象的彈性分佈式數據集，是一個由集羣中各個節點以分區的方式排列的集合，用以支持並行計算。RDD在驅動程序調用hadoop的文件系統的時候就建立（其實就是讀取文件的時候就建立），或者經過驅動程序中scala集合轉化而來，用戶也能夠用spark將RDD放入緩存中，來爲集羣中某臺機器宕掉後，確保這些RDD數據能夠有效的被複用。總之，RDD能自動從宕機的節點中恢復過來。