RDD、DataFrame、DataSet原理解析

一、RDD、DataFrame、DataSet三者概念 1. RDD:全稱Resilient Distributed Dataset,彈性分佈式數據集,Spark中最基礎的數據抽象,特點是RDD只包含數據本身,沒有數據結構。 2. DataFrame:也是一個分佈式數據容器,除數據本身,還記錄了數據的結構信息,即schema;結構信息便於Spark知道該數據集中包含了哪些列,每一列的類型和數據是什
相關文章
相關標籤/搜索