RDD和Dataframe

RDD是一個分佈式的無序的列表。 RDD中可以存儲任何的單機類型的數據,但是,直接使用RDD在字段需求明顯時,存在算子難以複用的缺點。 舉例如下: 例如,現在RDD 存的數據是一個Person類型的數據,現在要求所有每個年齡段(10年一個年齡段)的人中最高的身高和最大的體重。 使用RDD 接口,因爲RDD不瞭解其中存儲的數據的具體的結構,數據的結構對它來說就是黑盒,於是這就需要用戶自己去寫一個很特
相關文章
相關標籤/搜索