pyspark必知必會(持續更新中)

RDD 和DF 聯繫 都是彈性分佈式數據集,輕量集 惰性機制,延遲計算 根據內存情況,自動緩存,加快計算速度 都有partition概念 衆多相同的算子 區別 DF引入了schema和off-heap schema RDD每一行的數據結構都是一樣的 off-heap 意味着JVM堆以外的內存 RDD 優點: 強大,內置很多函數操作,group,map,filter等,方便處理結構化或非結構化數據
相關文章
相關標籤/搜索