Spark RDD或Dataframe持久化的選擇

背景 測試數據(df,dataframe格式):800萬條, 4.5G。 計算配置:每一個executor的memory爲20G,32個核。 測試語句:count條數—df.groupby("_90").count().show()web 持久化操做 持久化操做 特色 代碼 計算時間 無 df.count() 17秒 只到內存 以分區的形式存到集羣的各機器內存中上 df.persist(Stora
相關文章
相關標籤/搜索