Spark RDD或Dataframe持久化的選擇

時間 2019-12-04

原文原文鏈接

背景測試數據（df，dataframe格式）：800萬條, 4.5G。計算配置：每一個executor的memory爲20G，32個核。測試語句：count條數—df.groupby("_90").count().show()web 持久化操做持久化操做特色代碼計算時間無 df.count() 17秒只到內存以分區的形式存到集羣的各機器內存中上 df.persist(Stora

>>阅读原文<<