Spark與Pandas中DataFrame對比（詳細）

時間 2019-12-07

標籤 spark pandas dataframe 對比詳細欄目 Spark 简体版

原文原文鏈接

Pandas Spark 工做方式單機single machine tool，沒有並行機制parallelism 不支持Hadoop，處理大量數據有瓶頸分佈式並行計算框架，內建並行機制parallelism，全部的數據和操做自動並行分佈在各個集羣結點上。以處理in-memory數據的方式處理distributed數據。支持Hadoop，能處理大量數據延遲機制 not lazy-evalua

>>阅读原文<<