python使用pandas處理大數據節省內存技巧

通常來講,用pandas處理小於100兆的數據,性能不是問題。當用pandas來處理100兆至幾個G的數據時,將會比較耗時,同時會致使程序因內存不足而運行失敗。html 固然,像Spark這類的工具可以勝任處理100G至幾個T的大數據集,但要想充分發揮這些工具的優點,一般須要比較貴的硬件設備。並且,這些工具不像pandas那樣具備豐富的進行高質量數據清洗、探索和分析的特性。對於中等規模的數據,咱們
相關文章
相關標籤/搜索