python使用pandas處理大數據節省內存技巧

時間 2021-01-17

原文原文鏈接

一般來說，用pandas處理小於100兆的數據，性能不是問題。當用pandas來處理100兆至幾個G的數據時，將會比較耗時，同時會導致程序因內存不足而運行失敗。當然，像Spark這類的工具能夠勝任處理100G至幾個T的大數據集，但要想充分發揮這些工具的優勢，通常需要比較貴的硬件設備。而且，這些工具不像pandas那樣具有豐富的進行高質量數據清洗、探索和分析的特性。對於中等規模的數據，我們的願望是

>>阅读原文<<