python使用pandas處理大數據節省內存技巧

一般來說,用pandas處理小於100兆的數據,性能不是問題。當用pandas來處理100兆至幾個G的數據時,將會比較耗時,同時會導致程序因內存不足而運行失敗。 當然,像Spark這類的工具能夠勝任處理100G至幾個T的大數據集,但要想充分發揮這些工具的優勢,通常需要比較貴的硬件設備。而且,這些工具不像pandas那樣具有豐富的進行高質量數據清洗、探索和分析的特性。對於中等規模的數據,我們的願望是
相關文章
相關標籤/搜索