使用Python Pandas處理億級數據

在數據分析領域,最熱門的莫過於Python和R語言,此前有一篇文章《別老扯什麼Hadoop了,你的數據根本不夠大》指出:只有在超過5TB數據量的規模下,Hadoop纔是一個合理的技術選擇。這次拿到近億條日誌數據,千萬級數據已經是關係型數據庫的查詢分析瓶頸,之前使用過Hadoop對大量文本進行分類,這次決定採用Python來處理數據: 硬件環境 CPU:3.5 GHz Intel Core i7 內
相關文章
相關標籤/搜索