在處理大型機器學習數據文件的時候,主要有哪幾種方法?

1.分配更多內存 有的機器學習工具/庫有默認內存設置,比如Weka。這便是個限制因素。 你需要檢查下:是否能重新設置該工具/庫,分配更多內存。 對於Weka,你可以在打開應用時,把內存當作個參數進行調整。 2.用更小的樣本 你真的需要用到全部數據嗎? 可以採集個數據的隨機樣本,比如前1,000或100,000行。在全部數據上訓練較終模型之前(使用漸進式的數據加載技巧),先試着用這個小樣本解決問題。
相關文章
相關標籤/搜索