Facebook十億級用戶運用機器進行數據處理

時間 2019-12-07

原文原文鏈接

Facebook公司的許多機器學習模型，成功的主要因素就是普遍而高質量的可用數據。快速處理並將這些數據提供給機器學習模型的能力可以確保咱們部署快速有效的離線訓練。算法對於複雜的機器學習應用程序，如廣告和排名，每一個訓練任務所需的數據量都超過數百TB大小。此外，複雜的預處理邏輯的使用能確保數據被清理並歸一化，以便高效地遷移和更輕鬆地學習。這些操做對資源的要求很是高，特別對存儲量，網絡和CPU的需求

>>阅读原文<<