大規模機器學習框架的四重境界

時間 2020-12-27

原文原文鏈接

源 | 分佈式機器學習系統@知乎文 | carbon zhang 整理 | AI時間 1.背景本篇主要針對volume大的數據時，使用機器學習來進行數據處理過程中遇到的架構方面的問題做一個系統的梳理。有了GFS我們有能力積累海量的數據樣本，比如在線廣告的曝光和點擊數據，天然具有正負樣本的特性，累積一兩個月往往就能輕鬆獲得百億、千億級的訓練樣本。這樣海量的樣本如何存儲？用什麼樣的

>>阅读原文<<