「分佈式機器學習的故事」系列分享

時間 2019-11-26

標籤分佈式機器學習故事系列分享欄目系統架構简体版

原文原文鏈接

【更新 2015-03-01】在LinkedIn的同事王冠和朱平的協助下，在灣區的分佈式機器學習系列分享結束了。感謝LinkedIn Events團隊提供場地、器材和其餘支持。一塊兒參與的朋友們組成了一個微信羣，繼續保持溝通和交流。git

內容

A New Era slides video
Infrequent itemset mining slides video
Application Driven slides video
Implement Your MapReduce slides video
Deep Learning slides video
Peacock and Latent Topic Modeling slides video

總結

互聯網服務超越人工服務
集體智能超越人工智能
大數據是行爲數據
大數據必然長尾
長尾數據無噪聲
追求「大」比追求「快」重要
開發框架、而不是套用框架
工程技法和數學一樣重要
遠離 Java、遠離 Python
有所謂好的系統，無所謂好的算法

初衷

從2007年博士畢業加入Google作機器學習至今已七年了，一直在工業界機器學習一線工做。尤爲是從2010年開始擔任騰訊廣告的技術總監以後，一邊組建團隊，一邊揹負業務指標壓力時，針對業務和產品設計開發機器學習技術。github

在 Google 的工做讓我有機會和同事們在 collaborative filtering、spectral clustering、frequent itemset mining、graph clustering、latent topic modeling等幾個重要的研究方面作了一些嘗試。基於其餘同事在計算架構上的創新，咱們在其中每一個方面都有將文獻中的數據處理能力提高1000倍的做品。這段經歷讓我能更好地針對問題選擇方法，對我在騰訊的工做有很大幫助。在騰訊的工做集中在 retrieval system 和 ranking system，以及爲了作好它們須要的機器學習技術。其間咱們用 Go 語言開發的 Peacock至今是業界最大規模的 latent topic modeling system，在騰訊的廣告、推薦和其餘業務上使用。爲 ranking 作的點擊率預估系統也讓咱們團隊成爲 KDD Cup 2012的出題者和裁判團隊。和學界的交流，收穫和感觸都不少。算法

這七年裏的親身參與和有幸旁觀，讓我總結了一些經驗和造成了一些觀點。有趣的是，這些觀點與開源社區以及學術界對「大數據學習」的認識南轅北轍。2014年來到灣區工做以後，Linkedin的同事們鼓勵和幫助我分享經歷和經驗。卡耐基梅隆大學的邢波（Eric Xing）教授也但願我給機器學習系的同窗們作一個系列講座。電子工業和人民郵電出版社的編輯朋友們也但願我完善和出版個人系列博客《分佈式機器學習的故事》。微信

承蒙你們的鼓勵和幫助，咱們準備在灣區和匹茲堡同時開始一個系列的分享：第一次是分享個人經驗總結和觀點，後面十次每次分享一個我親身經歷過的工業界的實戰故事。咱們但願經過幫助朋友們模擬業界實戰，營造一個深刻思考和交流的機會。更清晰地判斷大數據學習技術和業務生態發展方向。架構