我在亞馬遜學到的三樣東西,爲個人機器學習職業之路作好了準備

點擊上方「AI公園」,關注公衆號,選擇加「星標「或「置頂」微信


做者:Jesse Freeman機器學習

編譯:ronghuaiyang
編輯器

導讀

亞馬遜是一家偉大的公司,其中有不少值學習的地方,這篇文章的做者在亞馬遜待了5年,這三點是他感覺最深的。ide



我在亞馬遜工做了5年,只差幾天就能拿到求之不得的「黃色徽章」。值得注意的是,亞馬遜的平均任期在一到兩年之間。雖然有不少關於在亞馬遜工做的故事,但我以爲那裏的文化比任何教程都更能幫助我從遊戲開發轉向機器學習。學習

若是你不太瞭解Amazon的文化,那麼快速搜索一下是值得的。此外,雖然我能夠寫一整本書來描述我在那裏的經歷,但我想我應該把重點放在我學到的三件事上,這三件事讓我爲這個新的職業生涯作好了準備:數據驅動型、6頁紙寫做和神機妙算。Amazon有一組原則,稱爲領導力原則,這些原則爲其獨特的文化作出了貢獻。自2014年我加入亞馬遜以來,這種文化讓亞馬遜得以成倍增加。下面是我如何將這些知識應用到個人機器學習中。測試

數據驅動的概念,多是亞馬遜企業文化中最重要的部分。雲計算

數據驅動

雖然我工做過的不少公司都說他們這樣作,但我尚未找到一家像亞馬遜這樣的公司。每次計劃或策略會議都是在回顧歷史數據、實時數據和將來數據預測之間進行微妙的平衡。亞馬遜將其歸結爲一門科學。spa

從試圖將大量數據提煉成可隨時糾正方向的可消化形式的每週業務報告(WBR),到大多數團隊都有專門的數據分析師這一事實。分析師的惟一工做是幫助構建每週報告,鏈接不一樣業務單元之間的報告系統,並儘量多地自動收集數據,這樣咱們就能夠隨時得到業務單元狀態的快照。.net

機器學習的核心是數據自己。沒有有用的、乾淨的、可靠的數據,就沒有辦法準確地訓練、測試和驗證模型。此外,儘管在構建模型的實際過程當中投入了大量的時間和精力,可是理解數據自己是一項關鍵技能。orm

研討會的題目是「將‘數據’應用於數據科學」,它徹底聚焦於使用醫學數據進行深度學習的挑戰。任何對機器學習感興趣的人都應該具有的一項重要技能是,不只可以理解如何管理和處理數據,並且可以對數據進行分割、驗證和清理。你的實驗只取決於你所擁有的數據,知道如何管理數據一樣重要。我在亞馬遜學到了不少關於數據的重要性以及如何正確使用數據。

寫6頁紙

亞馬遜以其寫做文化而聞名。雖然他們在介紹中告訴你,任何人均可以提出一個想法,從零開始建立一個新的業務,好比關於AWS是如何產生的神話,但實現的方式是經過6頁紙。這些都是詳細的文檔,不只解釋了一個戰略或計劃,並且它還必須以敘述的形式編寫。在亞馬遜的會議上沒有ppt演示。

大多數會議都包括前半部分閱讀文件,後半部分在文件上戳洞。要想在亞馬遜取得成功,你必須可以使用數據來證實你的觀點,以一種其餘人可以理解的方式闡明你的觀點,並建立一份任何人都能理解的文檔,不管他們是否參加了你的會議。

任何在機器學習領域工做的數據科學家或工程師都應該具有的最關鍵的技能,可以和別人溝通他們在作什麼,如何複製它,以及它提供的價值。

數據科學社區的很大一部分圍繞着撰寫和閱讀研究論文。所以,儘管這很容易類比到6頁紙在亞馬遜工做的重要性,由於寫論文就像寫博士論文,但實際上,數據科學家應該記錄他們的研究,緣由有不少。一般,他們是在團隊中工做的,所以可以跟蹤爲達成解決方案而採起的步驟是相當重要的。在沒有大量實踐的狀況下,可以捕獲並與團隊或公司外部的其餘人分享這些知識並非每一個人都具有的技能。

我認爲這是任何在機器學習領域工做的數據科學家或工程師都應該具有的最關鍵的技能之一,可以溝通他們在作什麼,如何複製它,以及它提供的價值。

管理資源

從外部看,亞馬遜彷佛是一個擁有幾乎無限資源的大型組織,事實上,每一個部門的團隊一般都很小。他們的規模很小,有時甚至處於人手不足的邊緣。此外,團隊被指望精益運行,相應地管理有限的資源,並且大多數時候,你會身兼數職。

雖然一個團隊能夠得到更多的資源,但亞馬遜的核心宗旨是節儉。要想在亞馬遜取得成功,你必須充分利用現有資源,並富有創造力地實現最終目標。甚至還有一個原則叫作「行動的偏見」,它容許你不受限制地去作一些事情,只要是爲了最終目標的利益。

我不指望每次訓練之間所花費的時間會不多,也不指望GPU資源可以加快速度。

隨着我對機器學習的深刻研究,我清楚地認識到,管理資源在我進行的每一次實驗中都扮演着相當重要的角色。我沒法預料到每次訓練之間所花費的時間,也沒法預料到GPU資源須要加快速度。另外,隨着我進行愈來愈多的實驗,我須要找到創造性的方法來平衡雲計算的可擴展性和利用本地資源。

在大多數狀況下,我將盡量多地進行本地測試,而後在雲上同時運行個人實驗,在多臺計算機上進行不一樣的修改,以更好地幫助選擇最佳解決方案。目前,數據科學家很難招聘,因此頗有可能你最終會在更小的團隊中工做,須要弄清楚如何在每一個人之間共享資源,並在下降成本的同時加快訓練模型之間的時間間隔。這是一個微妙的平衡。

END

英文原文:https://towardsdatascience.com/three-things-i-learned-at-amazon-that-prepared-me-for-a-career-in-machine-learning-63b6dae5bc5

請長按或掃描二維碼關注本公衆號

喜歡的話,請給我個好看吧


本文分享自微信公衆號 - AI公園(AI_Paradise)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索