選自Towards Data Science,做者:Edouard Harris,機器之心編譯。面試
面試機器學習方面的工做時,在簡歷的我的項目那塊,你會寫什麼?建模?作機器學習項目?項目數據從哪兒來?在 SharpestMinds 創始人 Edouard Harris 介紹的兩個成功例子中,人家是從基礎的收集數據開始一步步作項目的:目標明確,作到極致。數據庫
我是一名物理學家,在 YC startup 工做。咱們的任務是幫應屆生找到本身的第一份機器學習工做。服務器
要找到第一份機器學習工做,你要作的一件事就是創建本身的機器學習項目集(portfolio)。如今,我來告訴你答案。機器學習
你可能會奇怪爲何這很重要,那是由於招聘經理一般會經過你的履從來了解你,若是你沒有履歷,我的項目就是最接近的替代品。學習
由於職業緣由,我見過數百份我的項目的案例,有作得極好的,也有作得極差的。我將向你展現兩個極好的案例。ui
盡心盡力型orm
接下來要說的是一件真實的故事,只不過隱私起見我改了主人公的名字。cdn
公司 X 使用 AI 提醒雜貨店什麼時候該訂購新的庫存。咱們這邊有個學生——Ron,很想去 X 公司工做,因此他創建了我的項目,該項目徹底是針對去該公司面試用的。視頻
咱們一般不建議這樣對着一家公司盡心盡力作準備。這有點冒險。不過,像 Ron 這樣真的很是想去這家公司就另當別論了。blog
Ron 剛開始把手機貼到購物車上。而後,他推着購物車在過道來回走動,同時用相機記錄。他在不一樣的雜貨店作了 10 到 12 次。
回到家後,Ron 開始創建一個機器學習模型。他的模型發現了雜貨店貨架上的空缺點:貨架上缺乏玉米片(或其餘東西)的位置。
Ron 在 GitHub 上實時創建了他的模型,徹底公開。天天,他都會改進他的 repo(提升準確率,並在他的 repo 的 README 中記錄項目變化。)
當 X 公司意識到 Ron 正在這樣作時,X 公司很感興趣,並且不止是感興趣,事實上,X 公司有點緊張。他們爲何會緊張?由於 Ron 在不知不覺中,在幾天內複製了他們專有技術堆棧的一部分。
固然,Ron 所作的遠遠不夠完美:X 公司已經投入了比 Ron 多幾個數量級的資源來解決這個問題。但因爲太類似,他們很快就叫 Ron 將他的 repo 私有化。
X 公司的技術在同行業中名列前茅。儘管如此,在 4 天內,Ron 的項目獲得了 X 公司首席執行官的直接我的關注。
飛行員項目
如下是另外一個真實故事:
Alex 是一名歷史專業大學生,主修俄語(真的),同時他對機器學習感興趣。更爲不一樣尋常的是,儘管他從未編寫過 Python 代碼,但他仍是決定學習它。
Alex 選擇經過構建實用項目來學習。他決定創建一個分類器,以檢測戰鬥機飛行員是否在飛機上失去意識。Alex 但願經過觀察飛行員的視頻來發現這一點。他知道一我的很容易經過觀察,在一名飛行員失去知覺時告訴他,因此 Alex 認爲機器也應該能夠作到。
這是 Alex 在幾個月中所作的事情:
Alex 在 YouTube 上下載了從駕駛艙中拍攝的飛行員駕駛飛機的全部視頻片斷(大約數十個)。
接下來他開始標記數據。Alex 構建了一個 UI,讓他能夠滾動瀏覽數千個視頻幀,按一個按鈕表示「有意識」,另外一個按鈕表示「無心識」,並自動將該幀保存在正確標記的文件夾中。這個標記過程很是很是無聊,花了他不少天時間。
Alex 爲圖像構建了一個數據管道,能夠將飛行員從駕駛艙背景中剪裁出來,使他的分類器更容易專一于飛行員。最後,他創建了他的意識喪失分類器。
在他作全部這些事情的同時,Alex 也在社交活動中向招聘經理展現他的項目快照。每當他拿出他的項目並在手機上展現時,他們會問他是如何作到的,他如何建造管道,以及如何收集數據。但他們歷來沒有詢問他的模型準確率(低於 50%)。
固然,Alex 也計劃提升其準確率,但在動手以前就被錄用了。結果證實,公司更看重他項目的視覺效果以及他在數據收集過程當中表現出的瘋狂與智慧,而不是他的模型的準確率。
他們之間的共同點
Ron 和 Alex 爲何如此成功?由於他們作對了如下四件事:
他們沒有在建模上浪費太多精力。我知道這聽起來很奇怪,但對於今天的不少用例來講,建模是一個已經解決的問題。在實際工做中,除非你作的是最前沿的研究,不然你的時間 80%~90% 都會花在清洗數據上。你的我的項目又怎能例外?
他們本身收集數據。正由於如此,他們獲得的最終數據比 Kaggle 或 UCI 數據庫中的數據更混亂。但也正是這些混亂的數據提升了他們處理混亂數據的能力。比起從學術服務器上下載數據,這種作法讓他們可以更好地理解本身的數據。
他們將作出的東西可視化。所謂面試,並非說由一位無所不知的裁判對你的能力作出客觀的評估,而是將你本身推銷給另外一我的。人是視覺動物。若是你掏出手機向面試官展現你的做品,那麼你要確保本身作的東西看起來有趣,這點很是值得。
他們的所做所爲看起來確實有點瘋狂。正常人不會用膠帶把本身的手機綁在購物車上。正常人也不會花那麼長時間從 YouTube 上裁剪飛行員視頻。什麼人才會作這種事?那些不顧一切完成目標的人才會這麼幹。公司最想僱傭的就是這種人。
Ron 和 Alex 的所做所爲可能看起來太誇張,但實際上,這和你在真正的工做中要作的事差很少。這就是要點:當你沒有作某事的工做經驗時,招聘經理會看你作過的和某事相相似的經歷。
幸運的是,這種程度的項目你只要作一兩次就好——Ron 和 Alex 就在全部的面試中重複使用以前準備的項目。
所以,若是用一句話來歸納偉大 ML 項目的祕密的話,那就是:用一個有趣的數據集來構建一個項目,這個數據集須要很大的努力來收集,而且儘量地在視覺上有影響力。