分析了1000+面試者，我發現90%的機器學習新人都犯了同一個錯誤

時間 2019-11-08

標籤分析面試者發現 90% 機器學習新人犯了同一個錯誤简体版

原文原文鏈接

你們好，我是chris，入行前5年在一家上市遊戲公司作算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。
python

如今在阿里，也是負責算法方面的工做，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。linux

爲何算法崗難招到人？程序員

在外行人眼中，算法工程師可能拿到最近某大神新發的Paper，或者本身鑽研理論推公式產出理論成果，經過並行編程實現其支持大規模數據訓練，而後戰勝現有模型，ctr提高200%，收入提升200%，年薪百萬。然而實際狀況是：面試

特做爲算法部門負責人，我曾經面試過不少候選人，通常我一般從邏輯思惟、基礎算法與數據結構、數學、深度學習、表達能力和工程經驗等幾個方面考察。算法

我發現其實不少人只是自認爲懂得算法，刷了一遍西瓜書就敢出來面試了，另外有數理基礎的應屆生，算法掌握得也不錯，但實際3年可能寫了不到1000行代碼，實操能力極差。編程

在面試了好幾個簡歷優秀的年輕人後，我驚訝得發現原來不少初學者對數據挖掘/算法工程師實際上的工做流都不是很瞭解，致使職業技能誤差。這就是爲何，企業收到的簡歷愈來愈多，但公司實際可用的就那麼一兩個，並且開價超預算50%，忍痛簽下還可能被同行挖走了。centos

那麼算法崗位具體的工做流程是怎樣的？安全

咱們先來用一個小型NLP項目流程來舉例，讓你們瞭解機器學習項目的大的環境：網絡

1.瞭解需求，獲取數據。與產品和運營開會，瞭解需求，而後提取公司積累大量的數據和本身網上下載、爬取的數據。

2.數據預處理。數據處理大概會佔到整個50%-70%的工做量，經過數據洗清、分詞、詞性標註、去停用詞四個大的方面來完成語料的預處理工做。

3.特徵工程。作完語料預處理以後，接下來須要考慮如何把分詞以後的字和詞語表示成計算機可以計算的類型。把中文分詞的字符串轉換成數字，有兩種經常使用的表示模型分別是詞袋模型和詞向量。

4.特徵選擇。構造好的特徵向量，是要選擇合適的、表達能力強的特徵。特徵選擇是一個頗有挑戰的過程，更多的依賴於經驗和專業知識，而且有不少現成的算法來進行特徵的選擇。

5.模型訓練。對於不一樣的應用需求，咱們使用不一樣的模型，傳統的有監督和無監督等機器學習模型，如 KNN、SVM、Naive Bayes、決策樹、GBDT、K-means 等模型；深度學習模型好比 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。

6.評價指標。訓練好的模型，上線以前要對模型進行必要的評估，目的讓模型對語料具有較好的泛化能力。

7.模型上線應用。模型線上應用，線下訓練模型，而後將模型作線上部署，發佈成接口服務以供業務系統使用。

以上流程從業務流程來看，機器學習項目基本就是瞭解業務需求 ->調研業界方案 -> 查看是否適用 -> 上線效果。不難發現，在對待具體業務上，算法工程師如何經過「實踐」提高本身的機器學習水平，以及如何經過機器學習/深度學習實際應用來改善企業的業務等級和營收能力相當重要。數據結構

我常常說算法只是工具，重要的是在正確的行業和產品認知上，實現業務目標。

因此有人恐慌算法工程師會被本身的算法替代，這是極其好笑的。機器能夠作的雖然不少，可是沒法代替人對數據的理解，這是算法工程師存在的價值。而Deep Learning雖然在某種程度上代替人提取特徵，可是它最多隻能解決特徵變換問題，仍然處理不了數據清洗和預處理中須要用到領域知識的狀況。

在個人經歷裏，我傾向於算法工程師是技術+產品經理爲一體的綜合型人才。

而對於跨專業的學生/從業者來講，跨界反而是優點，不是障礙。特別是若是你做爲自己是一個其餘行業（物理，工程，化學，醫學，農業，衛星地圖識別，網絡安全領域，社會科學）的普通程序員，在本行業有比較深的理論和實驗背景，能接觸到海量數據，那麼你徹底能夠作一些創新性和交叉性的工做，這就是人工智能+的人才。

如今有不少的機器學習課程和教科書，它們大都是關於如何從零開始製造烤箱，而不是如何烹飪和創新配方。這種學習路徑不只僅難度大，並且90%學習者沒有在一個方向上深刻，不具有核心能力，也不符合企業的人才觀。

工業界最好的AI入門訓練營

爲了能讓更多初學者瞭解機器學習/數據分析/數據挖掘等崗位的工做流程，找到入門的切入點，我特意邀請了兩位人工智能不一樣領域的專家，一位BAT的數據挖掘工程師@熊貓醬，一位計算機視覺方向的專家@Angela，還有我阿里高級算法工程師@Chris，以自身具體的工做流爲核心，舉辦連續四場人工智能入門分享會。