數據處理:如何處理缺失數據(missing value)? 各類處理方法有什麼利弊?
數據處理:如何將描述變量(categorical variables)轉爲連續變量(continuous variables)?
如何處理有序變量?
如何處理無序變量?
數據處理:如何進行選擇特徵選擇?如何進行數據壓縮?
特徵選擇:包裹式,過濾式,嵌入式
數據壓縮:主成分分析,自編碼等
模型解釋: 試解釋什麼是欠擬合與過擬合?如何應對這兩種狀況?
模型解釋: 什麼是誤差與方差分解(Bias Variance Decomposition)?與欠擬合和過擬合有什麼聯繫?
評估模型通常有什麼手段?
分類模型評估方法?
迴歸問題評估方法?
數據不均衡的評估方法?
深度學習是否比其餘學習模型都好?爲何?
在只有少許的有標籤數據的狀況下,如何構建一個反保險欺詐系統?
若是面試者回答先用監督學習來作,那麼咱們可能問:
這種狀況下數據是不均衡的,你是採用過採樣仍是欠採樣?如何調整代價函數和閾值?
若是面試者提到了集成學習,那麼也會追問一下問什麼集成學習適合數據不平衡。
若是面試者回答用無監督學習,那咱們可能會問:
好比使用One-class SVM?那麼咱們可能會追問一下SVM相關的問題,好比什麼是最大間隔分類器啊什麼是Kernel,如何選擇Kernel等。
爲何K-Means不適合異常值檢測?K-Means和GMM是什麼關係?是否能夠用FMM來直接擬合異常值。
如何能夠獲得無監督學習中的分類規則?面試
面試不應是一場單純的考試,在參加面試的過程當中,也是一個學習過程。拋磚引玉,對於機器學習的崗位面試我有幾點小建議:算法
5.1. 根據崗位,準備一份項目策劃書。
這個乍聽下來有點虛,但我曾無數次使用這個小技巧獲得良好的面試反饋和機會。假設你今天面試的崗位是我提到的保險公司的反詐騙組,那麼若是你能夠寫一個如何使用機器學習進行反詐騙的項目策劃書。這個過程對於面試者也是一個練習: a. 閱讀論文和新聞收集材料的能力 b. 總結分析的能力 c. 總結的能力。
以我曾經面試過的一我的力資源相關的崗位爲例,我準備了一份如何用機器學習來進行員工離職預測的策劃書(中間省略掉了幾頁並馬賽克處理了敏感的地方):
在策劃書中,你能夠分析項目需求,提出相關解法,並建議後續計劃和列出相關文獻。這樣的行爲不只可讓僱主看到你的誠意,並看到你的的領域知識和獨立分析問題能力。編程
在適當的時機(好比開始面試的時候或者談到崗位職責的時候),你拿出準備好的策劃書,開始談你的思路。這種作法我曾作過幾回,效果都很驚豔,由於反被動爲主動,從被考察變成了講解你所瞭解的知識。做爲一個面試官,若是被面試者能作到這個程度,我會在心裏對錄取他比較有信心。機器學習
5.3. 確保本身對基本的概念有所瞭解
對基本的數據處理方法有所瞭解
對基本的分類器模型有所瞭解並有所使用(調包),大概知道什麼狀況使用什麼算法較好
對基本的評估方法有所掌握,知道常見評估方法的優劣勢
有基本的編程能力,可以獨立的完成簡單的數據分析項目
有基本的數據挖掘能力,能夠對模型進行調參並概括髮現函數