1. LSTM的網絡結構,以及和GRU的區別面試
答案: LSTM的三個門:輸入門、輸出門、遺忘門。 GRU的兩個門:更新門和重置門。網絡
2. 若是訓練集和測試集的正確率都很高,可是實際應用的使用模型正確率很低?異步
答案:發生了數據泄露。這種多是在數據集劃分的時候,也多是模型的問題,好比transformer decoder沒有作mask。(答過擬合是不對的,答訓練集和測試集和實際分佈有差別是能夠的)函數
3. 爲何BERT須要mask,以前的模型不須要?學習
答案:BERT是雙向的Encoder,因此須要mask。GPT是單向的transformer,ElMo是兩個單向的LSTM編碼的拼接。測試
4. Transformer的Muti Head的作法的緣由?優化
答案:相似CNN的多個卷積核,目的是分紅多個獨立的子空間,能夠學習到更豐富的語義特徵,從而增大模型的容量。編碼
Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.spa
5. 最大後驗估計和最大似然的區別3d
答案:最大後驗估計 = 似然函數 × 先驗機率
6. 邏輯迴歸和樸素貝葉斯的區別
答案:
7. HMM、MEMM、CRF的區別
答案:
8. BN的訓練和測試
答案:
9. 分類樣本不平衡如何解決
答案:
答案: CBOW是根據context預測中間詞,所以是:
Skip-gram是根據context預測中間詞,所以是:答案:兩個雙向的語言模型的log損失函數之和
答案:
同步模式:
tf中的並行主要分爲兩種:
數據並行