1 關於Transformer,面試官們都怎麼問?
2 關於ELMO,面試官們都怎麼問?
3 關於BERT,面試官們都怎麼問?
4 關於GPT、XLNET的相關知識?
5 關於FastText
6 關於XLNet
7 關於Transformer-XL
8 其餘內容html
1.Transformer的結構是什麼樣的?
2.Transformer Decoder端的輸入具體是什麼?
3.Transformer中一直強調的self-attention是什麼?self-attention的計算過程?爲何它能發揮如此大的做用?self-attention爲何要使用Q、K、V,僅僅使用Q、V/K、V或者V爲何不行?
4.Transformer爲何須要進行Multi-head Attention?這樣作有什麼好處?Multi-head Attention的計算過程?各方論文的觀點是什麼?
5.Transformer相比於RNN/LSTM,有什麼優點?爲何?
6.Transformer是如何訓練的?測試階段如何進行測試呢?
7.Transformer中的Add & Norm模塊,具體是怎麼作的?
8.爲何說Transformer能夠代替seq2seq?
9.Transformer中句子的encoder表示是什麼?如何加入詞序信息的?
10.Transformer如何並行化的?
11.self-attention公式中的歸一化有什麼做用?
12.transformer 爲何使用 layer normalization,而不是其餘的歸一化方法?git
參考博客:
【1】關於Transformer,面試官們都怎麼問?_fengdu78的博客-CSDN博客
【2】Adherer:關於Transformer的若干問題整理記錄
【3】張俊林:從Word Embedding到Bert模型—天然語言處理中的預訓練技術發展史
【4】transformer 爲何使用 layer normalization,而不是其餘的歸一化方法?github
1.ELMo的基本原理是什麼? ELMO採用了典型的兩階段過程,第一個階段是利用語言模型進行預訓練;第二個階段是在作下游任務時,從預訓練網絡中提取對應單詞的網絡各層的Word Embedding做爲新特徵補充到下游任務中。
2.ELMo的訓練過程是什麼樣的?損失函數是什麼?
3.ELMo訓練好了以後如何使用?
4.ELMo的優勢是什麼?ELMo爲何有效?
5.ELMo爲何可以達到區分多義詞的效果?
6.ELMo把三種不一樣的向量疊加的意義是什麼?這樣作能達到什麼樣的效果?面試
參考博客:算法
【1】zhuanlan.zhihu.com/p/139840113
【2】zhuanlan.zhihu.com/p/82602015
【3】zhuanlan.zhihu.com/p/49271699
【4】zhuanlan.zhihu.com/p/46833276markdown
一、不考慮多頭的緣由,self-attention中詞向量不乘QKV參數矩陣,會有什麼問題?
二、爲何BERT選擇mask掉15%這個比例的詞,能夠是其餘的比例嗎?
三、使用BERT預訓練模型爲何最多隻能輸入512個詞,最多隻能兩個句子合成?
四、爲何BERT在第一句前會加一個[CLS]標誌?
五、Self-Attention 的時間複雜度是怎麼計算的?
六、Transformer在哪裏作了權重共享,爲何能夠作權重共享?
七、BERT非線性的來源在哪裏?
八、BERT的三個Embedding直接相加會對語義有影響嗎?
九、Transformer的點積模型作縮放的緣由是什麼?
十、在BERT應用中,如何解決長文本問題?網絡
參考博客:
【1】zhuanlan.zhihu.com/p/132554155
【2】zhuanlan.zhihu.com/p/46833276
【3】zhuanlan.zhihu.com/p/76714382機器學習
【1】The Illustrated GPT-2 (Visualizing Transformer Language Models)
【2】圖解GPT2 [翻譯:The Illustrated GPT-2 (Visualizing Transformer Language Models)]
【3】語境嵌入研究綜述
【4】OpenAI GPT2原理解讀ide
使用詞embedding而非詞自己做爲特徵,這是fastText效果好的一個緣由; 另外一個緣由就是字符級n-gram特徵的引入對分類效果會有一些提高 。函數
使用詞embedding而非詞自己做爲特徵,這是fastText效果好的一個緣由;另外一個緣由就是字符級n-gram特徵的引入對分類效果會有一些提高 。
Transformer-XL(extra long)是爲了進一步提高Transformer建模長期依賴的能力。它的核心算法包含兩部分:片斷遞歸機制(segment-level recurrence)和相對位置編碼機制(relative positional encoding)。
Transformer-XL帶來的提高包括:
1. 捕獲長期依賴的能力;
2. 解決了上下文碎片問題(context segmentation problem);
3. 提高模型的預測速度和準確率。
【1】詳解Transformer-XL
【2】www.cnblogs.com/pinard/p/70…
1、AI算法基礎
一、樣本不平衡的解決方法?
二、交叉熵函數系列問題? 與最大似然函數的關係和區別?
三、HMM、MEMM vs CRF 對比?
四、SVM和LR的區別與聯繫?
五、crf的損失函數是什麼? lstm+crf怎麼理解?
六、GBDT vs Xgboost
七、評估指標f1和auc的區別是哪些?
八、sigmoid用做激活函數時,分類爲何要用交叉熵損失,而不用均方損失?
九、神經網絡中的激活函數的對比?
2、NLP高頻問題
一、word2vec和tf-idf 類似度計算時的區別?
二、word2vec和NNLM對比有什麼區別?(word2vec vs NNLM)
三、 word2vec負採樣有什麼做用?
四、word2vec和fastText對比有什麼區別?(word2vec vs fastText)
五、glove和word2vec、 LSA對比有什麼區別?(word2vec vs glove vs LSA)
六、 elmo、GPT、bert三者之間有什麼區別?(elmo vs GPT vs bert)
七、LSTM和GRU的區別?
3、其餘算法問題
一、怎麼進行單個樣本的學習?
二、 決策樹 bagging boosting adaboost 區別?RF的特徵隨機目的是什麼?
三、transformer各部分怎麼用?Q K V怎麼計算;Attention怎麼用?
四、HMM 假設是什麼?CRF解決了什麼問題?CRF作過特徵工程嗎?HMM中的矩陣意義?
五、說以一下空洞卷積?膨脹卷積怎麼理解?什麼是Piece-CNN?
六、怎麼解決beam-search局部最優問題?global embedding 怎麼作?
七、數學題:什麼是半正定矩陣?機器學習中有什麼應用?
八、卷積的物理意義是什麼?傅里葉變換懂嗎?
九、說一下Bert?
十、推導word2vec?
十一、怎麼理解傳統的統計語言模型?如今的神經網絡語言模型有什麼不一樣?
十二、神經網絡優化的難點是什麼?這個問題要展開來談。
1三、attention你知道哪些?
1四、自動文章摘要抽取時,怎麼對一篇文章進行分割?(從序列標註、無監督等角度思考)
1五、在作NER任務時,lstm後面能夠不用加CRF嗎?
1六、經過畫圖描述TextRank?
1七、LDA和pLSA有什麼區別?
1八、Transformer在實際應用中都會有哪些作法?
1九、講出過擬合的解決方案?
20、說一下transforemr、LSTM、CNN間的區別?從多個角度進行講解?
2一、梯度消失的緣由和解決辦法有哪些?
2二、數學題:貝葉斯計算機率?
2三、數學題:25只兔子賽跑問題,共5個賽道,最少幾回比賽能夠選出前5名?
2四、數學題:100盞燈問題?