ELECTRA模型精講

時間 2021-01-13

標籤深度學習自然語言處理简体版

原文原文鏈接

還記得去年寫下《ELECTRA: 超越BERT, 19年最佳NLP預訓練模型》時興奮的心情，在我等到都快復工的時候，終於看到了它的身影和源碼[1]：才第五嗎？沒事，期望越大，失望越大谷歌在github放出的預訓練模型效果是這樣的：燃！鵝！在論文中聲稱的效果卻是這樣的 Github repo中官方的解釋是精調的震盪比較大，他們測試了很多隨機種子後取了中位數。那麼問題來了，爲什麼論文中沒有取中

>>阅读原文<<