ELECTRA模型精講

還記得去年寫下《ELECTRA: 超越BERT, 19年最佳NLP預訓練模型》時興奮的心情,在我等到都快復工的時候,終於看到了它的身影和源碼[1]: 才第五嗎?沒事,期望越大,失望越大 谷歌在github放出的預訓練模型效果是這樣的: 燃!鵝!在論文中聲稱的效果卻是這樣的 Github repo中官方的解釋是精調的震盪比較大,他們測試了很多隨機種子後取了中位數。 那麼問題來了,爲什麼論文中沒有取中
相關文章
相關標籤/搜索