GELU的兩個初等函數近似是怎麼來的?

©PaperWeekly 原創 · 做者|蘇劍林node 單位|追一科技c# 研究方向|NLP、神經網絡微信 GELU,全稱爲 Gaussian Error Linear Unit,也算是 RELU 的變種,是一個非初等函數形式的激活函數。它由論文 Gaussian Error Linear Units (GELUs) [1] 提出,後來被用到了 GPT 中,再後來被用在了 BERT 中,再再後來
相關文章
相關標籤/搜索