殊途同歸的策略梯度與零階優化

©PaperWeekly 原創 · 作者|蘇劍林 單位|追一科技 研究方向|NLP、神經網絡 深度學習如此成功的一個巨大原因就是基於梯度的優化算法(SGD、Adam 等)能有效地求解大多數神經網絡模型。然而,既然是基於梯度,那麼就要求模型是可導的,但隨着研究的深入,我們時常會有求解不可導模型的需求,典型的例子就是直接優化準確率、F1、BLEU 等評測指標,或者在神經網絡裏邊加入了不可導模塊(比如「
相關文章
相關標籤/搜索