梯度消失、梯度爆炸的解決方法及其解釋

首發地址:https://zhuanlan.zhihu.com/p/143417405 1、梯度消失 1.1、換激活函數 從sigmoid換成relu或relu的一系列改進版,比如leaky relu等。sigmoid中導數接近於零的情況,就換成了導數恆定的情況,單個節點的梯度(導數)就不管x變化都永遠有了。 但是多個0~1之間的數相乘還是趨近於0的趨勢沒變,所以只是緩解,而非完全解決。 1.2、
相關文章
相關標籤/搜索