梯度與激活函數

文章目錄 梯度 初始化的影響 學習率的影響 動量 常見公式求解梯度 激活函數 derivative Sigmoid Logistic Tanh RELU Softmax 梯度 初始化的影響 同樣的網絡,同樣的參數,初始化不同,梯度下降的速度不同,得到最小值也不同,如上圖。 學習率的影響 學習率影響收斂的速度,初始情況下可以設置的大一些,不收斂在設置的小一些。 動量 梯度下降的時候,可能到達局部最優
相關文章
相關標籤/搜索