深度學習(十六) ReLU爲什麼比Sigmoid效果好

sigmoid: Relu:   爲什麼通常Relu比sigmoid和tanh強,有什麼不同? 主要是因爲它們gradient特性不同。 1.sigmoid和tanh的gradient在飽和區域非常平緩,接近於0,很容易造成vanishing gradient的問題,減緩收斂速度。vanishing gradient在網絡層數多的時候尤其明顯,是加深網絡結構的主要障礙之一。相反,Relu的grad
相關文章
相關標籤/搜索