【深度學習】**函數

ReLu比sigmoid好在哪裏?【阿里】 @作者:約翰曰不約  爲什麼通常Relu比sigmoid和tanh強,有什麼不同? 主要是因爲它們gradient特性不同。sigmoid和tanh的gradient在飽和區域非常平緩,接近於0,很容易造成vanishing gradient的問題,減緩收斂速度。vanishing gradient在網絡層數多的時候尤其明顯,是加深網絡結構的主要障礙之一
相關文章
相關標籤/搜索