relu不可微爲什麼可用於深度學習

首先確定relu數學上來講不可微的,提供僞梯度使其可分,faux gradient是僞梯度,使得在0值不可分; 這裏講到了本質,反饋神經網絡正常工作需要的條件就是每一個點提供一個方向,即導數;0值不可微,本質上來說是因爲這個地方可畫多條切線,但我們需要的只是一條;由於這出現的0值的概率極低,任意選擇一個子梯度就OK了,在0處的次微分集合是【0,1】;即選擇其中一個就OK了;一般默認是0;
相關文章
相關標籤/搜索