DL 中的weight initialization

1. 不能全部初始化爲0,這樣所有的神經元數據更新都是一樣的 2. 那初始化爲Small random numbers呢?比如 當網絡變深後也會有問題,如果初始的時候W都很小,那麼隨着深度的增大,每層的layer的output會越來越小, 而因爲前向傳播是np.sum(W*X),對權重W的導數X*dW有X這一乘積項,因爲X很小,這就導致W的權重更新慢(梯度彌散), 而如果把初始權重都設置的比較大的
相關文章
相關標籤/搜索