轉載: dropout爲啥要rescale?

傳送門1 傳送門2 概述 dropout可以讓模型訓練時,隨機讓網絡的某些節點不工作(輸出置零),也不更新權重(但會保存下來,下次訓練得要用,只是本次訓練不參與bp傳播),其他過程不變。 我們通常設定一個dropout radio=p,即每個輸出節點以概率p置0(不工作,權重不更新),假設每個輸出都是獨立的,每個輸出都服從二項伯努利分佈p(1-p), 那麼大約認爲訓練時,只使用了q= (1-p)比
相關文章
相關標籤/搜索