轉載： dropout爲啥要rescale？

時間 2021-01-22

標籤機器學習简体版

原文原文鏈接

傳送門1 傳送門2 概述 dropout可以讓模型訓練時，隨機讓網絡的某些節點不工作（輸出置零），也不更新權重(但會保存下來，下次訓練得要用，只是本次訓練不參與bp傳播)，其他過程不變。我們通常設定一個dropout radio=p，即每個輸出節點以概率p置0（不工作，權重不更新），假設每個輸出都是獨立的，每個輸出都服從二項伯努利分佈p(1-p), 那麼大約認爲訓練時，只使用了q= (1-p)比

>>阅读原文<<