動手學深度學習(Pytorch版)task3-5打卡

對於task3-5的內容進行打卡 Task03:過擬合、欠擬合及其解決方案;梯度消失、梯度爆炸;循環神經網絡進階 模型複雜度和誤差之間的關係 權重衰減的計算公式: Xavier初始化 梯度裁剪 循環神經網絡中較容易出現梯度衰減或梯度爆炸,這會導致網絡幾乎無法訓練。裁剪梯度(clip gradient)是一種應對梯度爆炸的方法。假設我們把所有模型參數的梯度拼接成一個向量 g ,並設裁剪的閾值是 θ
相關文章
相關標籤/搜索