2020李宏毅學習筆記——11.adaptive learning rate

第二種辦法 adaptive learning rate(在train data上訓練結果不好) 1.比如,adagrad 計算方法: 每個parameter都有不同的learning rate。用固定的learning rate n除以過去的所有gradient descent的平方值和,並開根號。 一個經驗: 如果考慮兩個參數w1,w2。若圖中w1在‘’橫方向‘’(等值線濃密)上變化比較平坦,
相關文章
相關標籤/搜索