李宏毅深度學習筆記第二集(一)Adagrad

引出Adagrad 在使用梯度下降來求取合適的預測函數的參數的時候我們要設置合適的學習率(learning rate) η \eta η。 η \eta η的取值過大的話會使得每次步子太大,從而導致損失函數(loss function)不能達到最小值,甚至有可能越來越大;而 η \eta η的取值過小的話會導致梯度下降的速度太慢很費時間。因爲剛開始進行梯度下降的時候我們所選擇的參數的初始值會使得損
相關文章
相關標籤/搜索