《機器學習從入門到入職》-不同梯度下降算法的比較-‘sgd‘, ‘rmsprop‘, ‘adagrad‘, ‘adadelta‘, ‘adam‘, ‘nadam‘

代碼鏈接:   待更新   實驗原理: 待更新   實驗結果: 實驗結論: 前提:硬件受限Epoch比較小;數據集比較小; 1.SGD理論上收斂時間短,但是效果不佳; 2.Adative相關的算法和向量法相關的算法效果都比較好; 3.optimizers的調優選擇效果比之前做實驗關於神經元深度/寬度的accuracy/loss的評分好;   問題解決:   1.」y_train = np_util
相關文章
相關標籤/搜索