李宏毅深度學習筆記

gradient descent :梯度下降 損失函數低,效果不一定好,爲什麼? 模型訓練是根據損失函數調節w 和 b的,個人猜測原因是不是因爲每次只能確保一個batch內的損失最小,但是整體就不一定了。 2.b 的作用只是將損失函數的線上移或者下移,沒能改變損失函數的形狀,那麼b的作用是什麼? 3.機器學習要知道它爲什麼能夠識別出圖片中的物體來。 4.可以自己去造數據 5.最好的做法是將數據集分
相關文章
相關標籤/搜索