斯坦福吳恩達《機器學習》--增強學習

時間 2020-12-23

標籤機器學習增強學習吳恩達斯坦福简体版

原文原文鏈接

增強學習和控制在監督學習中，算法試圖模仿訓練機的labels y,訓練集中的每一個輸入x都有一個確定的對應的y，但是對於很多需要連續作決定的問題和控制問題，給算法提供一個明確的標籤是很難的。例如我們有一個四足機器人，並且試圖讓他行走，開始的時候我們並不知道採取怎樣的操作使他行走，也不知道怎麼給算法提供一個標籤來模仿。在增強學習中，我們會給算法提供一個獎勵函數來反應做的好還是不好。例如對

>>阅读原文<<