斯坦福吳恩達《機器學習》--增強學習

增強學習和控制   在監督學習中,算法試圖模仿訓練機的labels y,訓練集中的每一個輸入x都有一個確定的對應的y,但是對於很多需要連續作決定的問題和控制問題,給算法提供一個明確的標籤是很難的。例如我們有一個四足機器人,並且試圖讓他行走,開始的時候我們並不知道採取怎樣的操作使他行走,也不知道怎麼給算法提供一個標籤來模仿。   在增強學習中,我們會給算法提供一個獎勵函數來反應做的好還是不好。例如對
相關文章
相關標籤/搜索