Q-learning學習的一個小例子

強化學習的難點,在於其引入了時間這個維度,不管是有監督還是無監督學習,都是能獲得即使反饋,但到了強化學習中,反饋來的沒那麼及時。在周志華的《機器學習》中,舉過一個種西瓜的例子。種瓜有很多步驟,例如選種,澆水,施肥,除草,殺蟲這麼多操作之後最終才能收穫西瓜。但是,我們只有等到西瓜收穫之後,才知道種的瓜好不好,也就是說,我們在種瓜過程中執行的某個操作時,並不能立即獲得這個操作能不能獲得好瓜,僅能得到一
相關文章
相關標籤/搜索