Q-learning學習的一個小例子

強化學習的難點,在於其引入了時間這個維度,不論是有監督仍是無監督學習,都是能得到即便反饋,但到了強化學習中,反饋來的沒那麼及時。在周志華的《機器學習》中,舉過一個種西瓜的例子。種瓜有不少步驟,例如選種,澆水,施肥,除草,殺蟲這麼多操做以後最終才能收穫西瓜。可是,咱們只有等到西瓜收穫以後,才知道種的瓜好很差,也就是說,咱們在種瓜過程當中執行的某個操做時,並不能當即得到這個操做能不能得到好瓜,僅能獲得
相關文章
相關標籤/搜索