強化學習 Q—learning(python 代碼)

 前言:看了paper ,paper 上提到強化學習,所以打算寫一個強化學習的專欄,本人比較水(真的水,你說看我的文章嚇不嚇人,刺不刺激),我看了幾篇別人的博客越看越糊塗,所以寫一篇方便後來人 下面介紹兩個概念:    1 .reward  (當做出一個選擇,環境給的回饋,這個是固定不變的,是先驗信息)    2.Q矩陣(和隨機過程的Q矩陣稍有不同,相當於機器人的大腦,通過算法訓練出來,再拿來做決
相關文章
相關標籤/搜索