強化學習 Q—learning(python 代碼)

 前言:看了paper ,paper 上提到強化學習,因此打算寫一個強化學習的專欄,本人比較水(真的水,你說看個人文章嚇不嚇人,刺不刺激),我看了幾篇別人的博客越看越糊塗,因此寫一篇方便後來人python 下面介紹兩個概念:算法    1 .reward  (當作出一個選擇,環境給的回饋,這個是固定不變的,是先驗信息)app    2.Q矩陣(和隨機過程的Q矩陣稍有不一樣,至關於機器人的大腦,經過
相關文章
相關標籤/搜索