強化學習　Ｑ—learning（python 代碼）

時間 2020-05-23

原文原文鏈接

　前言：看了paper ,paper 上提到強化學習，因此打算寫一個強化學習的專欄，本人比較水（真的水，你說看個人文章嚇不嚇人，刺不刺激）,我看了幾篇別人的博客越看越糊塗，因此寫一篇方便後來人python 下面介紹兩個概念：算法　　　1 .reward 　(當作出一個選擇，環境給的回饋，這個是固定不變的，是先驗信息)app 　　　２．Ｑ矩陣（和隨機過程的Ｑ矩陣稍有不一樣，至關於機器人的大腦，經過

>>阅读原文<<