強化學習　Ｑ—learning（python 代碼）

時間 2021-01-01

原文原文鏈接

　前言：看了paper ,paper 上提到強化學習，所以打算寫一個強化學習的專欄，本人比較水（真的水，你說看我的文章嚇不嚇人，刺不刺激）,我看了幾篇別人的博客越看越糊塗，所以寫一篇方便後來人下面介紹兩個概念：　　　1 .reward 　(當做出一個選擇，環境給的回饋，這個是固定不變的，是先驗信息) 　　　２．Ｑ矩陣（和隨機過程的Ｑ矩陣稍有不同，相當於機器人的大腦，通過算法訓練出來，再拿來做決

>>阅读原文<<