強化學習 Q-learning及python例子

時間 2020-05-23

原文原文鏈接

文章目錄 Q-learning原理 python例子本文是做者在學習莫煩的強化學習課程中的筆記，強烈推薦莫煩強化學習。 Q-learning原理咱們以一個走迷宮的小遊戲爲例：讓探索者學會走迷宮. 黃色的是天堂 (reward 1), 黑色的地獄 (reward -1). 大多數 RL 是由 reward 導向的, 因此定義 reward 是 RL 中比較重要的一點.python Q-lear

>>阅读原文<<