強化學習 Q-learning及python例子

文章目錄 Q-learning原理 python例子 本文是做者在學習莫煩的強化學習課程中的筆記,強烈推薦 莫煩強化學習。 Q-learning原理 咱們以一個走迷宮的小遊戲爲例:讓探索者學會走迷宮. 黃色的是天堂 (reward 1), 黑色的地獄 (reward -1). 大多數 RL 是由 reward 導向的, 因此定義 reward 是 RL 中比較重要的一點.python Q-lear
相關文章
相關標籤/搜索