強化學習實例3:Q-Learning和Q-Network

The Frozen Lake environment,有4 x 4網格表明湖面,有16個狀態,其中S,H,F和G表明不一樣的格子塊,4個行爲(上下左右)python S:開始塊 F:冰塊 H:洞 G:目標塊 Q-Learning 包括Q-table(16x4)和Q-value網絡 import gym import numpy as np import time env = gym.make(
相關文章
相關標籤/搜索