強化學習實例1:簡單最短路徑學習

讓程序學習到從O到T最短的路徑是一直往右走python                                                                    O----Tdom import numpy as np import pandas as pd import time np.random.seed(2) N_STATES = 6 # 假設只有5步遠
相關文章
相關標籤/搜索