機器學習——強化學習Q_learning算法

時間 2021-01-01

原文原文鏈接

假設有這樣的房間如果將房間表示成點，然後用房間之間的連通關係表示成線，如下圖所示：這就是房間對應的圖。我們首先將agent（機器人）處於任何一個位置，讓他自己走動，直到走到5房間，表示成功。爲了能夠走出去，我們將每個節點之間設置一定的權重，能夠直接到達5的邊設置爲100，其他不能的設置爲0，這樣網絡的圖爲： Qlearning中，最重要的就是「狀態」和「動作」，狀態表示處於圖中的哪個節點，比如

>>阅读原文<<