2018-08-03 強化學習

時間 2021-01-21

標籤 tensorflow 简体版

原文原文鏈接

一、強化學習強化學習包含多種算法，比如有通過行爲的價值來選取特定行爲的方法, 包括使用表格學習的 q learning, sarsa, 使用神經網絡學習的 deep q network, 還有直接輸出行爲的 policy gradients, 又或者瞭解所處的環境, 想象出一個虛擬的環境並從虛擬的環境中學習等等. 參考鏈接：https://morvanzhou.github.i

>>阅读原文<<