強化學習算法

1.關於強化學習算法的比較 深度強化學習進展: 從Alpha Go到Alpha Go Zero 深度強化學習進展_從AlphaGo到AlphaGo_Zero_唐振韜.caj 1.1離散與連續 1.1.1離散和連續是針對問題的,不是針對算法的。 連續有可能是溫度,距離等。行動必須隨着狀態的變化而平滑變化,不能出現跳躍的情形。 1.1.2連續怎麼解決 離散化:連續空間分解爲有限的離散空間,通過表格形式
相關文章
相關標籤/搜索