強化學習算法

時間 2020-12-30

原文原文鏈接

1.關於強化學習算法的比較深度強化學習進展: 從Alpha Go到Alpha Go Zero 深度強化學習進展_從AlphaGo到AlphaGo_Zero_唐振韜.caj 1.1離散與連續 1.1.1離散和連續是針對問題的，不是針對算法的。連續有可能是溫度，距離等。行動必須隨着狀態的變化而平滑變化，不能出現跳躍的情形。 1.1.2連續怎麼解決離散化：連續空間分解爲有限的離散空間，通過表格形式

>>阅读原文<<