強化學習決策涉及因素太多,要知道確切的概率幾乎不可能?

強化學習已經席捲了整個 AI 世界。從 AlphaGo 到 AlphaStar,由強化學習提供動力的 AI 智能體已經戰勝了越來越多由人類主導的傳統活動。通過在某一環境中對智能體行爲進行優化以實現最大獎勵是強化學習的關鍵,但是絕大多數強化學習方法需要對環境有完整的瞭解,而現實中這是難以實現的,基於樣本的學習方法(例如蒙特卡洛)則可以解決這一痛點。本文以 21 點遊戲爲例,對蒙特卡洛方法進行了在強化
相關文章
相關標籤/搜索