多臂老虎機問題

強化學習的基礎概念 多臂老虎機是一個常見的強化學習問題,因此咱們首先給出強化學習的一些基礎概念:算法 強化學習不只須要學習作什麼,也須要學習如何根據與環境的交互採起相應的行動。強化學習的最終結果,就是要實現系統回報信號的最大化。學習者事先並不知道要去執行什麼行爲,須要本身去發現哪一種行動能產生最大的回報。ide 在強化學習中,有兩個能夠進行交互的對象:智能體和環境。函數 智能體(agent)能夠感
相關文章
相關標籤/搜索