多臂老虎機問題

強化學習的基礎概念 多臂老虎機是一個常見的強化學習問題,所以我們首先給出強化學習的一些基礎概念: 強化學習不僅需要學習做什麼,也需要學習如何根據與環境的交互採取相應的行動。強化學習的最終結果,就是要實現系統回報信號的最大化。學習者事先並不知道要去執行什麼行爲,需要自己去發現哪種行動能產生最大的回報。 在強化學習中,有兩個可以進行交互的對象:智能體和環境。 智能體(agent)可以感知外界環境的狀態
相關文章
相關標籤/搜索