多臂老虎機問題

時間 2021-01-14

原文原文鏈接

強化學習的基礎概念多臂老虎機是一個常見的強化學習問題，所以我們首先給出強化學習的一些基礎概念：強化學習不僅需要學習做什麼，也需要學習如何根據與環境的交互採取相應的行動。強化學習的最終結果，就是要實現系統回報信號的最大化。學習者事先並不知道要去執行什麼行爲，需要自己去發現哪種行動能產生最大的回報。在強化學習中，有兩個可以進行交互的對象：智能體和環境。智能體（agent）可以感知外界環境的狀態

>>阅读原文<<