多臂老虎機問題

時間 2020-01-13

標籤老虎機問題简体版

原文原文鏈接

強化學習的基礎概念多臂老虎機是一個常見的強化學習問題，因此咱們首先給出強化學習的一些基礎概念：算法強化學習不只須要學習作什麼，也須要學習如何根據與環境的交互採起相應的行動。強化學習的最終結果，就是要實現系統回報信號的最大化。學習者事先並不知道要去執行什麼行爲，須要本身去發現哪一種行動能產生最大的回報。ide 在強化學習中，有兩個能夠進行交互的對象：智能體和環境。函數智能體（agent）能夠感

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。