李宏毅強化學習筆記【0.強化學習導論】

時間 2021-01-12

標籤強化學習简体版

原文原文鏈接

agent觀察（observation即爲state）environment agent對做一些動作（action），影響environment 因爲有一些影響，environment給agent一些reward，告訴他是好的影響還是壞的影響 agent要學習，如何採取動作才能讓期望的reward最大有時候reward很稀疏，大部分爲0（什麼都沒發生），只有少數有數值，這是一個困難。監

>>阅读原文<<