【RL】1.概論與基礎

因爲個人原因,沒能抽出時間將筆記電子化。計劃過幾日實現電子化。 課程內容 問題 強化學習的基本結構是什麼? 答:agent與env交互,env生成state,agent觀測state爲observation,決定action。見課程內容的圖1。 強化學習相對於監督學習爲什麼訓練會更加困難?(強化學習的特徵) 答:[^1] 強化學習處理的多是序列數據,其很難像監督學習的樣本一樣滿足IID(獨立同分布
相關文章
相關標籤/搜索