Sparse Reward

經常是錯誤的動作,沒有reward,只能隨機動作,很慢 引導的reward   需要領域知識,與實際任務相關 好奇心reward——期待狀態變化——重要的狀態 network2是要從兩個狀態之間的到action,說明是重要的 train data要有順序,從易到難——ML的通用技巧   階層學習——大目標到小而具體的目標       黃色的是上層agent的目標,紫色的是上層agent給下層age
相關文章
相關標籤/搜索