Sparse Reward

時間 2021-07-12

原文原文鏈接

經常是錯誤的動作，沒有reward，只能隨機動作，很慢引導的reward 需要領域知識，與實際任務相關好奇心reward——期待狀態變化——重要的狀態 network2是要從兩個狀態之間的到action，說明是重要的 train data要有順序，從易到難——ML的通用技巧階層學習——大目標到小而具體的目標黃色的是上層agent的目標，紫色的是上層agent給下層age