RL論文閱讀5 - RWMFPE 2018

Tittle source 標籤 Model Based 總結 提出了一個新的Model-Based學習的框架。如圖: 這個模型一共分成三個部分: V:用來將輸入的圖片編碼成z。學習圖像的抽象表示。 M:用來預測未來的z。M生成的是z的概率密度而不是直接生成z向量。 C:根據M產出的h和V產出的z,生成一個動作a。C一般是一個簡單線性的。 在訓練時:先訓練V,然後用V的產出訓練M,最後整合訓練C
相關文章
相關標籤/搜索