強化學習 之重要性採樣

重要性用於離線蒙特卡洛的不足: (1)使用重要性採樣時會用什麼方法避免pi非零而mu爲零的問題? 一般使用一些平滑算法,例如拉普拉斯一類的平滑 這裏beta是平滑的超參數。 還有一種就是clip,也就是ratio如果絕對值超過了某個閾值a,那就設置成這個a值(符號不變)。 這些方法其實都是損失了一點點bias,來換來bias的巨大下降。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
相關文章
相關標籤/搜索