強化學習之重要性採樣

時間 2020-12-30

標籤算法強化學習機器學習人工智能简体版

原文原文鏈接

重要性用於離線蒙特卡洛的不足：（1）使用重要性採樣時會用什麼方法避免pi非零而mu爲零的問題？一般使用一些平滑算法，例如拉普拉斯一類的平滑這裏beta是平滑的超參數。還有一種就是clip，也就是ratio如果絕對值超過了某個閾值a，那就設置成這個a值（符號不變）。這些方法其實都是損失了一點點bias，來換來bias的巨大下降。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

>>阅读原文<<