【一文學會】Gumbel-Softmax的採樣技巧

目錄 基於softmax的採樣 基於gumbel-max的採樣 基於gumbel-softmax的採樣 基於ST-gumbel-softmax的採樣 Gumbel分佈 回答問題一 回答問題二 回答問題三 附錄   以強化學習爲例,假設網絡輸出的三維向量代表三個動作(前進、停留、後退)在下一步的收益,value=[-10,10,15],那麼下一步我們就會選擇收益最大的動作(後退)繼續執行,於是輸出動
相關文章
相關標籤/搜索