【一文學會】Gumbel-Softmax的採樣技巧

時間 2021-01-16

原文原文鏈接

目錄基於softmax的採樣基於gumbel-max的採樣基於gumbel-softmax的採樣基於ST-gumbel-softmax的採樣 Gumbel分佈回答問題一回答問題二回答問題三附錄以強化學習爲例，假設網絡輸出的三維向量代表三個動作（前進、停留、後退）在下一步的收益，value=[-10,10,15]，那麼下一步我們就會選擇收益最大的動作（後退）繼續執行，於是輸出動

>>阅读原文<<