【RL從入門到放棄】【五】

1、數學基礎 隨機變量 一般使用小寫來表示,比如說a:action就是隨機變量,隨機變量可以是連續的也可以是離散的 概率分佈 概率分佈來描述隨機變量在每個可能取到的值處的可能性。離散型隨機變量的概率分佈常概率質量函數來描述,即隨機變量在離散點處的概率。連續型隨機變量的概率分佈則概率密度函數來描述。在圖 2.3中,指定一個策略 就是指定取每個動作的概率。 離散:概率質量函數      連續:概率密度
相關文章
相關標籤/搜索