【RL China 2020筆記】博弈論基礎

非完美信息博弈 一些歷史動作並不是對所有玩家已知(invisible) 例如圖中的節點b和c,這兩個節點對於玩家2來說是不可區分的。 爲了描述對於某個玩家來說一系列不可區分的狀態,把這些一系列不可區分的狀態定義爲信息集。 馬爾可夫博弈(隨機博弈) 博弈定義 狀態空間 S S S 動作空間 A = A 1 × A 2 × . . . × A n A = A_1 \times A_2 \times .
相關文章
相關標籤/搜索