pluribus第三課:CFR最小虛擬遺憾值算法

在進行完抽象分類後,就是進行藍圖策略的CFR迭代計算的部分,CFR算法的核心就是遍歷每一個可能的行動,並且事後對每一個行動進行收益損失評價,那些收益最高的行動將獲得更高的概率。進而給每一個決策點計算出對應的行動的概率分佈。pluribus對CFR迭代計算進行了優化.對前期的迭代的評估結果賦予較小的權重,因爲前期的策略不成熟。並且會對收益特別的差的行動進行減枝,他認爲這種負收益行現實中不常見沒必要進
相關文章
相關標籤/搜索