本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。html
靜態博弈是每一個玩家同時(而且在不知道其餘玩家選擇的狀況下)作出選擇。
動態博弈引進了玩家作出選擇的前後次序。
注意:玩家i作出了選擇後,玩家j知道玩家i作出了選擇,可是不必定知道玩家i作出了什麼選擇。node
擴展形式博弈的表達結構:函數
博弈樹
博弈樹用來表示擴展形式博弈。
一個博弈樹是一個帶前後關係\(x > x'\)的節點集合\(x \in X\)。
\(x > x'\)表示x在x'以前。
每一個節點只有一個父。
前後關係(precedence relation)具備:
傳遞性(transitive): \(x > x', x' > x'' \implies x > x''\)
不對稱性(asymmetric): \(x > x' \implies \ not \ x' > x\)
不完整性(incomplete): 不是每一對x, y有前後次序。
有一個根節點,標記爲\(x_0\),是其它全部節點的祖先。
沒有子的節點稱爲末端節點(terminal nodes),表示爲\(Z \subset X\)。
末端節點表示爲結果,並關聯收益函數。
非末端節點被賦予1)一個玩家\(i(x)\),和行動集合\(A_i(x)\),或者2)天然(Nature)。學習
更多的解釋,這是爲完美信息的定義打鋪墊。
若是玩家i的信息集列表都是\(h_i = \{ x \}\),則代表玩家i知道:1) 行動次序, 2)對方的行動是什麼。
若是玩家i的信息集列表存在是\(h_i = \{ x, x', \cdots \}\),則代表玩家i知道:1) 行動次序。可是不知道: 1)對方的行動是什麼。
這是致使玩家i: 1)性質2:不決定位於博弈樹上的那個節點,所以,性質3:\(A_i(x') = A_i(x)\)也必然成立。ui
能夠將天然選擇理解爲擲骰子、抽籤、盲牌。spa
擴展形式博弈的純策略
玩家i的一個純策略是一個完整計劃,描述了在每個信息集合上,玩家i會選擇哪一個純行動。orm
擴展形式博弈的純策略
玩家i的一個純策略是影射: \(s_i: H_i \to A_I\),對於每一個信息集\(h_i \in H_i\),有\(s_i(h_i) \in A_i(h_i)\)
\(A_i(h_i)\)表示玩家i的一個信息集對應的行動集合。htm
擴展形式博弈的策略數
\[ |S_i| = m_1 \times m_2 \times \cdots \times m_k \\ where \\ |S_i| \text{ : the number of elements in } S_i \\ m_j \text{ : the number of actions in the j-nd information set} \\ k \text{ : the number of information sets} \]blog
混合策略(mixed strategy)
一個混合策略是一個在各個純策略上的機率分佈。遊戲
行爲策略(behavioral strategy)
一個行爲策略:對每個信息集\(h_i \in H_i\),有一個在各個行動\(a_i(h_i) \in A_i(h_i)\)上的機率分佈,表示爲
\(\sigma_i : H_i \to \Delta A_i(h_i)\)
\(\sigma_i(a_i(h_i))\) : 玩家i,在信息集\(h_i\)上,選擇行動\(a_i(h_i) \in A_i(h_i)\)的機率。
純策略 vs 混合策略 vs 行爲策略
純策略使用一個行動做爲策略結果。
混合策略在玩遊戲前是一個行爲的機率分佈,最終仍是使用了一個純策略。
行爲策略在玩遊戲前和玩的時候,都是一個行爲的機率分佈。
完美回憶博弈(a game of perface recall)
在完美回憶博弈中,每一個玩家都不會忘記以前知道的信息集。
均衡路徑(the equilibrium path)
在一個擴展形式博弈中,行爲策略的納什均衡\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)。
若是一個信息集有可能到達這個納什均衡\(\sigma^*\),則稱這個信息集在均衡路徑上。
若是一個信息集不可能到達這個納什均衡\(\sigma^*\),則稱這個信息集不在均衡路徑上。