讀書筆記: 博弈論導論 - 總結

時間 2019-11-10

標籤讀書筆記博弈論導論總結欄目應用數學简体版

原文原文鏈接

讀書筆記: 博弈論導論 - 總結

總結

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記的總結。html

博弈論

博弈論是關於智能理性決策者的協做和衝突的數學模型的研究。dom

博弈論的目的能夠說是研究尋找博弈均衡的方法。
博弈論的直接目標不是找到一個玩家的最佳策略，而是找到全部玩家的最理性策略組合。
咱們稱最理性策略組合爲均衡。函數

博弈論（也叫逆向博弈論）的另一個做用是機制設計，根據指望的結果，設計一個博弈體系。post

博弈論的分類

這本書中將博弈論的只是分爲四類：學習

完整信息的靜態博弈
完整信息的動態博弈
不完整信息的靜態博弈
不完整信息的動態博弈

博弈論的數學模型

普通形式博弈(normal-form game)的數學表達
1. 一個有限的玩家集合, $N = {1, 2, \cdots, n}$
2. 每一個玩家的純策略集合的組合, ${S_1, S_2, \cdots, S_n}$
3. 一套收益函數, ${v_1, v_2, \cdots, v_n}$，對於每一個玩家，每一種全部玩家選擇的策略組合，都有一個收益值。
  $v_i: S_1 \times S_2 \times \cdots \times S_n \text{ for each } i \in N $
貝葉斯博弈(Bayesian Game)
用於描述不完整信息博弈。
\[ \left \langle N, \{ A_i \}_{i=1}^n, \{ \Theta_i \}_{i=1}^n, \{ v_i(\cdot; \theta_i), \theta_i \in \Theta_i \}_{i=1}^n, \{ \phi_i \}_{i=1}^n \right \rangle \\ where \\ N = \{ 1,2,\cdots, n\} \text{ : is the set of players} \\ A_i \text{ : the action set of player i} \\ \Theta_i \text{ : the type space of player i} \\ v_i : A \times \Theta_i \to \mathbb{R} \text{ : type dependent pay of function of player i} \\ \phi \text{ : the belief of player i with respect to the uncertainty over the other players' types} \\ \phi(\theta_{-i} | \theta_i) \text{ : the posterior conditional distribution on } \theta_{-i} \]

術語

靜態博弈(static game) vs 動態博弈(dynamic game)
靜態博弈指全部玩家同時、獨立作出選擇。也叫作同時博弈(Simultaneous game)
動態博弈指全部玩家按照次序作出選擇。也叫作序貫博弈(Sequential game)、序列博弈。優化
完整信息博弈(Complete information game) and 不完整信息博弈(Incomplete information game)
完整信息博弈是指全部知識被全部玩家都瞭解，就是成爲了公共知識。
不完整信息博弈是指一個玩家不知道其餘玩家的部分信息(actions, outcomes, payoffs)。ui
完美信息博弈(Information perfect game) vs 不完美信息博弈(Information imperfect game)
完美信息博弈指一個玩家知道對手作出了選擇，而且知道對手的選擇是什麼。好比：圍棋。
不完美信息博弈指一個玩家知道對手作出了選擇，可是不知道對手的選擇是什麼。好比：德州撲克。spa
普通形式博弈(Normal-Form Game) vs 擴展形式博弈(Extensive-Form Game)
博弈的數學化定義方式。
普通形式博弈比較簡單，適用描述信息較少的狀況，好比：兩個玩家的純策略的靜態博弈。
擴展形式博弈用於形式化描述博弈。不管完美信息仍是不完美信息，完整信息仍是不完整信息均可以。
針對不完美信息，支持信息集的概念。
針對不完整信息，支持Nature和類型概念。設計
Subgame-perfect equilibrium
這裏主要說perfect這個詞，這個詞和equilibrium用在一塊兒時，經常有精煉(refinement)的意思，表示優化均衡的結果。orm
序貫(sequential)
序貫表示連續的。
信念(beliefs)，
玩家i的一個信念就是他的對手們的一個可能的策略組合。
最佳反應(Best Response)
當其餘玩家策略已知時，玩家i的優點策略就是其最佳反應。
這是博弈論的中心。理性，序貫理性的意味就是最佳反應。均衡的結果也來自於最佳反應。
最佳反應：對於玩家i，給定其對其餘玩家的信念，他會選擇在這個信念上對本身最好的行爲。
序貫理性(Sequential Rationality)
在博弈中的每一個階段，玩家都保持理性。
信任系統(a system of beliefs)
對每一個信息集上一個行動的選擇機率。見後面的數學定義。
信譽(Reputation)
在博弈論中，玩家爲了證實本身的信譽（本身的類型），會選擇一種行爲，這種行爲只會對本身的類型有益，而對其它類型有損失。

經典博弈問題

囚徒困境(Prisoner's Dilemma)
兩個囚徒選擇沉默(mum)和告密(flink)的一個靜態博弈問題。

		玩家2
		m	f
玩家1	M	4, 4	-1, 5
	F	5, -1	1, 1

報復博弈(Revenge Game)
報復博弈通常和囚徒困境組成一個兩階段博弈。
兩個囚徒在玩完囚徒困境後，進入報復博弈，選擇單獨人(loner)和加入幫派(gang)的一個靜態博弈問題。

		玩家2
		l	g
玩家1	L	0, 0	-4, -1
	G	-1, -4	1, 1

古諾雙寡頭(The Cournot Duopoly)
(p-Beauty Contest)
兩性之爭(the Battle of the Sexes)

策略

一個策略是一個玩家在博弈中，根據當時的狀況，選擇其行動的邏輯。
策略有各類各樣的。咱們能夠想象每一個策略都是若是這樣，我就選擇行動X，等等。
博弈理論中定義了一些策略。

純策略(Pure Strategy)
玩家老是選擇一個特定的行動。
混合策略(Mixed Strategy)
玩家在選擇行動上有一個可能性分佈。可是最終會選擇一個純策略。
行爲策略(Behavioral Strategy)
玩家在選擇行動上有一個可能性分佈。通常用於動態博弈的天然選擇，因此老是使用這個可能性分佈來計算（指望收益等）。

正式的說法是：對每一個信息集指定一個行動上的獨立可能性分佈。
條件選擇策略(Conditional Play)
若是怎樣，我會怎樣的策略。
獎罰策略(Reward-and-punishment Strategy)
好行爲被獎勵，壞行爲被懲罰的策略。用於多階段博弈。
殘忍觸發策略(Grim-trigger strategy)
在第一階段上選擇一個合做（符合子博弈精煉均衡）的行動；
在之後的階段裏，繼續選擇這個合做行動，當且僅當對方也一直選擇合做的行動；不然選擇懲罰性的行動。
使用第三方做爲信譽機制(Third-Party Institutions as Reputation Mechanisms)
在多階段博弈中，如何保證協做的一種機制。
玩家1：若是玩家2支付保證金給玩家3（第三方），則信任玩家2，不然不信任。
玩家2：在階段1，支付保證金給玩家3。在之後的階段中，若是玩家3一直遵照保證金協議，則繼續支付保證金。
若是支付保證金了，則於玩家1合做，不然叛變。
玩家3：（保證金協議）在一個階段中，若是玩家2合做，則返回保證金給玩家2；不然不返回保證金。
不使用第三方的信譽機制(Reputation Transfers without Third Parties)
在多階段博弈中，如何保證協做的一種機制。
玩家$P_1^1$：若是玩家$P_2^1$建立了一個惟一的商標，則信任玩家$P_2^1$，不然不信任。
玩家$P_2^1$：在階段1，選擇一個惟一的商標，和玩家1合做。而後，把商標以價格$p^* > 1$賣給下家（玩家$P_2^2$）。
玩家$P_1^t(t>1)$：若是1) 玩家$P_2^t$從玩家$P_2^{t-1}$手裏買了這個惟一的商標，2) 並且這個商標沒有被濫用（叛變）過，則信任玩家$P_2^t$，不然不信任。
玩家$P_2^t(t>1)$：若是1) 玩家$P_2^{t-1}$從玩家$P_2^{t-2}$以價格$p^*$手裏買了這個惟一的商標，2) 並且這個商標沒有被濫用（叛變）過，和玩家$P_1^t(t>1)$合做。而後，把商標以價格$p^*$賣給下家（玩家$P_2^{t+1}$）。

方法

嚴格劣勢策略(strictly dominated strategy)
一個理性玩家不會選擇一個嚴格劣勢策略。
優點策略(Dominant Strategy)
若是有的話，玩家必定會選擇優點策略。
帕累託優點(pareto dominate)
重複剔除嚴格劣勢均衡(Iterated elimination of strictly dominated strategies (IESDS))
若是可以找到一個嚴格劣勢策略，將其刪除掉，簡化了博弈；
而後在簡化的博弈中，重複上面的過程，直到有一個優點策略爲止。
納什均衡(Nash equilibrium)
納什均衡的定義是：在一個策略組合中，若是一個玩家i，當其餘全部玩家的策略都不變時（是這個策略組合中的玩家策略），玩家i的策略是個最佳反應。
若是這個條件對每一個玩家都成立，則這個策略組合是一個納什均衡。
納什均衡的概念能夠從純策略組合，推廣到混合策略（指望收益）、（動態博弈的）行爲策略、（不完整信息）貝葉斯納什均衡。

納什證實了每一個博弈都至少有一個納什均衡。

納什均衡至關於在博弈論中發現了一個新大陸。
一個問題是納什均衡的解每每不少，所以，有一個精煉的概念，就是咱們經常看到詞perfect，其目的是近一步減小納什均衡的解。

子博弈精煉(Subgame perfection)
子博弈精煉是對納什博弈的一種優化。
要求對於一個行爲策略組合$\sigma^*$，知足在任何一個合適的子博弈中，這個行爲策略組合$\sigma^*$都是一個納什均衡。
逆向概括法(Backward induction solution)
在擴展形式博弈樹中，能夠形象的看出：
從底層開始，玩家在每一個父節點的子節點集合中，選擇出(最佳反應的)其會得到最大收益的行爲。每一個父節點會對應一個或者幾個最佳反應節點。
將這些節點的收益值做爲其父節點的收益值。
重複迭代能夠找到全部玩家的一個子博弈精煉均衡。
貝葉斯納什均衡(Bayesian Nash equilibrium)
能夠說是納什均衡在不完整信息博弈中的擴展。大概的意思是計算了其餘玩家類型的分佈機率上的收益指望。
注意：子博弈精煉不適用於不完整信息博弈，主要緣由是不知道其餘玩家的類型，致使在子博弈上難以肯定收益。
精煉貝葉斯均衡(perfect Bayesian equilibrium)
在不完整信息博弈中，精煉貝葉斯均衡是一個貝葉斯納什均衡和一個信任系統的組合，並須要知足下面四個需求：
精煉貝葉斯均衡(perfect Bayesian equilibrium)的四個需求：
- 需求 15.1
  每一個玩家在每一個信息集上，都將有一個意義明確的信念（關於他的位置）。也就是說博弈將有一個信念體系。
- 需求 15.2
  $\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)$是一個不完整信息博弈的貝葉斯納什均衡，咱們要求在全部信息集上，在均衡路徑上的信念符合貝葉斯規則。
- 需求 15.3
  對於不在均衡路徑上的信息集，其信念值能夠是任何值。
- 需求 15.4
  給定玩家的信念，玩家的策略必須是序貫理性。也就是說在每個信息集上，玩家將選擇信念對應的最佳反應。

原理

單階段誤差原理(The One-Stage Deviation Principle)

在理解單階段誤差原理以前，咱們先回顧一些背景知識：

每一個博弈都存在至少一個納什均衡。
在有限多階段博弈中，若是每一個階段博弈都有惟一的納什均衡，則多階段博弈的最優結果就是這些納什均衡的組合（的路徑）。
在有限多階段博弈中，若是至少有一個階段博弈有多個的納什均衡，則多階段博弈的最優策略組合可能會偏離階段博弈的納什均衡。

那麼在多階段博弈中，在多階段博弈的擴展形式博弈樹(extensive-form game tree)上，一條路徑的收益是容易獲得的，只要求出每一個階段博弈的收益總和就能夠了。
這樣，咱們也能夠比較容易計算兩條路徑中，哪一個更優（通常和折扣率有關）。

問題是：對於玩家i來講，當其餘玩家的策略組合$\sigma_i$給定的時，如何找到玩家i的最佳反應(best response)？
注：這裏的策略能夠是任何策略，好比純策略，混合策略，條件策略等。
這裏邊，一個比較麻煩的問題是路徑太多。好比：考慮一下一個有五個階段的博弈。
幸運的是，上面這個駭人的問題能夠被簡化- 這就是單階段誤差原理。

單階段誤差原理的含義是，當其餘玩家的策略組合$\sigma_i$給定的時，判斷玩家i的一條路徑是否最優，只要看這個路徑（策略）是否是單點不可改善(one-shot unimprovable)。
所以只要檢測和它有一個信息集不一樣的那些路徑就能夠了。
好比：若是一個階段博弈有A和B兩個行動，在一個三階段的重複博弈中，判斷一條玩家的路徑（策略）AAA是不是不可改善，只須要對比BAA，ABA和AAB就能夠了。
很明顯，這個原則只適合於有限多階段博弈。

其實原書中，對於Prisoner-Revenge Game，計算折扣率，能夠當作對單階段誤差原理的過程描述，只不過只是比較兩個路徑。

下面加上書中的定義和定理，以供參考。
單階段誤差原理表述以下:

一個階段的不可改善策略一定是最優的。
這意味着，若是在一個階段博弈中，存在一個單階段不可改善策略，則不會發生偏離，也就是不存在非納什均衡的最優策略。
反之，則必定會發生偏離的狀況。

單階段不可改善策略的定義以下：

一個策略$\sigma_i$是單階段不可改善的，則:
不存在信息集$h_i$和行動$a \in A_i(h_i)$和對應的策略$\sigma_i^{a, h_i}$（其爲除了信息集$h_i$之外，和$\sigma_i$都一致的策略），有$\sigma_i^{a, h_i} > v_i(\sigma_i, h_i)$。

參照見One-shot deviation principle

基本數學符合

$\Gamma$: 博弈(game)
$N$: 玩家(player)集合
$i$: 玩家i, $i \in N$
$X$: 結果(outcome)集合。
$X_i$: 玩家i的結果(outcome)集合。
$x_i$: 玩家i的一個結果(outcome)。

$S$: 策略集合(strategy set), $S \equiv S_1 \times S_2 \times \cdots \times S_n$.
$S_i$: 玩家i的策略集合(strategy set)
$S_{-i}$: 除去玩家i的策略集合(strategy set), $S_{-i} \equiv S_1 \times S_2 \times \cdots \times \S_{i-1} \times \S_{i+1} \times \cdots \times S_n$.
$s = (s_1, s_2, \cdots, s_n)$: 表示全部玩家的一個策略組合。
$s_i$: 玩家i的一個策略(strategy)，$s_i \in S_i$。
$s_{-i} = (s_1, s_2, \cdots, s_{i-1}, s_{i+1}, \cdots, s_n)$: 表示除了玩家i，之外的全部玩家的一個策略組合。
$A_i$: 玩家i的行動集合。
$a_i$: 玩家i的一個行動，$a_i \in A_i$。
$\mathbb{R}$AAAAA: 實數。
$u_i: X \to \mathbb{R}$: 玩家i的收益函數，基於一個結果組合。
$v_i: s \to \mathbb{R}$: 玩家i的收益函數，基於一個策略組合。
$H_i$: 玩家i的信息集的集合
$h_i$: 玩家i的一個信息集，$h_i \in H_i$。
$A_i(h_i)$: 玩家i的一個信息集$h_i$對應的行動集合。
$s_i(h_i)$: 玩家i的一個純策略。$s_i(h_i) \in A_i(h_i)$
$T$: 多階段博弈的全部時期。
$t$: 多階段博弈的一個時期。

$p(x_k | a)$: 採起行動a時，產生結果$x_k$的機率。
$E(u(x) | a)$: 採起行動a的指望收益。
$0 < \delta < 1$: （多階段博弈中的）折扣率。

動態博弈(Dynamic Game)

策略組合$\sigma = (\sigma_1, \cdots, \sigma_n)$: 一個動態博弈的混合策略組合(mixed strategies profile)。

不完整信息博弈

$\Theta$ : 全部玩家的類型空間(type space)集合。
$\Theta_i = \{ \theta_{i1}， \cdots， \theta_{ik}\}$ : 玩家i的類型空間(type space)。
$\theta_i$ : 玩家i的類型(type)。
$\theta_{-i}$ : 除了玩家i之外其餘玩家的類型(type)。
$\phi_i$ : 玩家 i 對其餘玩家 type 的信任分佈機率。
$v_i(a; \theta_i)$ : 當在type $\theta_i$下，依賴於一個行動組合的玩家收益函數，

機制設計

$m_i \in \mathbb{R}$ : 玩家i的資金。
$Y$ : 全部玩家（機制設計的）結果組合集合。
$y = (x, m_1, \cdots, m_n)$ : 全部玩家（機制設計的）一個結果組合。
$\Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle$ : 一個機制。

不完整信息的動態博弈

$\mu$: 信任系統(a system of beliefs)，對每一個信息集上一個行動的選擇機率。
\[ \mu(x) \in [0, 1] \\ \sum_{x \in h} \mu(x) = 1, \forall h \in H \]

參照

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。