讀書筆記: 博弈論導論 - 14 - 不完整信息的靜態博弈機制設計

時間 2019-11-10

原文原文鏈接

讀書筆記: 博弈論導論 - 14 - 不完整信息的靜態博弈機制設計

機制設計(Mechanism Design)

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。html

機制設計的概念

機制設計的目標是設計一個能夠達到指望收益的博弈。
因爲這是根據博弈結果來推導博弈的形式，也被稱爲反向博弈論(reverse game theory)。
這個理論明顯在經濟和政治方面有不少用途。
咱們假象這樣一個例子：函數

某個政府須要設計一個關於化工廠的環保政策。
這個政策可能涉及到：幾個化工廠、政府和大衆。
大概的想法是：政府有一些排放許可；化工廠須要從政府那裏買排放許可；政府和大衆利用得到的資金改善環境。
機制設計的核心是：制定玩家的行動和支付資金的關係。學習

從上面的例子能夠看出一些新的元素：優化

排放許可
在理論中稱之爲替代選擇(alternatives)，或者叫作公共物品(public good)。
資金的轉移(monetary transfer)

新的概念：ui

機制設計者(mechanism designer)
也稱爲中央集權(central authority)。中央集權不必定是玩家。
替代選擇(alternatives)或者公共物品(public good)
中央集權提供的公共物品或者服務。
將成爲玩家的結果(outcome)的一部分。
資金的轉移(monetary transfer)
每一個玩家得到的資金。負數表示支付的資金，
成爲收益函數的一部分。
收益函數
在機制設計中，玩家的結果包含兩部分：公共物品和資金的轉移。
另外，咱們簡單地加上資金部分做爲收益。
因此收益函數變爲:
\[ v_i(x, m_i, \theta_i) = u(x, \theta_i) + m_i \]
全部玩家的一個結果組合(outcomes)
這裏用y來表示，以區分x。
\[ y = (x, m_1, \cdots, m_n) : x \in X, m_i \in \mathbb{R} \ \forall i \in N, \sum_{i=1}^{n} m_i \leq 0 \\ y_i = (x_i, m_i) \]
選擇規則(choice rule)
根據類型\(\theta\)獲得機制的結果\(y\)。
\[ f(\theta) = (x(\theta), m_1(\theta), \cdots, m_n(\theta)) \\ where \\ x(\theta) \text( : decision rule) \\ (m_1(\theta), \cdots, m_n(\theta)) \text( : transfer rule) \]
選擇條件定義了每一個類型想要的結果。

機制設計者面臨的問題和一個方向

機制設計者面臨的問題和一個方向spa

在不完整信息博弈中，私有信息（機制設計者不知道的信息）：設計

每一個玩家的類型\(\theta\)。
公共知識：

類型集合\(\Theta\)

每種類型的選擇規則，也就是每種類型玩家傾向的結果

每種類型的策略，就是每種類型玩家的傾向策略

策略行動致使的結果。

機制設計的兩個方向之一，是在不知道玩家的類型（這是私有信息）的狀況下，
設計出一個足夠聰明的博弈，可以保證：orm

對於每種類型的玩家組合，其選擇規則的結果，和博弈的貝葉斯納什均衡的結果一致。
也就是說，其選擇規則結果和博弈的策略引發的結果一致。
知足上面條件的機制，則稱之實現了選擇規則。
下面是相應的數學說明。

機制(mechanism)
機制規定了玩家的行動集合，以及行動結果與資金轉移的關係。
\[ \Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle \\ where \\ g : A_1 \times \cdots A_n \to Y \\ \]
玩家i的純策略
\(s_i : \Theta_i \to A_i\)
玩家i的收益函數
\(v_i(g(s), \theta_i)\)htm
貝葉斯納什均衡(Bayesian Nash Equilibrium)
若是知足下面條件，一個策略組合\(s^*(\cdot) = (s_1^*(\cdot), \cdots, s_n^*(\cdot))\)
是一個機制\(\Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle\)的貝葉斯納什均衡：
\[ E_{\theta_{-1}} [v_i(g(s_i^*(\theta_i), s_{-i}^*(\theta_{-i})), \theta_i) | \theta_i] \geq E_{\theta_{-1}} [v_i(g(a_i, s_{-i}^*(\theta_{-i})), \theta_i) | \theta_i], \forall a_i \in A_i, \forall i \in N, \forall \theta_i \in \Theta_i \]blog

也就是說，對於每種類型組合，每一個玩家，當對手的策略是這個策略組合時，這個玩家的這個策略組合的策略是最優的（其指望收益大於等於其它的全部策略的指望收益）。
機制實現選擇規則
若是知足下面條件，則這個機制\(\Gamma\)實現了(implement)選擇規則\(f(\cdot)\):
存在一個貝葉斯納什均衡\(s^*(s_1^*(\theta_1), \cdots, s_n^*(\theta_n))\)，知足：
\[ g(s_1^*(\theta_1), \cdots, s_n^*(\theta_n)) = f(\theta), \forall \theta_i \in \Theta_i \]
部分實現(partial implementation)和徹底實現(full implementation)
除了指望的貝葉斯納什均衡，若是容許存在其它的、不指望的均衡，成爲部分實現；
若是不容許存在其它的、不指望的均衡，成爲徹底實現；

揭露原理(the revelation principle)

機制設計的另一個方向：玩家意識到機制設計者會實現他的選擇條件\(f(\cdot)\)時，玩家會透露本身的類型。

直接揭露機制(direct revelation mechanism)
一個選擇規則\(f(\cdot)\)的直接揭露機制\(\Gamma = \langle \Theta_1, \cdots, \Theta_n, f(\cdot) \rangle\)是:
\[ A_i = \Theta_i, \forall i \in N \\ g(\theta) = f(\theta), \forall \theta \in \Theta \]
解釋：

對於每一個玩家，其行動集合\(\Theta\)是選擇規則\(\Theta_i\)對應的行動集合（想象一下，每一個類型對應一個策略，一個策略對應一個行動）。
對於每一個類型\(\theta\)，它的選擇規則（想要的）結果\(f(\theta)\)和機制設計的結果\(g(\theta)\)一致。
在貝葉斯納什均衡中誠實地可實現的(truthfully implementable in Bayesian Nash equilibrium)
一個選擇規則\(f(\cdot)\)是在貝葉斯納什均衡中誠實地可實現的，
若是這個選擇規則的直接揭露機制\(\Gamma = \langle \Theta_1, \cdots, \Theta_n, f(\cdot) \rangle\)有一個貝葉斯納什均衡\(s_i^*(\theta_i) = \theta_i\),
也就是說，知足：
\[ E_{\theta_{-1}} [v_i(f(\theta_i, \theta_{-i}), \theta_i) | \theta_i] \geq E_{\theta_{-1}} [v_i(g(\theta_i', \theta_{-i}), \theta_i) | \theta_i], \forall \theta_i' \in \Theta_i \]
解釋：

當解釋規則的直接揭露機制有有一個貝葉斯納什均衡解，則其實徹底可知足的。

推論 14.1 : 對於貝葉斯納什實現的揭露原理
一個選擇規則\(f(\cdot)\)在貝葉斯納什均衡中是可實現的，當且僅當它在貝葉斯納什均衡中誠實地可實現的(truthfully implementable in Bayesian Nash equilibrium)。

揭露原理的想法：

在均衡中，玩家知道這個機制實現了選擇規則\(f(\cdot)\)，因此會何其保持一致。
所以他們可能會誠實地述說他們的類型，讓機制設計者直接實現選擇規則\(f(\cdot)\)。

優點策略和Vickrey-Clarke-Groves機制

優點策略
若是知足如下條件，則策略組合\(s^*(\cdot) = (s_1^*(\cdot), \cdots, s_n^*(\cdot))\)是一個機制\(\Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle\)的優點策略：
\[ v_i(g(s_i^*(\theta), a_{-i}), \theta_i) \geq v_i(g(a_i', a_{-i}), \theta_i), \forall a_i \in A_i, \forall a_{-i} \in A_{-i}, \forall i \in N, \forall \theta_i \in \Theta_i \]
同時，揭露原理意味着若是選擇法則\(f(\cdot)\)若是一個選擇規則能夠被一個優點策略實現，咱們只要檢測這個選擇法則是在優點策略中誠實地可實現的。
即：
\[ v_i(f(\theta_i, \theta_{-i}), \theta_i) \geq v_i(f(\theta_i', \theta_{-i}), \theta_i), \forall \theta_i \in \Theta_i, \forall \theta_{-i} \in \Theta_{-i}, \forall i \in N, \forall \theta_i \in \Theta_i \]

推論 14.2
在一個準線性(quasilinear)環境中，給定一個實例狀態\(\theta \in \Theta\)，
一個替代物(alternative)\(x^* \in X\)是一個帕累託優化，當且僅當下面有一個解：
\[ \max_{x \in X} \sum_{i=1}^I u_i(x_i, \theta_i) \]

First-best decision rule
若是對於\(\forall \ \theta \in \Theta\), \(x^*(\theta)\)都是帕累託優化的，則\(x^*(\cdot)\)爲First-best decision rule。
Vickrey-Clarke-Groves機制
給定一個宣佈的類型\(\theta'\)，
這個選擇規則\(f(\theta') = (x(\theta'), m_1(\theta'), \cdots, m_n(\theta') )\)是一個Vickrey-Clarke-Groves機制，
若是\(x^*(\cdot)\)是一個第一好決定規則(first-best decision rule)，而且：
\[ m_i(\theta') = \sum_{j \neq i} u_j(x^*(\theta'_j, \theta'_{-i}), \theta'_j) + h_i(\theta'_{-i}) \\ where \\ h_i(\theta'_{-i}) \text{ is an arbitrary function of } \theta'_{-i} \]

解釋：

沒有徹底看懂。大概的意思是對於First-best decision rule \(x^*(\cdot)\)，
能夠找到一個轉移規則\((m_1(\cdot), \cdots, m_n(\cdot))\)，
讓選擇規則成爲一個在優點策略中可實現。

下面是一個解：

Pivotal Mechanism - a particular form of Vickrey-Clarke-Groves機制
\[ h_i(\theta'_{-i}) = - \sum_{j \neq i} u_j(x_{-i}^*(\theta'_{-i}), \theta'_j) \\ where \\ x_{-i}^*(\theta'_{-i}) \in \arg \max_{x \in X} \sum_{j \neq i} u_j(x, \theta'_j) \\ Thus \\ m_i(\theta') = \sum_{j \neq i} u_j(x^*(\theta'_j, \theta'_{-i}), \theta'_j) - \sum_{j \neq i} u_j(x_{-i}^*(\theta'_{-i}), \theta'_j) \\ \]