讀書筆記: 博弈論導論 - 02 - 引入不肯定性和時間

讀書筆記: 博弈論導論 - 02 - 引入不肯定性和時間

前言

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。html

術語

  • 機率分佈函數(probability distribution function)
    一個簡單投機(lottery)(行動\(a \in A\))在結果 $ X = { x_1, x_2, \cdots, x_n }$上的機率分佈記作
    \[ p = (p(x_1|a), p(x_2|a), \cdots, p(x_n|a)), \\ where \\ p(x_k|a) \geq 0 \text{: the probability that } x_k \text{ occurs when take action a} \\ \sum_{k=1}^n p(x_k|a) = 1 \]編程

  • 累積分佈函數(cumulative distribution function)
    一個簡單投機(lottery)行動\(a \in A\),在結果區間\(X = [\underline{x}, \overline{x}]\)上的累積分佈函數:
    \[ F : X \to [0, 1] \\ where \\ f(\hat{x} | a) = Pr{x \leq \hat{x}} \text{: the probability that the outcome is less than or equal to } \hat{x}. \]less

  • 指望收益(expected payoff from the lottery function)
    一個簡單投機(lottery)行動\(a \in A\),在結果區間\(X = [x_1, x_2, \cdots, x_n]\)上的指望收益函數:
    \[ E[u(x)|a] = \sum_{k=1}^n p_k u(x_k) \\ where \\ u(x) \text{: the payoff function} \\ p = (p_1, p_2, \cdots, p_n) \text{: probability distribution} \]函數

  • 連續案例:指望收益(expected payoff from the lottery function)
    一個簡單投機(lottery)行動\(a \in A\),在結果區間\(X = [\underline{x}, \overline{x}]\)上的指望收益函數:
    \[ E[u(x) | a] = \int_{\underline{x}}^{\overline{x}} u(x)f(x)dx \\ where \\ u(x) \text{: the payoff function} \\ f(x|a) \text{: the cumulative distribution function} \]學習

  • 經濟人2
    咱們稱一我的是理性的,若是這我的選擇最大指望收益。
    \[ \text{choose } a^* \in A \iff v(a^*) = E[u(x)|a^*] \geq E[u(x)|a^*] = v(a), a \in A \]spa

考慮次序和時間

  • 逆向概括法(backward induction)
    或者稱爲動態編程(dynamic programming)。
    就是說在連續的隨機案例下,從後向前,每一個簡單的投機,
    都使用最大指望收益推算其投機行爲,做爲投機的計算行爲,向前計算。htm

  • 折扣合計指望(discounted sum of future payoffs)
    \[ v(x_1, x_2, \cdots, x_n) = \sum_{t=1}^{T} \delta^{t-1} u(x_t) \\ where \\ T \text{: period} \\ u(x) \text{: the payoff function of outcome x} \\ \]blog

風險態度

  • 中立風險 - risk neutral
    認爲一樣指望回報的價值相同。get

  • 厭惡風險 - risk averse
    傾向於一個肯定性的回報,不肯意採用一個擁有一樣指望回報的不肯定性方案。it

  • 喜好風險 - risk loving
    更嚴格地傾向於採用擁有一樣指望回報的賭注。

到如今,基本上就是強化學習。

參照

相關文章
相關標籤/搜索