經過幾個例子理解博弈論與納什均衡

 2019/10/28更新,這裏再舉一個博弈論的經典例子,海盜分金問題。安全

 

轉載自知乎https://zhuanlan.zhihu.com/p/25781797優化

 

喜歡玩德州撲克的人應該都據說過「GTO」這個詞。GTO,即 GameTheory Optimal,翻譯成中文應該叫作「遊戲理論最優化」。直接翻譯過來有點拗口,通俗一點的解釋能夠是:在遊戲中,你能夠採起一種最優策略,使得本身的損失最小,同時遊戲中的對手也必須採起相對應的策略,不然只會擴大你的受益。ui

講到GTO,就不得不提到博弈論中很是著名的一個理論:納什均衡(Nash Equilibrium)。該理論是由著名的經濟學家,博弈論創始人,諾貝爾獎得到者約翰·納什提出的,也就是電影《美麗心靈》的男主角原型。該理論是說:在非合做類博弈中,存在一種策略組合,使得每一個參與人的策略是對其餘參與人策略的最優反應。若是參與者當前選擇的策略造成了「納什均衡」,那麼對於任何一位參與者來講,單方更改本身的策略不會帶來任何好處。spa

約翰·納什證實了在每一個參與者都只有有限種策略選擇,並容許混合策略的前提下,納什均衡必定存在。上邊的解釋仍是有點拗口,這裏經過幾個例子,更直觀的理解一下這個理論。翻譯

囚犯的困境

假設有兩個小偷A和B聯手闖入民宅盜竊被抓,警方將兩人置於不一樣的房間進行審訊,並給出以下政策:若是一個犯罪嫌疑人坦白並交出了贓物,兩人都會被判有罪。若是另外一個犯罪嫌疑人也坦白,則兩人各被判刑8年;若是另外一個犯罪嫌人抵賴,再加刑2年,而坦白者有功,會被當即釋放。若是兩人都抵賴,偷竊罪證據不足,但會因私入民宅而各判入獄1年。即:3d

表中的數字表示A,B各自的判刑結果。博弈論分析中通常都用這樣的表來表示。blog

此時有人會以爲雙方都抵賴就行了,但問題是雙方被隔離,都會懷疑對方會出賣本身以求自保。兩我的都會這麼想:假如對方坦白,此時若是我抵賴得坐10年監獄,若是我坦白才坐8年監獄;假如對方抵賴,此時若是我也抵賴會被判1年,若是我坦白能夠被釋放。綜合以上考慮,無論對方坦白與否,對我而言都是坦白划算。此時最後的「納什均衡」只能是兩我的都坦白,共同被判8年刑期。排序

智豬博弈

豬圈裏有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另外一邊的投食口就會落下少許的食物。若是一隻豬去踩踏板,另外一隻豬就有機會搶先吃到另外一邊落下的食物。但當小豬踩踏板時,大豬會在小豬跑到食槽以前恰好吃光全部的食物;大豬踩動了踏板,則有機會在小豬吃完落下的食物以前跑到食槽,爭吃到另外一半食物。遊戲

那麼,兩隻豬各會採起什麼策略?固然是小豬等在食槽邊,而大豬不知疲倦地奔忙於踏板和食槽之間。由於,小豬踩踏板將一無所得,不踩踏板反而能吃上食物。對小豬而言,不管大豬是否踩動踏板,不踩踏板老是好的選擇。反觀大豬,已明知小豬不會去踩動踏板,本身親自去踩踏板還有點吃的,總比不踩強,因此只好去踩踏板。搭便車?get

範式博弈

GOO公司和SAM公司存在利益關係,兩者的收益會隨着博弈的變化而不斷更替。以下圖:

雙方各有兩個可選策略「合做」與「背叛」,格中的四組數據表示四個博弈結局的各自收益,每組數據的第一個數字表示GOO公司的收益,後一個數字表示SAM公司的收益。

如今咱們站在GOO公司的角度來思考整個博弈策略。假如SAM選擇合做,那麼我方合做的收益是3,而我方背叛的收益是5,我方應該選擇背叛;假如SAM選擇背叛,那麼我方合做的收益是 -3,而我方背叛的收益是-1,我方仍是應該選擇背叛。

同理,SAM公司也會作出相同的選擇。最後咱們發現,本次博弈的雙方都採起了背叛策略,各自的收益都爲-1,這是一個比較糟糕的結局,儘管對任何一方來講都不是最糟糕的那種。

但博弈的次數每每不止一次,當二家公司經歷了屢次背叛策略的博弈以後,發現公式上還有一個(3,3)收益的共贏局面,這個結果顯然要好不少,所以二家公司在以後的博弈過程當中必然會嘗試互建信任,從而驅使雙方都選擇合做策略。

但假使雙方都知道博弈次數是有限的,也許下一次博弈就是最後一次,那麼爲了不對方在最後一輪博弈中選擇背叛而使我方遭受-3的損失,因而雙方都會採起了背叛策略,最後的博弈結果又回到了(-1,-1)。

因而可知,隨着次數的變化,博弈的性質也會發生變化,納什均衡點會發生變化。

餓獅博弈

假設有A、B、C、D、E、F六隻獅子(強弱從左到右依次排序)和一隻綿羊。假設A吃掉綿羊後就會打盹,這時比A稍弱的B就會趁機吃掉A,接着B也會打盹,而後比B稍弱的C就會吃掉B,以此類推。問:獅子A敢不敢吃綿羊?

該題須採用逆向分析法,從最弱的F開始分析,依次前推。假設E睡着了,F確定會吃掉E,由於在F的後面已沒有其它獅子了,不用擔憂本身被吃掉。繼續前推,既然E知道本身睡着會被F吃掉,那麼E必然不敢吃睡着了的D。既然E不敢吃掉D,那麼D則能夠放心去吃睡着的C。依次前推,得出C不吃,B吃,A不吃。因此答案是獅子A不敢吃掉綿羊。

可是,若是咱們在獅子F的後面增長了一隻獅子G,總數變成7只,用逆向分析法按照上題步驟再推一次,以下圖。此次的答案變成了獅子A敢吃掉綿羊。

對比兩次博弈咱們發現,獅子A敢不敢吃綿羊取決於獅子總數的奇偶性:當總數爲奇數時,A敢吃;總數爲偶數時,A則不敢吃。所以,總數爲奇數和總數爲偶數的獅羣博弈結果造成了兩個穩定的納什均衡點。

硬幣正反博弈

加入你和一個美女一塊兒玩個數學遊戲。美女提議:讓咱們各自亮出硬幣的一面,若是咱們都是正面,那麼我給你3元;若是咱們都是反面,我給你1元;剩下的狀況你給我2元。那麼你該不應和這位美女玩這個遊戲呢?

這裏須要講一下納什均衡的分類:

(1)純戰略納什均衡,也就是說玩家都可以採起固定的策略(好比一直出正面或者一直出反面),使得每人都賺得最多或虧得最少。

(2)混合戰略納什均衡,是對每一個純戰略分配一個機率而造成的戰略。混合戰略容許玩家隨機選擇一個純戰略。混合戰略納什均衡中要用機率計算,達到某一律率時,能夠實現支付最優。由於機率是連續的,因此即便戰略集合是有限的,也會有無限多個混合戰略。

 

你\美女
美女出正面
美女出反面
你出正面
+3,-3
-2,+2
你出反面
-2,+2
+1,-1

 

在這個遊戲中,應該採用混合策略納什均衡。

假設咱們出正面的機率是x,出反面的機率是1-x,美女出正面的機率是y,出反面的機率是1-y。爲了使利益最大化,應該在對手出正面或反面的時候咱們的收益都相等,(由於對手會選對其有利的面。只有當他選哪一個都同樣時,才能使他不能經過本身的選擇額外獲利。)即

3x + (-2)(1-x) = (-2) * x + 1*(1-x )

解方程得x=3/8;一樣,美女的收益:

-3y + 2(1-y) = 2y+ (-1) * (1-y),

解方程一樣得y等於3/8。因而,咱們就能夠算美女每次的指望收益是:

(1-y) * (2x-(1-x)) + y(-3x+2(1-x)) = 1/8元

即雙方都採起最優策略的狀況下,美女平均每次贏1/8元。因此固然不能和她玩這個遊戲。其實只要美女採起了(3/8, 5/8)這個方案(只要每8次遊戲中出3次正面和5次反面就能受益,至少1/8元。),不論你採用什麼方案,都是不能改變局面的。可是當你也採用最佳策略時,至少能夠保證本身輸得最少。不然,你會賠掉更多。

 

海盜分金

5個海盜搶得100枚金幣,他們按抽籤的順序依次提方案:首先由1號提出分配方案,而後5人表決,投票要超過半數贊成方案才被經過,不然他將被扔入大海喂鯊魚,依此類推。

推理過程是這樣的:

從後向前推,若是場上只剩下兩我的,前三我的的方案都被否決,那麼第四我的不管提什麼方案,第五我的都會否決,這樣1:1,不過半數,第四我的必然被處死,第五人獨自佔有全部金幣。

由於全部海盜絕對聰明,且活着優先於拿金幣,則第四人爲了不本身死亡,會極力同意第三人提出的任何方案,以免第三人死亡和上一段所描述的本身的必死結局。

由於全部海盜絕對聰明,因此第四我的的心態第三我的很清楚。因此一旦前兩個海島被處死,第三人必然提議的分發是:100:0:0。投票結果,三號本身支持,四號爲了避免死也支持,五號反對。投票經過,三號獨得100金幣。

由於全部海盜絕對聰明,因此後三我的的心態二號也很清楚。因此一旦一號海盜被處死,二號能夠很好的利用以前所描述的本身被處死後的必然結局。因此二號能夠議題分發爲:
98,0,1,1
相比於三人存活場景,三號什麼都分不到必然反對;但四號五號各多得了一枚金幣,好於處死二號後本身一無全部的必然結局。因此絕對聰明的四號五號只能選擇支持二號的這一提案。投票結果:三比一,過半,得以執行。

終於倒推到一號海盜了:
由於全部海盜絕對聰明,一號一旦死亡後的必然結局你們都知道,包括一號本身。因此一號能夠提出如下方案,以拿到五人中的三票支持:
97,0,1,2,0

97,0,1,0,2

相對於一號死後的必然結局:
0,98,0,1,1
三號能夠多拿一枚金幣,四號或五號中的一人能夠多拿一枚金幣,因此後面四人中有兩票支持。加上提議的一號海盜,總票數:三比二,經過。

這個問題最有意思的地方是,1號看起來最有可能喂鯊魚,但他緊緊地把握住先發優點,結果不但消除了死亡威脅,還收益最大。而5號看起來最安全,沒有死亡威脅,甚至還能坐收漁翁之利,卻因不得不看別臉色行事而只能分得一小杯羹。

相關文章
相關標籤/搜索