三十分鐘理解博弈論「納什均衡」 -- Nash Equilibrium

時間 2019-12-06

標籤三十分 30分理解博弈論納什均衡 nash equilibrium 欄目負載均衡简体版

原文原文鏈接

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。
技術交流QQ羣：433250724，歡迎對算法、技術感興趣的同窗加入。算法

納什均衡（或者納什平衡），Nash equilibrium ,又稱爲非合做博弈均衡，是博弈論的一個重要策略組合，以約翰·納什命名。 markdown

約翰·納什，生於1928年6月13日。著名經濟學家、博弈論創始人、《美麗心靈》男主角原型。前麻省理工學院助教，後任普林斯頓大學數學系教授，主要研究博弈論、微分幾何學和偏微分方程。因爲他與另外兩位數學家（經濟學家，約翰·C·海薩尼和萊因哈德·澤爾騰）在非合做博弈的均衡分析理論方面作出了開創性的貢獻，對博弈論和經濟學產生了重大影響，而得到1994年諾貝爾經濟學獎。ui

納什的人生很是曲折，一度學術成果不被承認，甚至換上嚴重的精神分裂症，在愛的力量下在不少年後奇蹟般地恢復，並最終得到諾內爾經濟學獎。影片《美麗心靈》（A Beautiful Mind）是一部改編自同名傳記而得到奧斯卡金像獎的電影，影片以約翰·納什與他的妻子艾莉西亞（曾離婚，但2001年復婚）以及普林斯頓的朋友、同事的真實感人故事爲題材，藝術地重現了這個愛心呵護天才的傳奇故事。.net

年輕時的Nash，很帥噢htm

納什均衡定義

經濟學定義[3]
所謂納什均衡，指的是參與人的這樣一種策略組合，在該策略組合上，任何參與人單獨改變策略都不會獲得好處。換句話說，若是在一個策略組合上，當全部其餘人都不改變策略時，沒有人會改變本身的策略，則該策略組合就是一個納什均衡。blog

數學定義
納什均衡的定義：在博弈G=﹛S1,…,Sn：u1,…，un﹜中，若是由各個博弈方的各一個策略組成的某個策略組合（s1*,…，sn*）中，任一博弈方i的策略si*，都是對其他博弈方策略的組合（s1*,…s*i-1,s*i+1,…，sn*）的最佳對策，也即ui（s1*,…s*i-1,si*,s*i+1,…，sn*）≥ui（s1*,…s*i-1,sij*,s*i+1,…，sn*）對任意sij∈Si都成立，則稱（s1*,…，sn*）爲G的一個納什均衡。排序

注：經濟學定義從字面上仍是相對比較好理解的；這裏稍微解釋一下數學定義，博弈論也稱Game Theory，一場博弈用G表示，Si表示博弈方i的策略，ui表示收益。所以，納什均衡的意思是：任何一方採起的策略都是對其他全部方採起策略組合下的最佳對策；當全部其餘人都不改變策略時，爲了讓本身的收益最大，任何一方都不會（或者沒法）改變本身的策略，這個時候的策略組合就是一個納什均衡。遊戲

納什證實了在每一個參與者都只有有限種策略選擇、並容許混合策略的前提下，納什均衡必定存在。以兩家公司的價格大戰爲例，納什均衡意味着兩敗俱傷的可能：在對方不改變價格的條件下，既不能提價，不然會進一步喪失市場；也不能降價，由於會出現賠本甩賣。因而兩家公司能夠改變原先的利益格局，經過談判尋求新的利益評估分攤方案，也就是Nash均衡。相似的推理固然也能夠用到選舉，羣體之間的利益衝突，潛在戰爭爆發前的僵局，議會中的法案爭執等。圖片

納什均衡案例

如下介紹幾個經典的納什均衡案例[2][4]，由於本文主要是以科普爲主，因此案例不會涉及到複雜深奧的經濟學問題（事實上，我也不懂，哈~）。get

（1）囚徒困境

假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不一樣的兩個房間內進行審訊，對每個犯罪嫌疑人，警方給出的政策是：若是一個犯罪嫌疑人坦白了罪行，交出了贓物，因而證據確鑿，兩人都被判有罪。若是另外一個犯罪嫌疑人也做了坦白，則兩人各被判刑8年；若是另外一個犯罪嫌人沒有坦白而是抵賴，則以妨礙公務罪（因已有證據代表其有罪）再加刑2年，而坦白者有功被減刑8年，當即釋放。若是兩人都抵賴，則警方因證據不足不能判兩人的偷竊罪，但能夠私入民宅的罪名將兩人各判入獄1年。

此時產生了兩個嫌疑人之間的一場博弈：

表中的數字表示A，B各自的判刑結果。博弈論分析中通常都用這樣的表來表示。

該案例，顯然最好的策略是雙方都抵賴，結果是你們都只被判1年。可是因爲兩人處於隔離的狀況，首先應該是從心理學的角度來看，當事雙方都會懷疑對方會出賣本身以求自保、其次纔是亞當·斯密的理論，假設每一個人都是「理性的經濟人」，都會從利己的目的出發進行選擇。這兩我的都會有這樣一個盤算過程：假如他坦白，若是我抵賴，得坐10年監獄，若是我坦白最多才8年；假如他要是抵賴，若是我也抵賴，我就會被判一年，若是我坦白就能夠被釋放，而他會坐10年牢。綜合以上幾種狀況考慮，無論他坦白與否，對我而言都是坦白了划算。兩我的都會動這樣的腦筋，最終，兩我的都選擇了坦白，結果都被判8年刑期。

注：亞當·斯密的理論（「看不見的手」原理），在市場經濟中，每個人都從利己的目的出發，而最終全社會達到利他的效果。可是咱們能夠從「納什均衡」中引出「看不見的手」原理的一個悖論：從利己目的出發，結果損人不利己，既不利己也不利他。

（2）智豬博弈

豬圈裏有兩頭豬，一頭大豬，一頭小豬。豬圈的一邊有個踏板，每踩一下踏板，在遠離踏板的豬圈的另外一邊的投食口就會落下少許的食物。若是有一隻豬去踩踏板，另外一隻豬就有機會搶先吃到另外一邊落下的食物。當小豬踩動踏板時，大豬會在小豬跑到食槽以前恰好吃光全部的食物；如果大豬踩動了踏板，則還有機會在小豬吃完落下的食物以前跑到食槽，爭吃到另外一半殘羹。

那麼，兩隻豬各會採起什麼策略？答案是：小豬將選擇「搭便車」策略，也就是舒舒服服地等在食槽邊；而大豬則爲一點殘羹不知疲倦地奔忙於踏板和食槽之間。

緣由何在？由於，小豬踩踏板將一無所得，不踩踏板反而能吃上食物。對小豬而言，不管大豬是否踩動踏板，不踩踏板老是好的選擇。反觀大豬，已明知小豬是不會去踩動踏板的，本身親自去踩踏板總比不踩強吧，因此只好親力親爲了。

（3）普通範式博弈

GOO公司和SAM公司是某手機產品生態的兩大重量級參與者，雙方在產業鏈的不一樣位置上各司其職且關係曖昧，有時也每每因商業利益和產品影響力的爭奪而各懷異心。兩者的收益也隨着博弈的變化而不斷更替。

上圖表格模擬了兩家公司的博弈現狀，雙方各有兩個可選策略「合做」與「背叛」，格中的四組數據表示四個博弈結局的分數（收益），每組數據的第一個數字表示GOO公司的收益，後一個數字表示SAM公司的收益。

博弈是同時進行的，一方參與者必須站在對方的角度上來思考我方的策略選擇，以追求收益最大化。這在博弈論裏稱做Putting yourselves into other people’s shoes。

如今咱們以GOO公司爲第一人稱視角來思考應對SAM公司的博弈策略。假如SAM公司選擇合做，那麼我方也選擇合做帶來的收益是3，而我方選擇背叛帶來的收益是5，基於理性的收益最大化考慮，我方應該選擇背叛，這叫嚴格優點策略；假如SAM公司選擇背叛，那麼我方選擇合做帶來的收益是-3，而選擇背叛帶來的收益爲-1，爲使損失降到最低，我方應該選擇背叛。最後，GOO公司的分析結果是，不管SAM公司選擇合做仍是背叛策略，我方都必須選擇背叛策略才能得到最大化的收益。

同理，當SAM公司也以嚴格優點策略來應對GOO公司的策略選擇時，咱們重複上述分析過程，就能得出結論：不管GOO公司選擇合做仍是背叛策略，SAM公司都必須選擇背叛策略才能得到最大化收益。

最後咱們發現，本次博弈的雙方都採起了背叛策略，各自的收益都爲-1，這是一個比較糟糕的結局，儘管對任何一方來講都不是最糟糕的那種。這種局面就是著名的「囚徒困境」。

可是，博弈的次數每每不止一次，就像COO與SAM公司雙方的商業往來也許會有不少機會。當兩者經歷了屢次背叛策略的博弈以後，發現公式上還有一個（3，3）收益的共贏局面，這比（-1，-1）的收益結果顯然要好不少，所以兩者在以後的博弈過程當中必然會嘗試互建信任，從而驅使雙方都選擇合做策略。

這裏有一個理想化假設，那就是假設雙方都知道博弈次數是無限的話，也就是說雙方的商業往來是無止盡的，那麼兩者的策略都將持續選擇合做，最終的博弈收益將定格在（3，3），這就是一個納什均衡。既然博弈次數是無限的，那麼任何一方都沒有理由選擇背叛策略去冒險追求5點短暫收益，而招致對方在下一輪博弈中的報復（這種報復在博弈論裏稱做「以牙還牙」策略）。

還有另外一種假設狀況是，假使雙方都知道博弈次數是有限的，也許下一次博弈就是最後一次，那麼爲了不對方在最後一輪博弈中選擇背叛策略而使我方遭受-3的收益損失，因而雙方都從新採起了背叛的策略選擇，最後的博弈結果又回到了（-1，-1），這就造成了第二個納什均衡。

因而可知，隨着次數（博弈性質）的變化，納什均衡點也並不是惟一。

（4）餓獅博弈

假設有A、B、C、D、E、F六隻獅子（強弱從左到右依次排序）和一隻綿羊。假設獅子A吃掉綿羊後就會打盹午睡，這時比A稍弱的獅子B就會趁機吃掉獅子A，接着B也會午睡，而後獅子C就會吃掉獅子B，以此類推。那麼問題來了，獅子A敢不敢吃綿羊？

爲簡化說明，咱們先給出此題的解法。該題須採用逆向分析法，也就是從最弱的獅子F開始分析，依次前推。假設獅子E睡着了，獅子F敢不敢吃掉獅子E？答案是確定的，由於在獅子F的後面已沒有其它獅子，因此獅子F能夠放心地吃掉午睡中的獅子E。

繼續前推，既然獅子E睡着會被獅子F吃掉，那麼獅子E必然不敢吃在他前面睡着的獅子D。

再往前推，既然獅子E不敢吃掉獅子D，那麼D則能夠放心去吃午睡中的獅子C。依次前推，得出C不吃，B吃，A不吃。因此答案是獅子A不敢吃掉綿羊。

推理結果以下圖：

可是，若是咱們在獅子F的後面增長了一隻獅子G，總數變成7只，用逆向分析法按照上題步驟再推一次，很容易得出結論：獅子G吃，獅子F不吃，E吃，D不吃，C吃，B不吃，A吃。此次的答案變成了獅子A敢吃掉綿羊。

對比兩次博弈咱們發現，獅子A敢不敢吃綿羊取決於獅子總數的奇偶性，總數爲奇數時，A敢吃掉綿羊；總數爲偶數時，A則不敢吃。所以，總數爲奇數和總數爲偶數的獅羣博弈結果造成了兩個穩定的納什均衡點。

（5）硬幣正反

你正在圖書館枯坐，一位陌生美女主動過來和你搭訕，並要求和你一塊兒玩個數學遊戲。美女提議：「讓咱們各自亮出硬幣的一面，或正或反。若是咱們都是正面，那麼我給你3元，若是咱們都是反面，我給你1元，剩下的狀況你給我2元就能夠了。」那麼該不應和這位姑娘玩這個遊戲呢？

每一種遊戲依具其規則的不一樣會存在兩種納什均衡，一種是純策略納什均衡，也就是說玩家都可以採起固定的策略(好比一直出正面或者一直出反面)，使得每人都賺得最多或虧得最少；或者是混合策略納什均衡，而在這個遊戲中，便應該採用混合策略納什均衡。

假設咱們出正面的機率是x，反面的機率是1-x，美女出正面的機率是y，反面的機率是1-y。爲了使利益最大化，應該在對手出正面或反面的時候咱們的收益都相等，由此列出方程就是

3x + (-2)(1-x)=(-2) * x + 1*( 1-x )——解方程得x=3/8；一樣，美女的收益，列方程-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)——解得y也等於3/8。

因而，咱們就能夠算美女每次的指望收益是： （1-y）(2x-(1-x)) + y(-3x+2(1-x)) = 1/8元，也就是說，雙方都採起最優策略的狀況下，平均每次美女贏1/8元。

其實只要美女採起了(3/8,5/8)這個方案，不論你再採用什麼方案，都是不能改變局面的。若是所有出正面，每次的指望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元；若是所有出反面，每次的指望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。好比你用徹底隨機（1/2，1/2）策略，收益是1/2(3/8 * 3 + 5/8 * (-20)) + 1/2(3/8 * (-2) + 5/8 * 1) = -1/8；實際上，不論你用什麼策略，你的收益都是-1/8，也就是說，隨便玩一種策略，你都是在納什均衡狀態中的，因此，這個把戲你隨便怎麼玩，都是虧的。

如下一段補充說明（補充於2017年5月30日端午節，你們端午快樂！）：
這個例子中是沒有純戰略納什均衡的，由於只出一種策略，確定有一方要虧錢，因此並非其均衡狀態（明明只要換一邊就能夠賺錢了，因此不是最佳策略）；而混合納什均衡是純在的，事實上，Nash告訴咱們「每一個參與者都只有有限種策略選擇、並容許混合策略的前提下，納什均衡必定存在」，若是美女出(3/8,5/8)這個方案，另外一邊任何玩法都是指望收益同樣的，也就知足了納什均衡的條件。

納什均衡分類

最後講一講納什均衡的分類。納什均衡能夠分紅兩類：「純戰略納什均衡」和「混合戰略納什均衡」。

要說明純戰略納什均衡和混合戰略納什均衡，要先說明純戰略和混合戰略。所謂純戰略是提供給玩家要如何進行賽局的一個完整的定義。特別地是，純戰略決定在任何一種狀況下要作的移動。戰略集合是由玩家可以施行的純戰略所組成的集合。而混合戰略是對每一個純戰略分配一個機率而造成的戰略。混合戰略容許玩家隨機選擇一個純戰略。混合戰略博弈均衡中要用機率計算，由於每一種策略都是隨機的，達到某一律率時，能夠實現支付最優。由於機率是連續的，因此即便戰略集合是有限的，也會有無限多個混合戰略。

固然，嚴格來講，每一個純戰略都是一個「退化」的混合戰略，某一特定純戰略的機率爲 1，其餘的則爲 0。
故「純戰略納什均衡」，即參與之中的全部玩家都玩純戰略；而相應的「混合戰略納什均衡」，之中至少有一位玩家玩混合戰略。並非每一個賽局都會有純戰略納什均衡，例如「錢幣問題」就只有混合戰略納什均衡，而沒有純戰略納什均衡。不過，仍是有許多賽局有純戰略納什均衡（如協調賽局，囚徒困境和獵鹿賽局）。甚至，有些賽局能同時有純戰略和混合戰略均衡。

參考資料

[1] http://baike.baidu.com/view/52630.htm，百度百科：約翰·納什
[2] http://baike.baidu.com/view/28460.htm，百度百科：納什均衡
[3] 高鴻業．西方經濟學（微觀部分）第五版：人民大學出版社，2011：292-296
[4] http://www.vccoo.com/v/7074d4，通常人也能看懂的納什均衡案例

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。