從隨機過程的熵率和馬爾科夫穩態過程引出的一些思考 - 人生逃不過一場馬爾科夫穩態

時間 2019-11-05

原文原文鏈接

1. 引言

0x1：人生就是一個馬爾科夫穩態

每一秒咱們都在作各類各樣的選擇，要吃青菜仍是紅燒肉、看電影仍是看書、跑步仍是睡覺，咋一看起來，每個選擇都是隨機的，而人生又是由無數個這樣的隨機選擇組成的結果。從這個前提往下推導，彷佛能夠得出一個結論，即人生是無常的，將來是不可預測的。但事實真的是如此嗎？html

之前的老人流行說一句話，三歲看小，七歲看老。這彷佛是一句充滿迷信主義色彩的俗語，但其實其中暗含了很是質樸而經典的理論依據，即隨機過程無論其轉移機率分佈如何，隨着時序的增大，最終會收斂在某個穩態上。用人話說就是：人在七歲時，其核心性格會定型，在從此的一輩子中，無論其經歷了什麼，最終都會異曲同工，到達同一我的生結局。算法

如今很流行一句話叫，性格決定命運。這句話從不少不一樣的學科中能夠獲得不一樣的解釋，例如現代心理學會說性格的本質就是潛意識，而潛意識影響全部的思想和行爲，進而影響了命運。社會行爲學會說性格決定了你的人際網絡拓樸結構與網絡信息交互率等因素，而成功的人每每是那種同時佔據了多個重要結構洞的關鍵人物，例如國家領導人或者公司高層。用信息論馬爾柯夫隨機過程的理論來解釋就說，每一個人的機率轉移函數在很小的時候就會基本定型，對於每一個人來講，出生、天賦這些都不是相當重要的因素，而相反，決定一我的最終能獲得多少成就的決定因素是你的n，也即你能在多大程度上延伸生命的長度，生命週期n越長，就越容易收斂到一個馬爾科夫穩態，而只要你的底層性格（機率轉移函數）足夠優秀，這個穩態通常也不會差到哪裏去。用現代育兒學的主流觀點就是，對於小孩的教育，素質教育並無那麼重要，而相反，應該更注重性格和人格塑造上的培養。用一句很俗的話來講，就是」起點並不重要，長久的堅持才重要「。網絡

那麼這篇文章中，筆者將嘗試從信息論中隨機過程的相關討論，來逐步分析和論證一下上述這段人生道（糟）理（粕）的底層邏輯。函數

0x2：非i.i.d.獨立同部分狀況下隨機過程的熵如何分佈

在以前的文章中，咱們討論了漸進均分性（AEP），AEP代表在平均意義下使用nH(X)比特足以描述n個i.i.d.獨立同分布的隨機變量。可是，若是隨機變量不獨立，尤爲是隨機變量成爲平穩過程時，狀況又如何呢？優化

在本文中，咱們將證實，對於任意的隨機過程，熵H(X₁，X₂，...，X_n)隨n以速率H(X)（漸進地）線性增長（和i.i.d.同樣），這個速率稱爲過程的熵率。事實上，在物理和計算機科學中，非i.i.d.纔是佔主流的現象，不少事物現象的內部原子狀態之間都不是彼此獨立的，例如語音序列是上下文依賴關聯的，文本序列是先後文文法關聯的等等。url

Relevant Link: spa

《信息論基礎》阮吉壽著 - 第四章

2. 馬爾可夫鏈

0x1：隨機過程

馬爾可夫鏈屬於隨機過程的一種，所以咱們先從隨機過程開始討論起。code

1. 隨機過程的形式化定義

隨機過程{X_i}是一個帶下標的隨機變量序列。通常容許變量間具備任意的相關性。刻畫一個過程須要知道全部有限的聯合機率密度函數：htm

例如N次伯努利實驗獲得的二項分佈序列，就是一個隨機過程，當參數p肯定時，該隨機過程知足一個肯定的機率分佈函數公式。blog

2. 平穩隨機過程

若是隨機變量序列的任何有限子集的聯合分佈關於時間的下標的位移不變，即對於每一個n和位移l，以及任意的x₁，x₂，...，x_n∈X，均知足：

，則稱該隨機過程是平穩的。

平穩過程也能夠叫作穩態系統，這是一個很是重要的概念，在很是多學科和交叉學科中都有相關的概念和理論涉及：

系統科學：系統或者過程（Process theory）的穩態是指其行爲的變數（稱爲狀態變數）不隨時間而變化。
熱力學
經濟學：穩態經濟（Steady state economy）是指一個國家（或城市、區域或全世界）經濟在一個穩定的規模，能夠有穩定的人口以及穩定的消費，並且是在其環境承載力的範圍內。
工程學
通訊："時不變穩態系統"

對於許多系統，系統啓動後須要一段時間纔會進入穩態。進入穩態前的狀態稱爲暫態或啓動階段。例如流過管子的流體會呈現穩態，這表示有持續固定的流體經過，而正在裝水的水槽則是暫態，由於水的體積仍隨時間而變化。

系統經常是以漸近的方式進入穩態。若系統沒法進入穩態，反而發散，這稱爲不檼定的系統。

3. 馬爾科夫過程：一種非獨立隨機過程

一個非獨立隨機過程的簡單例子是隨機序列中的每一個隨機變量僅依賴於它的前一個隨機變量，而條件獨立於其餘更前面的全部隨機變量，這樣的過程稱爲馬爾科夫過程，或馬爾柯夫鏈。

此時，隨機變量的聯合機率密度函數能夠寫成：

4. 時不變馬爾科夫過程：一種非獨立平穩隨機過程

若是條件機率不依賴於n，即對n=1，2，....，有：

，則稱馬爾柯夫鏈是時間不變的。

若無特別說明，總假定馬爾柯夫鏈是時間不變的，在大多數應用場景中，咱們都假定馬爾柯夫鏈是時間不變的。

0x2：馬爾柯夫鏈

1. 馬爾柯夫鏈的表徵定義

若是{X_i}爲馬爾柯夫鏈，則稱X_n爲n時刻的狀態。

一個時間不變的馬爾柯夫鏈徹底由其初始狀態和機率轉移矩陣P=[P_ij]所表徵。其中，i，j∈{1，2，....，m}

2. 馬爾柯夫鏈性質

若馬爾柯夫鏈能夠從任意狀態通過有限步轉移到另外一個任意狀態，且其轉移機率爲正，則稱此馬爾柯夫鏈是不可約的。
若是從一個狀態轉移到它自身的不一樣路徑長度的最大公因子爲1，則稱此馬爾柯夫鏈是非週期的。

3. 平穩馬爾柯夫鏈及其收斂性

若是在時刻n，隨機變量的機率密度函數爲p(x_n)，那麼在n+1時刻，隨機變量的機率密度函數爲：

若在n+1時刻，狀態空間上的分佈於在n時刻的分佈相同，則稱此分佈爲平穩分佈。

若是馬爾科夫鏈的初始狀態服從平穩分佈，那麼該馬爾柯夫鏈爲平穩過程。

如有限狀態馬爾柯夫鏈是不可約和非週期的，則它的平穩分佈惟一，從任意的初始分佈出發，當n->∞時，X_n的分佈一定趨向於此平穩分佈。

Relevant Link:

《信息論基礎》阮吉壽著

3. 熵率

0x1：熵率形式化定義

若是給定一個長度爲n的隨機變量序列，則該序列隨着n增加而增加的熵的速度，稱爲熵率。

當以下極限存在時，隨機過程{X_i}的熵率定義爲：

0x2：熵率的形象化舉例理解

熵率是一個純信息論概念，比較抽象，咱們這小節用具體的例子來講明熵率的現實意義。

以打字機爲例，假定一臺打字機鍵盤上有m個按鍵，即該打字機可輸出m個等可能的字母。由此打字機可產生長度爲n的mⁿ個序列，而且都等可能出現。

所以，，熵率爲H(X) = logm bit/字符。

直觀上能夠這麼理解，由於字符表長度 |X| = m，根據熵的基本性質，H(X) <= log^|X|，因此該打字機每打出一個字，至多產生了log^m的不肯定性，熵率衡量的是理論上隨機過程每一步產生的最大熵。

上升到抽象思考模式，將打字機打出的字符序列看做是一個隨機變量序列X₁，X₂，...，X_n，此時有下式：

及打字機對應的隨機過程的熵率爲H(X₁)，即打出一個字產生的熵值。

0x3：隨機過程熵率極限收斂定理

咱們定義隨機過程熵率的兩個公式

上面二式反映了熵率概念的兩個不一樣方面，第一個量指的是n個隨機變量的每一個字符熵。第二個量指在已知前面n-1隨機變量的狀況下最後一個隨機變量的條件熵。

對於平穩過程來講，以上二者的極限均存在且相等，即，咱們分別來討論。

1. 隨機過程條件熵率極限收斂定理

對於平穩隨機過程，隨n遞減且存在極限

證實：

其中：

條件做用使熵減少這個性質獲得不等號，即新信息的加入會引入熵的減小；
由隨機過程平穩性獲得等號；

所以，是非負且遞減的數列，故其極限存在。

2. 隨機過程熵率收斂於條件熵率定理

上一小節證實了隨機過程的條件熵率收斂於某個肯定值，如今證實隨機過程的熵率也收斂於一樣的值。

藉助數學分析中cesaro均值的定理：

若a_n -> a，且，則b_n -> a。

因爲序列{a_k}中的大部分項最終趨於a，那麼，b_n是{a_k}的前n項的平均，也將最終趨於a。

基於cesaro均值定理，咱們來看隨機過程的熵率公式，由聯合熵的鏈式法則有下式：

上式中，隨機過程的熵率爲條件熵的時間平均，若是條件熵趨於極限，則隨機過程的聯合熵率也一樣趨近於一樣的極限值，即：

3. 熵率對平穩遍歷過程的平均描述長度表徵的泛化能力

研究隨機過程熵率的重要意義體如今平穩遍歷過程的AEP，事實上，對任意的遍歷過程，都有下式：

以機率1收斂，即隨機過程恆收斂。

咱們能夠定義典型集，能夠證實典型集的機率近似爲1，且大約有2^nH(X)個長度爲n的典型序列，其每一個序列出現的機率大約爲2^-nH(X)。

因此，大約使用nH(X)比特可表示長度爲n的典型序列。這體現出熵率能夠表徵平穩遍歷過程的平均描述長度的重要意義。

0x4：馬爾可夫鏈熵率收斂

1. 馬爾柯夫鏈熵率收斂定理形式化描述

對於平穩的馬爾柯夫鏈，熵率爲

其中的條件熵能夠根據給出的平穩分佈計算獲得，注意到，平穩分佈μ爲下列方程組的解：

下面形式化描述馬爾柯夫鏈熵率收斂定理。

設{X_i}爲平穩馬爾柯夫鏈，其平穩分佈爲μ，轉移矩陣爲P，則熵率爲：

2. 兩狀態馬爾柯夫鏈熵率收斂具體例子

考慮兩狀態的一個馬爾柯夫鏈，其機率轉移矩陣爲：

以下圖所示：

設向量μ表示平穩分佈，其份量分別爲狀態1和狀態2的機率。經過解方程μP = μ，便可求得平穩機率，或者更簡便地，利用平衡機率的方法求得。

對於平穩分佈，穿越狀態轉移圖中任意割集的網絡機率流必爲0。將此結論應用於上圖，便可得：

因爲μ1+μ2=1，則平穩分佈爲

若是該馬爾柯夫鏈的初始狀態服從平穩分佈，則導出的過程是平穩的，在n時刻的狀態X_n的熵爲

根據平穩遍歷馬爾柯夫鏈的熵率收斂定理，上式兩狀態馬爾柯夫鏈的熵率爲：

經過這個例子，能夠看到：若馬爾柯夫鏈是不可約的且非週期的，那麼該馬爾柯夫鏈存在狀態空間誰給你的惟一平穩分佈，而且給定任意的初始分佈，當n->∞時，分佈必趨向於此平穩分佈。因爲熵率是依據序列的長期行爲定義的，那麼在此情形下，即便初始分佈不是平穩分佈，熵率也最終會收斂。

3. 加權圖上隨機遊動的熵率：馬爾柯夫鏈熵率收斂的另外一個例子

這個小節，咱們繼續經過一個具體的例子來深刻體會馬爾柯夫鏈的漸進收斂性，理解什麼是穩態隨機過程。

考慮下面這個連通圖上的隨機遊動：

假定圖有m個標記{1，2，....，m}的節點，其中鏈接節點 i 和 j 的邊權重爲 W_ij >= 0。假定此圖是無向的，若節點 i 和 j 沒有鏈接邊，則設W_ij = 0。

如今有一個粒子在圖中由一個節點到另外一個節點做隨機遊動，設隨機遊動的軌跡爲一個序列 {X_n}，X_n∈{1，2，...，m}，若X_n=i，那麼下一個頂點 j 只多是與節點 i 相連的全部節點中的一個，且轉移機率爲鏈接 i 和 j 的邊權重所佔全部與 i 相連的邊的權重之和的比例。所以

設

爲鏈接節點 i 的全部邊權重總和，再設

爲圖中全部的邊權重總和，因此有

，由於該圖是無向圖，因此左式中全部節點都被重複多算了一次。

對於這種狀況，平穩分佈有一個很是簡單的形式，將此馬爾柯夫鏈的平穩分佈設定爲節點 i 的機率是鏈接 i 的各邊權重總和佔圖中全部的邊權重總和的比例，即平穩分佈爲：

經過驗證可證明上述分佈確爲平穩分佈，此時有：

所以，狀態 i 的平穩機率是鏈接節點 i 的各邊權重總和佔圖中全部的邊權重總和的比例。此平穩分佈是個局部性質：由於它僅僅依賴於總權重以及與該節點相連的全部的邊權重之和，於是若改變圖中某些部分的權重，但保持總權重爲常數，平穩分佈不會有所改變。

經過計算，熵率爲：

熵率的這個答案是如此的簡潔，顯然，這個熵率是平均轉移熵。這再次體現了，平穩馬爾柯夫鏈的穩態和初始狀態無關，而僅僅和機率轉移矩陣有關。

同時但願讀者朋友注意的是，隨機遊動也是很是普適泛化的抽象概念，在工程中大量的實際現象均可以抽象爲一個隨機遊動過程，例如：

某個系統指標隨時間的不斷變化，其變更的範圍區間就能夠抽象爲一個隨機遊動
一段文本（例如waf url檢測），將其看作char或者token序列，其不一樣char/token之間的轉換就能夠抽象爲一個隨機遊動，也有不少地方直接叫馬爾柯夫鏈

筆者思考：另外一方面也要注意，在實際工程中應用隨機遊動漸進收斂理論的時候，要注意考察當前面對的問題是否符合」穩態馬爾柯夫過程「這個大前提，即狀態機率轉移矩陣是否隨時間保持不變這個大前提，不少時候，實際問題是一個複雜混沌系統，而狀態轉移矩陣也是隨時間不斷變化的，這些都會致使馬爾柯夫鏈的應用失敗。不少時候，不是算法和理論錯了，是假設前提錯了。

Relevant Link:

《信息論基礎》阮吉壽著 - 第四章

4. 從熱力學第二定律引出馬爾柯夫鏈中不一樣狀態的熵函數之間的關係

0x1：從熱力學第二定律中導出的四條關於系統熵的結論

熱力學第二定律是物理學中的基本定律之一，代表孤立系統的熵老是不減的。在統計熱力學中，熵一般定義爲物理系統的微觀狀態數的對數值，全部單元狀態都是等可能發生的，這與熵的概念是一致的。

咱們將物理孤立系統建模爲一個馬爾柯夫鏈，其中狀態的轉移規律由控制該系統的物理定律所決定。對於這樣的系統，咱們能夠得到關於熱力學第二定律的4種不一樣解釋。

1. 馬爾柯夫鏈狀態空間上不一樣機率分佈之間的相對熵隨狀態n遞減

設μ_n和μ_n^'爲n時刻時，馬爾柯夫鏈狀態空間上的兩個機率分佈，而μ_n+1和μ_n+1^'是時刻n+1時的相應分佈。令對應的聯合機率密度分別記爲p和q，因而有

其中表示馬爾柯夫鏈的機率轉移函數。由相對熵的鏈式法則，可得兩種展開方式：

因爲p和q都由該馬爾柯夫鏈推導而來，因此條件機率密度函數和都等於。

因而，此時，利用的非負性，可得：

或：

所以，對於任何馬爾柯夫鏈，兩個機率密度函數間的距離隨時間n遞減。

2. 馬爾柯夫鏈n時刻的狀態分佈和平穩分佈之間的相對熵隨狀態n遞減

隨着時間的流逝，狀態分佈將會越來越接近於每一個平穩分佈。序列爲單調降低的非負序列，其極限一定存在。

3. 若平穩分佈是均勻分佈，則系統熵不斷增長

熵定理告訴咱們，均勻分佈是最大熵分佈，因此若是馬爾柯夫鏈的穩態是均勻分佈，則整個系統將逐漸收斂到這個最大熵分佈，在收斂的過程當中，總體系統熵也在不斷增大。

若是平穩分佈爲均勻分佈，則能夠將n狀態下機率分佈和平穩分佈之間的相對熵表示以下：

此時，相對熵的單調遞減蘊含了總體系統熵的單增性（和max之間的距離逐漸減少，正說明了當前值在不斷增大）。這個解釋和統計熱力學聯繫很是緊密，其中全部微觀狀態都是等可能發生的

4. 平穩馬爾科夫過程當中初始狀態對當前狀態的條件熵遞增

對於平穩的馬爾科夫過程，條件熵H(X_n|X₁)隨n遞增。若是馬爾科夫過程是平穩的，則將來狀態的條件不肯定性是遞增的。證實過程以下：

0x2：關於馬爾科夫平穩分佈和熵增定理的一些延伸思考

筆者思考1：用經濟學理論來解釋上面的不等式，假定加拿大和英格蘭對於財產從新分配都採用相同的稅收體系。設μ_n和μ_n^'分別表明兩個國家的私人財產分佈，那麼由上述不等式可得一個結論，這兩個國家之間的私人財產分佈的相對熵距離，將隨時間而遞減。假以時日，加拿大和英格蘭的財產分佈狀況將越來越類似。

筆者思考2：從博弈論的角度來解釋上面的不等式，在競爭理論中，博弈論告訴咱們，追上對手最好的方式就是和對手保持一致，對手作什麼，你也作什麼。

一個具體形象化的解釋就是，若是你和你的對手在一個單人帆船比賽中，你和你的對手之間有一段100米的差距，如今你須要找到一種策略，能穩定地縮短你和對手之間的距離。最好的策略是這樣的，你須要牢牢盯着你的對手的一舉一動，他作什麼你也作什麼，他左轉你也左轉，他右轉你也右轉，他落水你也落水，只要你100%地保持和他一致，那麼你和他之間的距離就會逐漸減小。聽起來很匪夷所思，但實際是理論合理的。但這其實只是一種理論策略，在實際狀況中，僅僅追上競爭對手是沒有用的，一味地模仿是沒法真正作到行業老大的，相反，一個好的競爭者須要不斷優化本身的機率轉移函數，使本身的機率轉移函數因爲你的競爭對手，作到了這一步後，經過n步的收斂後，你最終達到的穩態纔有可能超過你的對手。前面說的模仿策略只適合於一些特殊場景，例如你和對手之間實力差距過大須要先進行模仿，或者說你純粹是爲了打壓對手，經過模仿將對手的某一維度（例如創意）的優點磨平，而後經過本身在另外一個維度的優點（例如資金）來碾壓對手，例如TX的遊戲模仿策略。

Relevant Link:

《信息論基礎》阮吉壽著 - 第四章

5. 馬爾柯夫鏈的函數

在以前的文章中，咱們從機率論的角度討論了HMM（隱馬爾可夫模型），這個章節，咱們從新從信息論中馬爾科夫鏈函數的角度，從新審視一下HMM的思想原理。

0x1：馬爾柯夫鏈函數的收斂性討論

設X₁，X₂，...，X_n，....爲平穩馬爾柯夫鏈，是一個隨機過程，其中每一項均爲原馬爾柯夫鏈中對應狀態的函數。

如今問題來了，此時熵率H(Y)是多少？Y序列的收斂性性和收斂值如何評估和計算？

有一個好的想法是，若是給出上界和下界，且它們分別從上下收斂於同一極限，這樣，當上界和下界差異較小時，咱們能夠停止計算而得到極限的一個很好的估計。

已知單調地收斂於H(Y)，對於下界，將使用下面這個引理

證實過程以下：

其中：

（a）成立是由於Y₁爲X₁的函數
（b）成立可由X的馬爾科夫性獲得
（c）成立因爲Yi爲Xi的函數
（d）成立因爲條件做用使熵減少
（e）成立根據馬爾柯夫鏈平穩性獲得

因爲對任意的k，不等式都成立，故兩邊取極限不等式亦成立，因此：

下面引理代表，由上述上界和下界所構成的區間長度是遞減的，也即漸進收斂。

0x2：隱馬爾可夫模型（HMM）

綜合上面定理和引理，咱們有以下定理：

若X₁，X₂，...，X_n構成平穩的馬爾柯夫鏈，且，那麼

且：

通常地，給定馬爾科夫過程X₁，X₂，...，X_n，由此定義新過程Y₁，Y₂，...，Y_n，其中每一個Y_i服從p(y_i | x_i)，且條件獨立於其餘全部的，即

這樣的過程稱爲隱馬爾可夫模型（HMM）。

Relevant Link:

《信息論基礎》阮吉壽著 - 第四章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。