要點
- 熵:$H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(x)]$
- 相對熵:$D_{p||g}=E[\log\frac{p(x)}{g(x)}]\geqslant 0$。
- 互信息:$I(X;Y)=\sum_{x,y} P(x,y) \log \frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
- 漸進均分性質 AEP:$\frac{1}{n}\log(x_1,...,x_n)\to H(X)$
- 數據壓縮:$H(X)\leqslant H(X)+1$
- 信道容量:$C=max_{p(x)} I(X;Y)$
- 數據傳輸:R<C,能夠漸進達到無差錯的通訊。
- 高斯信道容量:$C=\frac{1}{2}\log(1+\frac{P}{N})$
- 率失真:$R(D)=\min I(X,\hat{X})\,where\,E_{p(x)p(\hat{x}|x)}d(X;\hat{X})\leqslant D$
- Kolmogorov 複雜度:$K(x)=\min_{U(p)=x} l(p)$
- 普適機率:$-\log P_U(x)=K(x)$
- 投資增加率:$W^*=\max_{b^*}E[\log b^tX]$
基礎
熵
- 信息量:$-\log p(x)$
- 機率分佈P的香農熵:$H(p)=E_{X\sim p}[I(X)]=-E_{X\sim p}[\log p(x)]=H(X)$,單調、非負、可加的泛函,凹函數。
- 條件熵:$H(Y|X) = -\sum_{x,y}p(x,y) \log \frac {p(x,y)} {p(x)}$
- 聯合熵:$H(X,Y) = -\sum_{x,y}p(x,y) \log {p(x,y)} = H(X) + H(Y|X)$
- KL距離、相對熵:$D_{KL}(p||q)=E_{X\sim P}[\log \frac{p(x)}{q(x)}]$半正定,對稱性,可逆變換下不變性,凸函數。
- 互信息:$I(X;Y)=\sum_{x,y} p(x,y) \log \frac {p(x,y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))=H(X)-H(X|Y)=H(Y)-H(Y|X)$。非負、對稱性、可逆變換下不變性。
- 條件做用使熵減小:$H(X|Y)\leqslant H(X)$
- $D(p||q)\geqslant 0\Rightarrow H(X)\leqslant\log|X|$
- 最大熵原則:選擇具備最大熵的機率分佈。對於給定的方差,高斯分佈具備最大熵$\max_{EXX'=K}h(X)=\frac{1}{2}\log({2\pi e})^n|K|$
- 估計偏差與微分熵$E(x-\hat{X})^2\geqslant\frac{1}{2\pi e} e^{2h(X)}$
鏈式法則
- 熵:$H(X_1,...,X_n)=\sum_{i=1}^nH(X_i|X_{i-1},...,X_1)$
- 相對熵:$D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))$
- 互信息:$H(X_1,...,X_n;Y)=\sum_{i=1}^nI(X_i;Y|X_{i-1},...,X_1)$
不等式
- Jensen: if f is convex, $f(EX)\leqslant Ef(x)$
- 對數和不等式:$\sum a_i\log\frac{a_i}{b_i}\geqslant(\sum a_i)\log \frac{\sum a_i}{\sum b_i}$
- 交叉熵:$H(p,q)=E_{X\sim p}[\log q(x)]=H(p)+D_{KL}(p||q)$
- 數據處理不等式:$X\to Y\to Z\Rightarrow I(X;Y)\geqslant I(X;Z)$。若是等號成立,稱Y爲X的充分統計量。
- 費諾不等式:對於任何知足$X\to Y\to \hat{X},P_e=P\{X\neq \hat{X}\}$ $$H(P_e)+P_e\log |X|\geqslant H(X|\hat{X})\geqslant H(X|Y)$$
- $X,X',i.i.d\Rightarrow P(X=X')\geqslant 2^{-H(X)}$
- 馬爾可夫不等式$\Rightarrow$
- 切比雪夫不等式,弱大數定律$$P\{X\geqslant t\}\leqslant\frac{E[X]}{t}\Rightarrow P\{|Y-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{\epsilon^2}, P\{|\bar{Z}_n-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{n\epsilon^2}$$
最大熵分佈
最大熵分佈:設f爲機率密度函數,且知足$\int_Sf(x)r_i(x)=\alpha_i$。令$f^*(x)=f_\lambda(x)=exp(\lambda_0+\sum_i\lambda_ir_i)$,選擇$\lambda_i$知足約束,則$f^*$爲惟一使得$h(f)$達到最大值的分佈函數。算法
[Burg最大熵]知足$E[X_iX_{i+k}]=\alpha_k$的最大熵率隨機過程爲p階的高斯-馬爾可夫過程$X_i=-\sum_ka_kX_{i-k}+Z_i,Z_i\sim N(0,\sigma^2),a_k$經過Yule-Walker方程組獲得。網絡
最大熵密度估計:若是隨機過程的熵率能夠被知足自相關約束條件$R(p)$的p階0均值的高斯-馬爾可夫過程最大化,那麼最大熵率是$$h^*=\frac{1}{2}log(2\pi e)|\frac{K_p}{K_{p-1}}|$$最大熵譜密度爲$$S(\lambda)=\frac{\sigma^2}{|1+\sum_kq_ke^{-ik\lambda}|^2}$$閉包
漸進均分性AEP
$AEP:X_i\sim p(x)爲i.i.d序列,則-\frac{1}{n}\log p(X_1,...,X_n)\to H(X)$分佈式
典型集:$$A_\epsilon^{(n)}=\{x^n:-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon\}$$ $$(1-\epsilon)2^{n(H(X)-\epsilon)}\leqslant |A_\epsilon^{(n)}|\leqslant 2^{n(H(X)+\epsilon)}$$函數
聯合典型集:$$A_\epsilon^{(n)}=\{(x^n,y^n)\in(X^n,X^n):|-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon,|-\frac{1}{n}\log p(y^n)-H(Y)|\leqslant \epsilon,|-\frac{1}{n}\log p(x^n,y^n)-H(X,Y)|\leqslant \epsilon\}$$ $$|A_\epsilon^{(n)}|\leqslant 2^{n(H(X,Y)+\epsilon)},P((X^n,Y^n)\in A_\epsilon^{(n)})\leqslant 2^{-n(I(X;Y)-3\epsilon)}$$編碼
壓縮:$X^n\sim p(x)爲i.i.d序列,則存在一個編碼,對於充分大的n,有E[\frac{1}{n}l(X^n)]\leqslant H(X)+\epsilon$orm
一階指數意義相等:$a\doteq b\iff \lim_{n\to\infty}\frac{1}{n}\log\frac{a_n}{b_n}=0$排序
最小几率集:$X_i\sim p(x)爲i.i.d序列,則對於\delta<\frac{1}{2},設B_\delta^{(n)}\subset X^n$是使$P\{B_\delta^{(n)}\}\geqslant 1-\delta$成立的最小集合,則$|B_\delta^{(n)}|\doteq |A_\epsilon^{(n)}| \doteq 2^{nH}$it
隨機過程的熵
隨機過程的熵率:$H(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_1,...,X_n)$io
平穩隨機過程的熵率:$H(\chi)=H'(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_n|X_1,...,X_{n-1})$
Cesaro均值:$a_n\to a\wedge b_n=\frac{1}{n}\sum a_i\Rightarrow b_n\to a$
平穩馬爾可夫鏈的熵率:$H(\chi)=H(X_2|X_1)=\sum_{i,j}\mu_iP_{ij}\log P_{ij}$
$X_i$爲平穩馬爾可夫鏈,且$Y_i=\Phi(X_i)$,那麼$H(Y_n|Y_{n-1},...,Y_1,X_1)\leqslant H(Y)\leqslant H(Y_n|Y_{n-1},...,Y_1)$,而且$\lim H(Y_n|Y_{n-1},...,Y_1,X_1)=H(Y)=\lim H(Y_n|Y_{n-1},...,Y_1,X_1)$
熱力學第二定律
- 相對熵$D(\mu||\mu')$隨$n$遞減。
- 如平穩分佈爲均勻分佈,則熵增長
- 對於平穩的馬爾可夫過程,條件熵$H(X_n|X_1)$隨$n$遞增。
統計學
序列$x_n\in X$的型:$\forall a,P_x(a)=N(a|x)/N$
序列$x_n\in X$的型類:$$T(P)=\{x\in X^n:P_x=P\},\frac{1}{(n+1)^{|X|}}2^{nH(P)}\leqslant|T(P)|\leqslant 2^{nH(P)}$$
$X_n\sim Q(X)爲i.i.d$,則$$Q^n(x)=2^{-n(H(P_x)+D(P_x||Q)},\frac{1}{(n+1)^{|X|}}2^{-nD(P||Q)}\leqslant|T(P)|\leqslant 2^{-nD(P||Q)}$$
信源與信道
數據壓縮
- 信源編碼$C:X\to D^*,L(C)=\sum_{x\in X}p(x)l(x)$
- 非奇異:$x\neq x' \Rightarrow C(x)\neq C(x')$
- 擴展編碼:$C(x_1...x_n)=C(x_1)...C(x_n)$
- 惟一可譯:擴展編碼非奇異。
- 前綴碼:無任何碼字是其它碼字的前綴。Kraft不等式:$\sum_iD^{-l_i}\leqslant 1$,$l_i$爲碼字長度,$D$爲字母個數。
- $\sum_iD^{-l_i}\leqslant 1, L=\sum p_il_i\Rightarrow H_D(X) \leqslant L\wedge L^*< H_D(X)+1$
- 碼長分配:$l(x)=\left \lceil \frac{1}{q(x)} \right \rceil$關於$p(x)$的指望碼長知足:$H_D(X)+D(p||q) \leqslant E_pl(X)< H_D(X)+D(p||q)+1$
- 哈夫曼碼:按照機率排序分配碼字。最優性:$L(C^*)\leqslant L(C')$
- SFL編碼:$\left \lfloor\sum_{a<x}p(a) +\frac{1}{2}p(x) \right \rfloor_{l(x)}$
- 競爭最優性:$l(x)=\left \lceil \frac{1}{p(x)} \right \rceil\Rightarrow\forall l'(P[l(X)\geqslant l'(X)+c])\leqslant 2^{1-c}$
信道容量
離散信道:輸入字母表$X$,輸出字母表$Y$,機率轉移矩陣$p(y|x)$。信道容量:可區別信號數目的對數值,或者可達碼率的上確界$$C=\max_{p(x)}I(X;Y)$$
$(M,n)$碼:下標集$\{1,...,M\}$,編碼函數$X^n:{M}\to X$,譯碼函數$g:Y\to {M}$。條件偏差機率:$\lambda_i=\sum_yp(y|X^n(i))I(g(y)\neq i)$。平均偏差機率:$P_e^{(n)}=\frac{1}{M}\sum\lambda_i$。碼率:$R=\frac{\log M}{n}$
信道編碼定理:對於離散無記憶信道$DMC$,小於信道容量$C$的全部碼率都是可達的。對於任意碼率$R<C,\exists (2^{nR},n),\lambda^{(n)}\to 0$。反之亦然。
信源信道定理:若是隨機過程的熵率$H>C$,則該過程不可能經過$DMC$可靠傳輸。若是知足$AEP,H<C$,則傳輸可靠。
高斯信道:$Y_i=X_i+Z_i,Z_i\sim N(0,N)$,噪聲$Z_i$與信號$X_i$相互獨立。
功率限制$\frac{1}{n}\sum_{i=1}^nx_i^2\leqslant P$。
信道容量:$$C=\max_{f(x):E[X^2]\leqslant P}I(X;Y)=\frac{1}{2}\log(1+\frac{P}{N})$$
噪聲譜密度$\frac{N_0}{2}$,帶寬$W$的高斯信道容量:$C=W\log(1+\frac{P}{W})$
- 並聯k個高斯信道:$C=\sum_i\frac{1}{2}\log(1+\frac{(v-N_i)^+}{N_i}),\sum(v-N_i)^+=nP$
- 並聯k個,彩色噪聲的高斯信道:$C=\frac{1}{n}\sum_i\frac{1}{2}\log(1+\frac{(v-\lambda_i)^+}{\lambda_i}),\sum(v-\lambda_i)^+=P,\lambda$爲$K$的特徵值。
- 無反饋容量:$C_n=\max_{tr(K_X)\leqslant nP}\frac{1}{2n}\log\frac{|K_X+K_Z|}{|K_Z|}$
率失真函數
率失真:信源$X\sim p(x)$,率失真度量$d(x,\hat{x})$,率失真函數$$R(D)=\min_{p(\hat{x}|x):\sum_{(x,\hat{x})} p(x)p(\hat{x}|x)d(x,\hat{x})\leqslant D}I(X;\hat{X})$$
- 伯努利信源:$R(D)=H(p)-H(D)$
- 高斯信源:$\frac{1}{2}\log\frac{\sigma^2}{D}$
率失真定理:若是$R>R(D)$,則存在碼字數目爲的碼序列,使得。若$R<R(D)$,則碼序列不存在。
信道容量與率失真函數的EM算法:$$R(D)=\min_{p\in A}\min_{q(\hat{x})\in B}D(p||q)$$
網絡信息論
- 多接入信道:$X_1,X_2,Y,p(y|x_1,x_2)$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$R_1<I(X_1;Y|X_2),R_2<I(X_2;Y|X_1),R_1+R_2<I(X_1,X_2;Y)$$
- 高斯多接入信道:$R_1\leqslant C(\frac{P_1}{N}),R_2\leqslant C(\frac{P_2}{N}),R_1+R_2\leqslant C(\frac{P_1+P_2}{N}),C(x)=\frac{1}{2}\log(1+x)$
- 分佈式信源編碼:$R_1\geqslant H(X|Y),R_2\geqslant H(Y|X),R_1+R_2\geqslant H(X,Y)$。利用$H(Y|X)$對Y編碼,由於與X構成典型序列的Y並很少。
- 退化廣播信道:$X\to Y_1\to Y_2$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$\exists p(u)p(x|u)p(y_1,y_2|x)\Rightarrow R_2\leqslant I(U;Y_2),R_1\leqslant I(X;Y_1|U),|U|\leqslant min(|X|,|Y_1|,|Y_2|)$$
- 物理退化中繼信道:$p(y,y_1|x,x_1)$的容量$$C=\sup_{p(x,x_1)}\min\{I(X,X_1;Y),I(X;Y_1|X_1) \}$$
- 具備邊信息的信源編碼,設$(X,Y)\sim p$,碼率爲$R_1,R_2$,X能夠任意小的偏差機率恢復$\iff \exists p(y,u), X\to Y\to U\Rightarrow R_2\geqslant I(U;Y),R_1\geqslant H(X|U)$
- 具備邊信息的率失真,設$(X,Y)\sim p$ $$ R_Y(D)=\min_{p(w|x)}\min_{f:Y\times W\to X}I(X;W)-I(Y;W)$$
參考文獻
- Thomas M. Cover, etal, Elements of Information Theory, Second Edition, John Wiley & Sons, Inc.