信息論的知識點

時間 2019-11-10

標籤信息論知識简体版

原文原文鏈接

要點

熵：$H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(x)]$
相對熵：$D_{p||g}=E[\log\frac{p(x)}{g(x)}]\geqslant 0$。
互信息：$I(X;Y)=\sum_{x,y} P(x,y) \log \frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
漸進均分性質 AEP：$\frac{1}{n}\log(x_1,...,x_n)\to H(X)$
數據壓縮：$H(X)\leqslant H(X)+1$
信道容量：$C=max_{p(x)} I(X;Y)$
數據傳輸：R<C，能夠漸進達到無差錯的通訊。
高斯信道容量：$C=\frac{1}{2}\log(1+\frac{P}{N})$
率失真：$R(D)=\min I(X,\hat{X})\,where\,E_{p(x)p(\hat{x}|x)}d(X;\hat{X})\leqslant D$
Kolmogorov 複雜度：$K(x)=\min_{U(p)=x} l(p)$
普適機率：$-\log P_U(x)=K(x)$
投資增加率：$W^*=\max_{b^*}E[\log b^tX]$

基礎

熵

信息量：$-\log p(x)$
機率分佈P的香農熵：$H(p)=E_{X\sim p}[I(X)]=-E_{X\sim p}[\log p(x)]=H(X)$，單調、非負、可加的泛函，凹函數。
條件熵：$H(Y|X) = -\sum_{x,y}p(x,y) \log \frac {p(x,y)} {p(x)}$
聯合熵：$H(X,Y) = -\sum_{x,y}p(x,y) \log {p(x,y)} = H(X) + H(Y|X)$
KL距離、相對熵：$D_{KL}(p||q)=E_{X\sim P}[\log \frac{p(x)}{q(x)}]$半正定，對稱性，可逆變換下不變性，凸函數。
互信息：$I(X;Y)=\sum_{x,y} p(x,y) \log \frac {p(x,y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))=H(X)-H(X|Y)=H(Y)-H(Y|X)$。非負、對稱性、可逆變換下不變性。
條件做用使熵減小：$H(X|Y)\leqslant H(X)$
$D(p||q)\geqslant 0\Rightarrow H(X)\leqslant\log|X|$
最大熵原則：選擇具備最大熵的機率分佈。對於給定的方差，高斯分佈具備最大熵$\max_{EXX'=K}h(X)=\frac{1}{2}\log({2\pi e})^n|K|$
估計偏差與微分熵$E(x-\hat{X})^2\geqslant\frac{1}{2\pi e} e^{2h(X)}$

鏈式法則

熵：$H(X_1,...,X_n)=\sum_{i=1}^nH(X_i|X_{i-1},...,X_1)$
相對熵：$D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))$
互信息：$H(X_1,...,X_n;Y)=\sum_{i=1}^nI(X_i;Y|X_{i-1},...,X_1)$

不等式

Jensen: if f is convex, $f(EX)\leqslant Ef(x)$
對數和不等式：$\sum a_i\log\frac{a_i}{b_i}\geqslant(\sum a_i)\log \frac{\sum a_i}{\sum b_i}$
交叉熵：$H(p,q)=E_{X\sim p}[\log q(x)]=H(p)+D_{KL}(p||q)$
數據處理不等式：$X\to Y\to Z\Rightarrow I(X;Y)\geqslant I(X;Z)$。若是等號成立，稱Y爲X的充分統計量。
費諾不等式：對於任何知足$X\to Y\to \hat{X},P_e=P\{X\neq \hat{X}\}$ $$H(P_e)+P_e\log |X|\geqslant H(X|\hat{X})\geqslant H(X|Y)$$
$X,X',i.i.d\Rightarrow P(X=X')\geqslant 2^{-H(X)}$
馬爾可夫不等式$\Rightarrow$
切比雪夫不等式，弱大數定律$$P\{X\geqslant t\}\leqslant\frac{E[X]}{t}\Rightarrow P\{|Y-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{\epsilon^2}, P\{|\bar{Z}_n-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{n\epsilon^2}$$

最大熵分佈

最大熵分佈：設f爲機率密度函數，且知足$\int_Sf(x)r_i(x)=\alpha_i$。令$f^*(x)=f_\lambda(x)=exp(\lambda_0+\sum_i\lambda_ir_i)$，選擇$\lambda_i$知足約束，則$f^*$爲惟一使得$h(f)$達到最大值的分佈函數。算法

[Burg最大熵]知足$E[X_iX_{i+k}]=\alpha_k$的最大熵率隨機過程爲p階的高斯-馬爾可夫過程$X_i=-\sum_ka_kX_{i-k}+Z_i,Z_i\sim N(0,\sigma^2),a_k$經過Yule-Walker方程組獲得。網絡

最大熵密度估計：若是隨機過程的熵率能夠被知足自相關約束條件$R(p)$的p階0均值的高斯-馬爾可夫過程最大化，那麼最大熵率是$$h^*=\frac{1}{2}log(2\pi e)|\frac{K_p}{K_{p-1}}|$$最大熵譜密度爲$$S(\lambda)=\frac{\sigma^2}{|1+\sum_kq_ke^{-ik\lambda}|^2}$$閉包

漸進均分性AEP

$AEP：X_i\sim p(x)爲i.i.d序列，則-\frac{1}{n}\log p(X_1,...,X_n)\to H(X)$分佈式

典型集：$$A_\epsilon^{(n)}=\{x^n:-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon\}$$ $$(1-\epsilon)2^{n(H(X)-\epsilon)}\leqslant |A_\epsilon^{(n)}|\leqslant 2^{n(H(X)+\epsilon)}$$函數

聯合典型集：$$A_\epsilon^{(n)}=\{(x^n,y^n)\in(X^n,X^n):|-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon,|-\frac{1}{n}\log p(y^n)-H(Y)|\leqslant \epsilon,|-\frac{1}{n}\log p(x^n,y^n)-H(X,Y)|\leqslant \epsilon\}$$ $$|A_\epsilon^{(n)}|\leqslant 2^{n(H(X,Y)+\epsilon)},P((X^n,Y^n)\in A_\epsilon^{(n)})\leqslant 2^{-n(I(X;Y)-3\epsilon)}$$編碼

壓縮：$X^n\sim p(x)爲i.i.d序列，則存在一個編碼，對於充分大的n，有E[\frac{1}{n}l(X^n)]\leqslant H(X)+\epsilon$orm

一階指數意義相等：$a\doteq b\iff \lim_{n\to\infty}\frac{1}{n}\log\frac{a_n}{b_n}=0$排序

最小几率集：$X_i\sim p(x)爲i.i.d序列，則對於\delta<\frac{1}{2}，設B_\delta^{(n)}\subset X^n$是使$P\{B_\delta^{(n)}\}\geqslant 1-\delta$成立的最小集合，則$|B_\delta^{(n)}|\doteq |A_\epsilon^{(n)}| \doteq 2^{nH}$it

隨機過程的熵

隨機過程的熵率：$H(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_1,...,X_n)$io

平穩隨機過程的熵率：$H(\chi)=H'(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_n|X_1,...,X_{n-1})$

Cesaro均值：$a_n\to a\wedge b_n=\frac{1}{n}\sum a_i\Rightarrow b_n\to a$

平穩馬爾可夫鏈的熵率：$H(\chi)=H(X_2|X_1)=\sum_{i,j}\mu_iP_{ij}\log P_{ij}$

$X_i$爲平穩馬爾可夫鏈，且$Y_i=\Phi(X_i)$，那麼$H(Y_n|Y_{n-1},...,Y_1,X_1)\leqslant H(Y)\leqslant H(Y_n|Y_{n-1},...,Y_1)$，而且$\lim H(Y_n|Y_{n-1},...,Y_1,X_1)=H(Y)=\lim H(Y_n|Y_{n-1},...,Y_1,X_1)$

熱力學第二定律

相對熵$D(\mu||\mu')$隨$n$遞減。
如平穩分佈爲均勻分佈，則熵增長
對於平穩的馬爾可夫過程，條件熵$H(X_n|X_1)$隨$n$遞增。

統計學

序列$x_n\in X$的型：$\forall a,P_x(a)=N(a|x)/N$

序列$x_n\in X$的型類：$$T(P)=\{x\in X^n:P_x=P\},\frac{1}{(n+1)^{|X|}}2^{nH(P)}\leqslant|T(P)|\leqslant 2^{nH(P)}$$

$X_n\sim Q(X)爲i.i.d$，則$$Q^n(x)=2^{-n(H(P_x)+D(P_x||Q)},\frac{1}{(n+1)^{|X|}}2^{-nD(P||Q)}\leqslant|T(P)|\leqslant 2^{-nD(P||Q)}$$

信源與信道

數據壓縮

信源編碼$C:X\to D^*,L(C)=\sum_{x\in X}p(x)l(x)$
非奇異：$x\neq x' \Rightarrow C(x)\neq C(x')$
擴展編碼：$C(x_1...x_n)=C(x_1)...C(x_n)$
惟一可譯：擴展編碼非奇異。
前綴碼：無任何碼字是其它碼字的前綴。Kraft不等式：$\sum_iD^{-l_i}\leqslant 1$，$l_i$爲碼字長度，$D$爲字母個數。
$\sum_iD^{-l_i}\leqslant 1, L=\sum p_il_i\Rightarrow H_D(X) \leqslant L\wedge L^*< H_D(X)+1$
碼長分配：$l(x)=\left \lceil \frac{1}{q(x)} \right \rceil$關於$p(x)$的指望碼長知足：$H_D(X)+D(p||q) \leqslant E_pl(X)< H_D(X)+D(p||q)+1$
哈夫曼碼：按照機率排序分配碼字。最優性：$L(C^*)\leqslant L(C')$
SFL編碼：$\left \lfloor\sum_{a<x}p(a) +\frac{1}{2}p(x) \right \rfloor_{l(x)}$
競爭最優性：$l(x)=\left \lceil \frac{1}{p(x)} \right \rceil\Rightarrow\forall l'(P[l(X)\geqslant l'(X)+c])\leqslant 2^{1-c}$

信道容量

離散信道：輸入字母表$X$，輸出字母表$Y$，機率轉移矩陣$p(y|x)$。信道容量：可區別信號數目的對數值，或者可達碼率的上確界$$C=\max_{p(x)}I(X;Y)$$

$(M,n)$碼：下標集$\{1,...,M\}$，編碼函數$X^n:{M}\to X$，譯碼函數$g:Y\to {M}$。條件偏差機率：$\lambda_i=\sum_yp(y|X^n(i))I(g(y)\neq i)$。平均偏差機率：$P_e^{(n)}=\frac{1}{M}\sum\lambda_i$。碼率：$R=\frac{\log M}{n}$

信道編碼定理：對於離散無記憶信道$DMC$，小於信道容量$C$的全部碼率都是可達的。對於任意碼率$R<C,\exists (2^{nR},n),\lambda^{(n)}\to 0$。反之亦然。

信源信道定理：若是隨機過程的熵率$H>C$，則該過程不可能經過$DMC$可靠傳輸。若是知足$AEP,H<C$，則傳輸可靠。

高斯信道：$Y_i=X_i+Z_i,Z_i\sim N(0,N)$，噪聲$Z_i$與信號$X_i$相互獨立。
功率限制$\frac{1}{n}\sum_{i=1}^nx_i^2\leqslant P$。
信道容量：$$C=\max_{f(x):E[X^2]\leqslant P}I(X;Y)=\frac{1}{2}\log(1+\frac{P}{N})$$

噪聲譜密度$\frac{N_0}{2}$，帶寬$W$的高斯信道容量：$C=W\log(1+\frac{P}{W})$

並聯k個高斯信道：$C=\sum_i\frac{1}{2}\log(1+\frac{(v-N_i)^+}{N_i}),\sum(v-N_i)^+=nP$
並聯k個，彩色噪聲的高斯信道：$C=\frac{1}{n}\sum_i\frac{1}{2}\log(1+\frac{(v-\lambda_i)^+}{\lambda_i}),\sum(v-\lambda_i)^+=P,\lambda$爲$K$的特徵值。
無反饋容量：$C_n=\max_{tr(K_X)\leqslant nP}\frac{1}{2n}\log\frac{|K_X+K_Z|}{|K_Z|}$

率失真函數

率失真：信源$X\sim p(x)$，率失真度量$d(x,\hat{x})$，率失真函數$$R(D)=\min_{p(\hat{x}|x):\sum_{(x,\hat{x})} p(x)p(\hat{x}|x)d(x,\hat{x})\leqslant D}I(X;\hat{X})$$

伯努利信源：$R(D)=H(p)-H(D)$
高斯信源：$\frac{1}{2}\log\frac{\sigma^2}{D}$

率失真定理：若是$R>R(D)$，則存在碼字數目爲的碼序列，使得。若$R<R(D)$，則碼序列不存在。

信道容量與率失真函數的EM算法：$$R(D)=\min_{p\in A}\min_{q(\hat{x})\in B}D(p||q)$$

網絡信息論

多接入信道：$X_1,X_2,Y,p(y|x_1,x_2)$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$R_1<I(X_1;Y|X_2),R_2<I(X_2;Y|X_1),R_1+R_2<I(X_1,X_2;Y)$$
高斯多接入信道：$R_1\leqslant C(\frac{P_1}{N}),R_2\leqslant C(\frac{P_2}{N}),R_1+R_2\leqslant C(\frac{P_1+P_2}{N}),C(x)=\frac{1}{2}\log(1+x)$
分佈式信源編碼：$R_1\geqslant H(X|Y),R_2\geqslant H(Y|X),R_1+R_2\geqslant H(X,Y)$。利用$H(Y|X)$對Y編碼，由於與X構成典型序列的Y並很少。
退化廣播信道：$X\to Y_1\to Y_2$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$\exists p(u)p(x|u)p(y_1,y_2|x)\Rightarrow R_2\leqslant I(U;Y_2),R_1\leqslant I(X;Y_1|U),|U|\leqslant min(|X|,|Y_1|,|Y_2|)$$
物理退化中繼信道：$p(y,y_1|x,x_1)$的容量$$C=\sup_{p(x,x_1)}\min\{I(X,X_1;Y),I(X;Y_1|X_1) \}$$
具備邊信息的信源編碼，設$(X,Y)\sim p$，碼率爲$R_1,R_2$，X能夠任意小的偏差機率恢復$\iff \exists p(y,u), X\to Y\to U\Rightarrow R_2\geqslant I(U;Y),R_1\geqslant H(X|U)$
具備邊信息的率失真，設$(X,Y)\sim p$ $$ R_Y(D)=\min_{p(w|x)}\min_{f:Y\times W\to X}I(X;W)-I(Y;W)$$

參考文獻

Thomas M. Cover, etal, Elements of Information Theory, Second Edition, John Wiley & Sons, Inc.

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。