信息論的知識點

要點

  • 熵:$H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(x)]$
  • 相對熵:$D_{p||g}=E[\log\frac{p(x)}{g(x)}]\geqslant 0$。
  • 互信息:$I(X;Y)=\sum_{x,y} P(x,y) \log \frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
  • 漸進均分性質 AEP:$\frac{1}{n}\log(x_1,...,x_n)\to H(X)$
  • 數據壓縮:$H(X)\leqslant H(X)+1$
  • 信道容量:$C=max_{p(x)} I(X;Y)$
  • 數據傳輸:R<C,能夠漸進達到無差錯的通訊。
  • 高斯信道容量:$C=\frac{1}{2}\log(1+\frac{P}{N})$
  • 率失真:$R(D)=\min I(X,\hat{X})\,where\,E_{p(x)p(\hat{x}|x)}d(X;\hat{X})\leqslant D$
  • Kolmogorov 複雜度:$K(x)=\min_{U(p)=x} l(p)$
  • 普適機率:$-\log P_U(x)=K(x)$
  • 投資增加率:$W^*=\max_{b^*}E[\log b^tX]$

基礎

  • 信息量:$-\log p(x)$
  • 機率分佈P的香農熵:$H(p)=E_{X\sim p}[I(X)]=-E_{X\sim p}[\log p(x)]=H(X)$,單調、非負、可加的泛函,凹函數。
  • 條件熵:$H(Y|X) = -\sum_{x,y}p(x,y) \log \frac {p(x,y)} {p(x)}$
  • 聯合熵:$H(X,Y) = -\sum_{x,y}p(x,y) \log {p(x,y)} = H(X) + H(Y|X)$
  • KL距離、相對熵:$D_{KL}(p||q)=E_{X\sim P}[\log \frac{p(x)}{q(x)}]$半正定,對稱性,可逆變換下不變性,凸函數。
  • 互信息:$I(X;Y)=\sum_{x,y} p(x,y) \log \frac {p(x,y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))=H(X)-H(X|Y)=H(Y)-H(Y|X)$。非負、對稱性、可逆變換下不變性。
  • 條件做用使熵減小:$H(X|Y)\leqslant H(X)$
  • $D(p||q)\geqslant 0\Rightarrow H(X)\leqslant\log|X|$
  • 最大熵原則:選擇具備最大熵的機率分佈。對於給定的方差,高斯分佈具備最大熵$\max_{EXX'=K}h(X)=\frac{1}{2}\log({2\pi e})^n|K|$
  • 估計偏差與微分熵$E(x-\hat{X})^2\geqslant\frac{1}{2\pi e} e^{2h(X)}$

鏈式法則

  • 熵:$H(X_1,...,X_n)=\sum_{i=1}^nH(X_i|X_{i-1},...,X_1)$
  • 相對熵:$D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))$
  • 互信息:$H(X_1,...,X_n;Y)=\sum_{i=1}^nI(X_i;Y|X_{i-1},...,X_1)$

不等式

  • Jensen: if f is convex, $f(EX)\leqslant Ef(x)$
  • 對數和不等式:$\sum a_i\log\frac{a_i}{b_i}\geqslant(\sum a_i)\log \frac{\sum a_i}{\sum b_i}$
  • 交叉熵:$H(p,q)=E_{X\sim p}[\log q(x)]=H(p)+D_{KL}(p||q)$
  • 數據處理不等式:$X\to Y\to Z\Rightarrow I(X;Y)\geqslant I(X;Z)$。若是等號成立,稱Y爲X的充分統計量。
  • 費諾不等式:對於任何知足$X\to Y\to \hat{X},P_e=P\{X\neq \hat{X}\}$ $$H(P_e)+P_e\log |X|\geqslant H(X|\hat{X})\geqslant H(X|Y)$$
  • $X,X',i.i.d\Rightarrow P(X=X')\geqslant 2^{-H(X)}$
  • 馬爾可夫不等式$\Rightarrow$
  • 切比雪夫不等式,弱大數定律$$P\{X\geqslant t\}\leqslant\frac{E[X]}{t}\Rightarrow P\{|Y-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{\epsilon^2}, P\{|\bar{Z}_n-\mu|\geqslant \epsilon\}\leqslant\frac{\sigma^2}{n\epsilon^2}$$

最大熵分佈

最大熵分佈:設f爲機率密度函數,且知足$\int_Sf(x)r_i(x)=\alpha_i$。令$f^*(x)=f_\lambda(x)=exp(\lambda_0+\sum_i\lambda_ir_i)$,選擇$\lambda_i$知足約束,則$f^*$爲惟一使得$h(f)$達到最大值的分佈函數。算法

[Burg最大熵]知足$E[X_iX_{i+k}]=\alpha_k$的最大熵率隨機過程爲p階的高斯-馬爾可夫過程$X_i=-\sum_ka_kX_{i-k}+Z_i,Z_i\sim N(0,\sigma^2),a_k$經過Yule-Walker方程組獲得。網絡

最大熵密度估計:若是隨機過程的熵率能夠被知足自相關約束條件$R(p)$的p階0均值的高斯-馬爾可夫過程最大化,那麼最大熵率是$$h^*=\frac{1}{2}log(2\pi e)|\frac{K_p}{K_{p-1}}|$$最大熵譜密度爲$$S(\lambda)=\frac{\sigma^2}{|1+\sum_kq_ke^{-ik\lambda}|^2}$$閉包

漸進均分性AEP

$AEP:X_i\sim p(x)爲i.i.d序列,則-\frac{1}{n}\log p(X_1,...,X_n)\to H(X)$分佈式

典型集:$$A_\epsilon^{(n)}=\{x^n:-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon\}$$ $$(1-\epsilon)2^{n(H(X)-\epsilon)}\leqslant |A_\epsilon^{(n)}|\leqslant 2^{n(H(X)+\epsilon)}$$函數

聯合典型集:$$A_\epsilon^{(n)}=\{(x^n,y^n)\in(X^n,X^n):|-\frac{1}{n}\log p(x^n)-H(X)|\leqslant \epsilon,|-\frac{1}{n}\log p(y^n)-H(Y)|\leqslant \epsilon,|-\frac{1}{n}\log p(x^n,y^n)-H(X,Y)|\leqslant \epsilon\}$$ $$|A_\epsilon^{(n)}|\leqslant 2^{n(H(X,Y)+\epsilon)},P((X^n,Y^n)\in A_\epsilon^{(n)})\leqslant 2^{-n(I(X;Y)-3\epsilon)}$$編碼

壓縮:$X^n\sim p(x)爲i.i.d序列,則存在一個編碼,對於充分大的n,有E[\frac{1}{n}l(X^n)]\leqslant H(X)+\epsilon$orm

一階指數意義相等:$a\doteq b\iff \lim_{n\to\infty}\frac{1}{n}\log\frac{a_n}{b_n}=0$排序

最小几率集:$X_i\sim p(x)爲i.i.d序列,則對於\delta<\frac{1}{2},設B_\delta^{(n)}\subset X^n$是使$P\{B_\delta^{(n)}\}\geqslant 1-\delta$成立的最小集合,則$|B_\delta^{(n)}|\doteq |A_\epsilon^{(n)}| \doteq 2^{nH}$it

隨機過程的熵

隨機過程的熵率:$H(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_1,...,X_n)$io

平穩隨機過程的熵率:$H(\chi)=H'(\chi)=\lim_{n\to\infty}\frac{1}{n}H(X_n|X_1,...,X_{n-1})$

Cesaro均值:$a_n\to a\wedge b_n=\frac{1}{n}\sum a_i\Rightarrow b_n\to a$

平穩馬爾可夫鏈的熵率:$H(\chi)=H(X_2|X_1)=\sum_{i,j}\mu_iP_{ij}\log P_{ij}$

$X_i$爲平穩馬爾可夫鏈,且$Y_i=\Phi(X_i)$,那麼$H(Y_n|Y_{n-1},...,Y_1,X_1)\leqslant H(Y)\leqslant H(Y_n|Y_{n-1},...,Y_1)$,而且$\lim H(Y_n|Y_{n-1},...,Y_1,X_1)=H(Y)=\lim H(Y_n|Y_{n-1},...,Y_1,X_1)$

熱力學第二定律

  • 相對熵$D(\mu||\mu')$隨$n$遞減。
  • 如平穩分佈爲均勻分佈,則熵增長
  • 對於平穩的馬爾可夫過程,條件熵$H(X_n|X_1)$隨$n$遞增。

統計學

序列$x_n\in X$的型:$\forall a,P_x(a)=N(a|x)/N$

序列$x_n\in X$的型類:$$T(P)=\{x\in X^n:P_x=P\},\frac{1}{(n+1)^{|X|}}2^{nH(P)}\leqslant|T(P)|\leqslant 2^{nH(P)}$$

$X_n\sim Q(X)爲i.i.d$,則$$Q^n(x)=2^{-n(H(P_x)+D(P_x||Q)},\frac{1}{(n+1)^{|X|}}2^{-nD(P||Q)}\leqslant|T(P)|\leqslant 2^{-nD(P||Q)}$$

信源與信道

數據壓縮

  • 信源編碼$C:X\to D^*,L(C)=\sum_{x\in X}p(x)l(x)$
  • 非奇異:$x\neq x' \Rightarrow C(x)\neq C(x')$
  • 擴展編碼:$C(x_1...x_n)=C(x_1)...C(x_n)$
  • 惟一可譯:擴展編碼非奇異。
  • 前綴碼:無任何碼字是其它碼字的前綴。Kraft不等式:$\sum_iD^{-l_i}\leqslant 1$,$l_i$爲碼字長度,$D$爲字母個數。
  • $\sum_iD^{-l_i}\leqslant 1, L=\sum p_il_i\Rightarrow H_D(X) \leqslant L\wedge L^*< H_D(X)+1$
  • 碼長分配:$l(x)=\left \lceil \frac{1}{q(x)} \right \rceil$關於$p(x)$的指望碼長知足:$H_D(X)+D(p||q) \leqslant E_pl(X)< H_D(X)+D(p||q)+1$
  • 哈夫曼碼:按照機率排序分配碼字。最優性:$L(C^*)\leqslant L(C')$
  • SFL編碼:$\left \lfloor\sum_{a<x}p(a) +\frac{1}{2}p(x) \right \rfloor_{l(x)}$
  • 競爭最優性:$l(x)=\left \lceil \frac{1}{p(x)} \right \rceil\Rightarrow\forall l'(P[l(X)\geqslant l'(X)+c])\leqslant 2^{1-c}$

信道容量

離散信道:輸入字母表$X$,輸出字母表$Y$,機率轉移矩陣$p(y|x)$。信道容量:可區別信號數目的對數值,或者可達碼率的上確界$$C=\max_{p(x)}I(X;Y)$$

$(M,n)$碼:下標集$\{1,...,M\}$,編碼函數$X^n:{M}\to X$,譯碼函數$g:Y\to {M}$。條件偏差機率:$\lambda_i=\sum_yp(y|X^n(i))I(g(y)\neq i)$。平均偏差機率:$P_e^{(n)}=\frac{1}{M}\sum\lambda_i$。碼率:$R=\frac{\log M}{n}$

信道編碼定理:對於離散無記憶信道$DMC$,小於信道容量$C$的全部碼率都是可達的。對於任意碼率$R<C,\exists (2^{nR},n),\lambda^{(n)}\to 0$。反之亦然。

信源信道定理:若是隨機過程的熵率$H>C$,則該過程不可能經過$DMC$可靠傳輸。若是知足$AEP,H<C$,則傳輸可靠。

高斯信道:$Y_i=X_i+Z_i,Z_i\sim N(0,N)$,噪聲$Z_i$與信號$X_i$相互獨立。
功率限制$\frac{1}{n}\sum_{i=1}^nx_i^2\leqslant P$。
信道容量:$$C=\max_{f(x):E[X^2]\leqslant P}I(X;Y)=\frac{1}{2}\log(1+\frac{P}{N})$$

噪聲譜密度$\frac{N_0}{2}$,帶寬$W$的高斯信道容量:$C=W\log(1+\frac{P}{W})$

  • 並聯k個高斯信道:$C=\sum_i\frac{1}{2}\log(1+\frac{(v-N_i)^+}{N_i}),\sum(v-N_i)^+=nP$
  • 並聯k個,彩色噪聲的高斯信道:$C=\frac{1}{n}\sum_i\frac{1}{2}\log(1+\frac{(v-\lambda_i)^+}{\lambda_i}),\sum(v-\lambda_i)^+=P,\lambda$爲$K$的特徵值。
  • 無反饋容量:$C_n=\max_{tr(K_X)\leqslant nP}\frac{1}{2n}\log\frac{|K_X+K_Z|}{|K_Z|}$

率失真函數

率失真:信源$X\sim p(x)$,率失真度量$d(x,\hat{x})$,率失真函數$$R(D)=\min_{p(\hat{x}|x):\sum_{(x,\hat{x})} p(x)p(\hat{x}|x)d(x,\hat{x})\leqslant D}I(X;\hat{X})$$

  • 伯努利信源:$R(D)=H(p)-H(D)$
  • 高斯信源:$\frac{1}{2}\log\frac{\sigma^2}{D}$

率失真定理:若是$R>R(D)$,則存在碼字數目爲的碼序列,使得。若$R<R(D)$,則碼序列不存在。

信道容量與率失真函數的EM算法:$$R(D)=\min_{p\in A}\min_{q(\hat{x})\in B}D(p||q)$$

網絡信息論

  • 多接入信道:$X_1,X_2,Y,p(y|x_1,x_2)$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$R_1<I(X_1;Y|X_2),R_2<I(X_2;Y|X_1),R_1+R_2<I(X_1,X_2;Y)$$
  • 高斯多接入信道:$R_1\leqslant C(\frac{P_1}{N}),R_2\leqslant C(\frac{P_2}{N}),R_1+R_2\leqslant C(\frac{P_1+P_2}{N}),C(x)=\frac{1}{2}\log(1+x)$
  • 分佈式信源編碼:$R_1\geqslant H(X|Y),R_2\geqslant H(Y|X),R_1+R_2\geqslant H(X,Y)$。利用$H(Y|X)$對Y編碼,由於與X構成典型序列的Y並很少。
  • 退化廣播信道:$X\to Y_1\to Y_2$。容量區域爲知足下面條件的$(R_1,R_2)$的凸閉包。$$\exists p(u)p(x|u)p(y_1,y_2|x)\Rightarrow R_2\leqslant I(U;Y_2),R_1\leqslant I(X;Y_1|U),|U|\leqslant min(|X|,|Y_1|,|Y_2|)$$
  • 物理退化中繼信道:$p(y,y_1|x,x_1)$的容量$$C=\sup_{p(x,x_1)}\min\{I(X,X_1;Y),I(X;Y_1|X_1) \}$$
  • 具備邊信息的信源編碼,設$(X,Y)\sim p$,碼率爲$R_1,R_2$,X能夠任意小的偏差機率恢復$\iff \exists p(y,u), X\to Y\to U\Rightarrow R_2\geqslant I(U;Y),R_1\geqslant H(X|U)$
  • 具備邊信息的率失真,設$(X,Y)\sim p$ $$ R_Y(D)=\min_{p(w|x)}\min_{f:Y\times W\to X}I(X;W)-I(Y;W)$$

參考文獻

  • Thomas M. Cover, etal, Elements of Information Theory, Second Edition, John Wiley & Sons, Inc.
相關文章
相關標籤/搜索