DCT和DFT的關係以及MDCT的推導證明

時間 2020-12-30

原文原文鏈接

背景

DCT是離散餘弦變換的縮寫，由於其變換後具有較高的能量聚集度，通常作爲音視頻編碼的變換去使用。而由於DCT的塊效應，人們發明了很多方法去克服塊效應。例如LOT、MDCT。在aac的編碼中採用時域重疊的MDCT去實現(TDAC)。本博文僅從DFT到DCT的推導以及MDCT的編解碼流程進行講解,力求以數學的推導來闡明過程。

DFT : 離散傅立葉變換. 用於將離散的時域信號轉換到頻域上。
DCT : 離散餘弦變換，也是正交變換。用於將離散的時域信號轉換爲頻域上的信息
MDCT : 改進後的離散餘弦變換. 通過時域重疊來消除混疊。
IMDCT : MDCT的逆變換，時域信號在經過MDCT編碼以及IMDCT解碼後，還原出的並不是原始信號

DFT到DCT的推導

DFT : $\large X(k) = \sum_{n=0}^{N-1} x[n].e^{\frac{-j.2\pi.kn}{N}} \text{ }$
歐拉公式 : $\large e^{-j\theta} = cos\theta + j.sin\theta$

step：

虛部爲0: 觀察DFT變換可得，當其爲實偶信號時，虛部爲0。因爲實偶信號的性質是x(n) = - x(n)，故在將DFT的複數部分拆開後由於其虛部爲奇函數，故實偶信號的虛部將會抵消。
構建實偶信號: 時域信號經抽樣後皆爲實數，而要滿足偶函數的性質需要人爲構造。
假設抽樣後具有從0到N-1的N點離散數字信號，其數學定義爲 $\large x[m] = \{ {x[0],....,x[N-1]} \}$ 。將該序列進行偶延拓，其數學定義更改爲
$\acute{x[m]} = \begin{cases} x[m], & \text{if n belong to \{ {0,..,N-1} \}} \\ x[-m-1], & \text{if n belong to \{ {-N,..,-1} \} } \end{cases}$
$\acute{x[m]}$ 信號如下圖1所示：

再將 $\acute{x[m]}$ 序列整體向右偏移 $\Large\frac{1}{2}$ ，令 $\large\ddot{x[m]}$ 爲 $\large\acute{x[m-\frac{1}{2}]}$ ， $\large\ddot{x[m]}$ 如下圖2所示:
重新推導實偶信號的DFT公式: $\large X(k) = \sum_{m=-N+\frac{1}{2}}^{N-\frac{1}{2}} \ddot{x[m - \frac{1}{2}]}.e^{\frac{-j.2\pi.km}{2N}} \text{ } = 2 *\sum_{m=\frac{1}{2}}^{N-\frac{1}{2}} \ddot{x[m - \frac{1}{2}]}.e^{\frac{-j.2\pi.km}{2N}}$ 令n = m + $\frac{1}{2}$ ,則上式可化爲 $\Large2*\sum_{n=0}^{N-1} \acute{x[n]}.cos(\frac{(n+\frac{1}{2}).k\pi}{N})$
正交變換: 將DCT變換中與x[n]相乘的係數組織成矩陣C,如果該矩陣正交則有 $C.C^{T} = E$ .故將變換核的係數2做變換可得下式: $\Large\sqrt{\frac{2}{N}}.g_k*\sum_{n=0}^{N-1} \acute{x[n]}.cos(\frac{(n+\frac{1}{2}).k\pi}{N}) \tag{1}$
其中 $g_k$ 的數學定義爲:
$\large g_k = \begin{cases} 1/\sqrt{2}, & \text{ k == 0} \\ 1, & \text{ k != 0 } \end{cases}$

MDCT的編解碼流程簡述

  MDCT作爲改進的離散餘弦變換，所以編碼由DCT過渡到MDCT是其本身的優勢的。DCT在二維圖片分量的變換中，其變換系數的高頻分量集中在左上角(轉換矩陣的左上角)，而由於圖片的編碼是將整體圖片切割成一個個小方塊進行編碼轉換，更是造成了相鄰方塊間在轉換之後容易引入噪聲，這就是方塊效應，在視覺上表示爲圖片編碼後相鄰小方塊間的白條。
  而諸如LOT、MDCT採用了TDAC實現的編碼轉換，轉換後的單位抽樣響應是由中間向其兩邊遞減的，如下圖3所示:

故MDCT可以很好的消除方塊效應。
  在MDCT變換中，輸入的離散數字信號長度爲2N，但是經過IMDCT[MDCT[x[n]]]的有效信號長度實則爲N，下圖4能很好的表示出來:

現對上圖4的編解碼流程進行數學推導：

MDCT變換公式：
$\Large X(k) = \frac{2}{N}*\sum_{n=0}^{N-1} x[n].cos[ \frac{2\pi}{N}.(n+\frac{1}{2}+\frac{N}{4}).(k+\frac{1}{2})] \quad \text{k $\in \{0,..,N/2-1\} $}$
在MDCT變換中，由於X(k) == X(N+k)，所以X(k)只有N/2個獨立分量，故k的範圍爲 $\{ 0,..,N/2-1\}$
IMDCT變換公式:
$\Large x(n) = 2*\sum_{k=0}^{\frac{N}{2}-1} X[k].cos[ \frac{2\pi}{N}.(n+\frac{1}{2}+\frac{N}{4}).(k+\frac{1}{2})] \quad \text{n $\in \{0,..,N-1\} $}$
如何從解碼端獲取原始信號:
  假設輸入信號的序列爲 $\large x[n]=\{ x_1,x_2 \}$ ,現證明經過MDCT變換以及IMDCT變換後的輸出信號 $\large y[n]=\{ x_1-\acute{x_1},x_2+\acute{x_2} \}$ , $\large\acute{x_1}$ 爲 $\large x_1$ 的逆序序列,而 $\large\acute{x_2}$ 爲 $\large x_2$ 的逆序序列。
  令輸入的離散信號長度N爲4， $\large x[n]=\{x_0,x_1,x_2,x_3\}$ ,則需證明 $\large y[n] =\{ x_0 - x_1,x_1-x_0,x_2-x_3,x_3-x_2\}$
  令長度N爲4的MDCT變換矩陣爲C，則C的數學定義如下:
$C_k,_n= \begin{bmatrix} C_0,_0 & C_1,_0 \\ C_0,_1 & C_1,_1 \\ C_0,_2 & C_1,_2 \\ C_0,_3 & C_1,_3 \\ \end{bmatrix} ,\quad y[n]=x[n].C.C^T \Longrightarrow \quad y[n]=x[n].(CC^T)$
  再令 $Q = CC^T$ ，且Q爲4*4矩陣，則上述證明轉換爲推導 $Q_0,_0 = 1,Q_0,_1=-1$ 。再N=4的情況下，C表示如下:
$C_k,_n= \begin{bmatrix} cos\frac{3}{8}\pi & cos\frac{9}{8}\pi \\ cos\frac{5}{8}\pi & cos\frac{15}{8}\pi \\ cos\frac{7}{8}\pi & cos\frac{21}{8}\pi \\ cos\frac{9}{8}\pi & cos\frac{27}{8}\pi \\ \end{bmatrix}\quad,\quad cosa.cosb = \frac{cos(a+b) + cos(a-b)}{2}$
   $Q_0,_0=C_0,_0*C_0,_0 + C_1,_0*C_1,_0 \Longrightarrow cos\frac{3}{8}\pi.cos\frac{3}{8}\pi +cos\frac{9}{8}\pi.cos\frac{9}{8}\pi \Longrightarrow 1$
   $Q_0,_1=C_0,_1*C_0,_0 + C_1,_1*C_1,_0 \Longrightarrow cos\frac{5}{8}\pi.cos\frac{3}{8}\pi +cos\frac{15}{8}\pi.cos\frac{9}{8}\pi \Longrightarrow -1$
   $Q_0,_2=C_0,_2*C_0,_0 + C_1,_2*C_1,_0 \Longrightarrow cos\frac{7}{8}\pi.cos\frac{3}{8}\pi +cos\frac{21}{8}\pi.cos\frac{9}{8}\pi \Longrightarrow 0$
   $Q_0,_3=C_0,_3*C_0,_0 + C_1,_3*C_1,_0 \Longrightarrow cos\frac{9}{8}\pi.cos\frac{3}{8}\pi +cos\frac{27}{8}\pi.cos\frac{9}{8}\pi \Longrightarrow 0$

   故
$\large \begin{bmatrix} x_0 & x_1 &x_2 &x_3 \\ \end{bmatrix} * \begin{bmatrix} 1 & C_1,_0 &C_2,_0 &C_3,_0 \\ -1 &C_1,_1 &C_2,_1 &C_3,_1 \\ 0 &C_1,_2 &C_2,_2 &C_3,_2 \\ 0 &C_1,_3 &C_2,_3 &C_3,_3 \\ \end{bmatrix} = \{y_0,y_1,y_2,y_3\}$
   可得 $\large y_0 = x_0 - x_1$ ,後續 $\large y_1$ 的推導讀者可以自證。
   令 $\breve{x_i} =\{ x_i,x_{i+1} \}$ , $\breve{x_{i+1}}=\{x_{i+1},x_{i+2}\}$ ,在MDCT的輸入序列中，當前序列和下個序列的時域重疊爲50%.而 $y_i= IMDCT(MDCT(\breve{x_i})) = \{\ x_i - \acute{x_i},x_{i+1} + \acute{x_{i+1}} \}$ $y_{i+1}= IMDCT(MDCT(\breve{x_{i+1}})) = \{\ x_{i+1} - \acute{x_{i+1}},x_{i+2} + \acute{x_{i+2}} \}$
   再令輸出序列的 $yspan style="height: 0.15em;">$ −xiˊ,xi+1+xi+1ˊ} $y_{i+1}= IMDCT(MDCT(\breve{x_{i+1}})) = \{\ x_{i+1} - \acute{x_{i+1}},x_{i+2} + \acute{x_{i+2}} \}$
   再令輸出序列的 $y_i,y_{i+1}$