再學習了haffman算法以後發現壓縮算法頗有意思,上網查了點資料,這是作好的一篇(主要是我能理解)。前面幾種都能看懂,關鍵是那個LZ77算法。這個是很強大的壓縮算法,zip,rar用得都是這種算法,讓咱們來感嘆下兩個猶太人的強大!!!算法
幾個常見的壓縮算法(轉)
(一) 字典算法
字典算法是最爲簡單的壓縮算法之一。它是把文本中出現頻率比較多的單詞或詞彙組合作成一個對應的字典列表,並用特殊代碼來表示這個單詞或詞彙。例如:
有字典列表:
00=Chinese
01=People
02=China
源文本:I am a Chinese people,I am from China 壓縮後的編碼爲:I am a 00 01,I am from 02。壓縮編碼後的長度顯著縮小,這樣的編碼在SLG遊戲等專有名詞比較多的遊戲中比較容易出現,好比《SD高達》。數組
(二) 固定位長算法(Fixed Bit Length Packing)
這種算法是把文本用須要的最少的位來進行壓縮編碼。
比 如八個十六進制數:1,2,3,4,5,6,7,8。轉換爲二進制爲:00000001,00000010,00000011,00000100, 00000101,00000110,00000111,00001000。每一個數只用到了低4位,而高4位沒有用到(全爲0),所以對低4位進行壓縮編 碼後獲得:0001,0010,0011,0100,0101,0110,0111,1000。而後補充爲字節獲得:00010010, 00110100,01010110,01111000。因此原來的八個十六進制數縮短了一半,獲得4個十六進制數:12,34,56,78。
這也是比較常見的壓縮算法之一。緩存
(三) RLE算法
這種壓縮編碼是一種變長的編碼,RLE根據文本不一樣的具體狀況會有不一樣的壓縮編碼變體與之相適應,以產生更大的壓縮比率。學習
變體1:重複次數+字符
文本字符串:A A A B B B C C C C D D D D,編碼後獲得:3 A 3 B 4 C 4 D。網站
變體2:特殊字符+重複次數+字符
文本字符串:A A A A A B C C C C B C C C,編碼後獲得:B B 5 A B B 4 C B B 3 C。編碼串的最開始說明特殊字符B,之後B後面跟着的數字就表示出重複的次數。編碼
變體3:把文本每一個字節分組成塊,每一個字符最多重複 127 次。每一個塊以一個特殊字節開頭。那個特殊字節的第 7 位若是被置位,那麼剩下的7位數值就是後面的字符的重複次數。若是第 7 位沒有被置位,那麼剩下 7 位就是後面沒有被壓縮的字符的數量。例如:文本字符串:A A A A A B C D E F F F。編碼後獲得:85 A 4 B C D E 83 F(85H= 10000101B、4H= 00000100B、83H= 10000011B)遊戲
以上3種不RLE變體是最經常使用的幾種,其餘還有不少不少變體算法,這些算法在Winzip Winrar這些軟件中也是常常用到的。ip
(四) LZ77算法
LZ77算法是由 Lempel-Ziv 在1977發明的,也是GBA內置的壓縮算法。LZ77算法有許多派生算法(這裏麪包括 LZSS算法)。它們的算法原理上基本都相同,不管是哪一種派生算法,LZ77算法總會包含一個動態窗口(Sliding Window)和一個預讀緩衝器(Read Ahead Buffer)。動態窗口是個歷史緩衝器,它被用來存放輸入流的前n個字節的有關信息。一個動態窗口的數據範圍能夠從 0K 到 64K,而LZSS算法使用了一個4K的動態窗口。預讀緩衝器是與動態窗口相對應的,它被用來存放輸入流的前n個字節,預讀緩衝器的大小一般在0 – 258 之間。這個算法就是基於這些創建的。用下n個字節填充預讀緩存器(這裏的n是預讀緩存器的大小)。在動態窗口中尋找與預讀緩衝器中的最匹配的數據,若是匹 配的數據長度大於最小匹配長度 (一般取決於編碼器,以及動態窗口的大小,好比一個4K的動態窗口,它的最小匹配長度就是2),那麼就輸出一對〈長度(length),距離 (distance)〉數組。長度(length)是匹配的數據長度,而距離(distance)說明了在輸入流中向後多少字節這個匹配數據能夠被找到。字符串
例如:(假設一個 10個字節的動態窗口, 以及一個5個字節的預讀緩衝器)
文本:A A A A A A A A A A A B A B A A A A A
--------------------- =========
動態窗口 預讀緩存器
動 態窗口中包含10個A ,這就是最後讀取的10個字節。預讀緩衝器包含了 B A B A A。編碼的第一步就是尋找動態窗口與預讀緩存器類似長度大於2的字節部分。在動態窗口中找不到B A B A A,因此B就被按照字面輸出。而後動態窗口滑過1個字節,如今暫時輸出了一個B。
第二步:A A A A A A A A A A A B A B A A A A A
--------------------- =========
動態窗口 預讀緩存器
現 在預讀緩衝器包含A B A A A,而後再和動態窗口進行比較。這時,在動態窗口找到了類似長度爲2的A B,所以一對〈長度, 距離〉就被輸出了。長度(length)是2 而且向後距離也是2,因此輸出爲<2,2>,而後動態窗口滑過2個字節。如今已經輸出了B <2,2>。
第三步:A A A A A A A A A A A B A B A A A A A
--------------------- =========
動態窗口 預讀緩存器
繼續上面的方法獲得輸出結果<5,8>。如今已經輸出了B <2,2> <5,8>。
最終的編碼結果是:A A A A A A A A A A A B <2,2> <5,8>。
但 數組是沒法直接用二進制來表示的,LZ77會把編碼每八個數分紅一組,每組前用一個前綴標示來講明這八個數的屬性。好比數據流:A B A C A C B A C A按照LZ77的算法編碼爲:A B A C<2,2> <4,5>,恰好八個數。按照LZ77的規則,用「0」表示原文輸出,「1」表示數組輸出。因此這段編碼就表示爲:00001111B(等於 0FH),所以獲得完整的壓縮編碼表示:F A B A C 2 2 4 5。雖然表面上只縮短了1個字節的空間,但當數據流很長的時候就會突出它的優點,這種算法在zip格式中是常常用到。it
除此以外還有不少壓縮算法,像霍夫曼編碼(Huffman Encoding)等等。這些編碼也是很是的著名並且壓縮效率極高,不過這些編碼的算法相對比較繁瑣,規則也很複雜,因爲篇幅就不逐一介紹了。若是你們對這方面感興趣能夠到網站相關網站查詢資料。