圖解LZ77壓縮算法

時間 2019-11-13

標籤圖解 lz77 壓縮算法简体版

原文原文鏈接

數據壓縮是一個減少數據存儲空間的過程，目前被應用在軟件工程的各個地方，瞭解其一些原理，方便咱們更好的甄選壓縮方案。算法

壓縮方案有不少種，常見的就是有損和無損壓縮。霍夫曼編碼和LZ77(Lempel-Ziv-1977)都是無損壓縮，其中霍夫曼是採用最小冗餘編碼的算法進行壓縮，而LZ77是採用字典的方式進行壓縮。關於霍夫曼編碼的算法，網上有不少對其詳細的講解，咱們本篇幅不在細說，主要圖解一下LZ77壓縮算法的方式，看看其有哪些優缺點。編碼

本篇主要內容以下:spa

信息熵

LZ77算法原理

壓縮過程

解壓過程

優缺點

信息熵

數據爲什麼是能夠壓縮的，由於數據都會表現出必定的特性，稱爲熵。絕大多數的數據所表現出來的容量每每大於其熵所建議的最佳容量。好比全部的數據都會有必定的冗餘性，咱們能夠把冗餘的數據採用更少的位對頻繁出現的字符進行標記，也能夠基於數據的一些特性基於字典編碼，代替重複多餘的短語。遊戲

LZ77算法原理

LZ77壓縮算法採用字典的方式進行壓縮，是一個簡單但十分高效的數據壓縮算法。其方式就是把數據中一些能夠組織成短語(最長字符)的字符加入字典，而後再有相同字符出現採用標記來代替字典中的短語，如此經過標記代替多數重複出現的方式以進行壓縮。要理解這種算法，咱們先了解3個關鍵詞:短語字典，滑動窗口和向前緩衝區。社區

關鍵詞：

前向緩衝區原理

每次讀取數據的時候，先把一部分數據預載入前向緩衝區。爲移入滑動窗口作準備軟件

滑動窗口軟件工程

一旦數據經過緩衝區，那麼它將移動到滑動窗口中，並變成字典的一部分。im

短語字典技術

從字符序列S1...Sn，組成n個短語。好比字符(A,B,D) ,能夠組合的短語爲{(A),(A,B),(A,B,D),(B),(B,D),(D)},若是這些字符在滑動窗口裏面，就能夠記爲當前的短語字典，由於滑動窗口不斷的向前滑動，因此短語字典也是不斷的變化。

LZ77的主要算法邏輯就是，先經過前向緩衝區預讀數據，而後再向滑動窗口移入（滑動窗口有必定的長度），不斷的尋找能與字典中短語匹配的最長短語，而後經過標記符標記。咱們還以字符ABD爲例子，看以下圖:

目前從前向緩衝區中能夠和滑動窗口中能夠匹配的最長短語就是（A,B）,而後向前移動的時候再次遇到（A,B）的時候採用標記符代替。

壓縮

當壓縮數據的時候，前向緩衝區與移動窗口之間在作短語匹配的是後會存在2種狀況:

找不到匹配時：將未匹配的符號編碼成符號標記（多數都是字符自己）

找到匹配時:將其最長的匹配編碼成短語標記。

短語標記包含三部分信息:（滑動窗口中的偏移量（從匹配開始的地方計算）、匹配中的符號個數、匹配結束後的前向緩衝區中的第一個符號）。

一旦把n個符號編碼並生成響應的標記，就將這n個符號從滑動窗口的一端移出，並用前向緩衝區中一樣數量的符號來代替它們，如此，滑動窗口中始終有最新的短語。

咱們採用圖例來看:

一、開始

二、滑動窗口中沒有數據，因此沒有匹配到短語，將字符A標記爲A

三、滑動窗口中有A,沒有從緩衝區中字符（BABC）中匹配到短語，依然把B標記爲B

四、緩衝區字符（ABCB）在滑動窗口的位移6位置找到AB,成功匹配到短語AB,將AB編碼爲(6,2,C)

五、緩衝區字符（BABA）在滑動窗口位移4的位置匹配到短語BAB,將BAB編碼爲(4,3,A)

六、緩衝區字符（BCAD）在滑動窗口位移2的位置匹配到短語BC，將BC編碼爲（2,2,A）

七、緩衝區字符D,在滑動窗口中沒有找到匹配短語，標記爲D

八、緩衝區中沒有數據進入了，結束

解壓

解壓相似於壓縮的逆向過程，經過解碼標記和保持滑動窗口中的符號來更新解壓數據。

當解碼字符標記:將標記編碼成字符拷貝到滑動窗口中

解碼短語標記:在滑動窗口中查找響應偏移量，同時找到指定長短的短語進行替換。

咱們仍是採用圖例來看下:

一、開始

二、符號標記A解碼

三、符號標記B解碼

四、短語標記(6,2,C)解碼

五、短語標記(4,3,A)解碼

六、短語標記(2,2,A)解碼

七、符號標記D解碼

優缺點

大多數狀況下LZ77壓縮算法的壓縮比至關高，固然了也和你選擇滑動窗口大小，以及前向緩衝區大小，以及數據熵有關係。其壓縮過程是比較耗時的，由於要花費不少時間尋找滑動窗口中的短語匹配，不過解壓過程會很快，由於每一個標記都明確告知在哪一個位置能夠讀取了。

-----------------------------------------------------------------------------

想看更多有趣原創的技術文章，掃描關注公衆號。

關注我的成長和遊戲研發，推進國內遊戲社區的成長與進步。

相關文章

相關標籤/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<