二維碼的生成細節和原理【轉】

時間 2019-11-05

標籤二維生成細節原理简体版

原文原文鏈接

二維碼又稱 QR Code，QR 全稱 Quick Response，是一個近幾年來移動設備上超流行的一種編碼方式，它比傳統的 Bar Code 條形碼能存更多的信息，也能表示更多的數據類型：好比：字符，數字，日文，中文等等。這兩天學習了一下二維碼圖片生成的相關細節，以爲這個玩意就是一個密碼算法，在此寫一這篇文章，揭露一下。供好學的人一同窗習之。算法

　　關於 QR Code Specification，可參看這個 PDF：http://raidenii.net/files/datasheets/misc/qr_code.pdf ide

　　基礎知識學習

　　首先，咱們先說一下二維碼一共有 40 個尺寸。官方叫版本 Version。Version 1 是 21 x 21 的矩陣，Version 2 是 25 x 25 的矩陣，Version 3 是 29 的尺寸，每增長一個 version，就會增長 4 的尺寸，公式是：(V-1)*4 + 21（V是版本號）最高 Version 40，(40-1)*4+21 = 177，因此最高是 177 x 177 的正方形。ui

　　下面咱們看看一個二維碼的樣例：編碼

　　定位圖案.net

Position Detection Pattern 是定位圖案，用於標記二維碼的矩形大小。這三個定位圖案有白邊叫 Separators for Postion Detection Patterns。之因此三個而不是四個意思就是三個就能夠標識一個矩形了。
Timing Patterns 也是用於定位的。緣由是二維碼有 40 種尺寸，尺寸過大了後須要有根標準線，否則掃描的時候可能會掃歪了。
Alignment Patterns 只有 Version 2 以上（包括 Version2）的二維碼須要這個東東，一樣是爲了定位用的。

　　功能性數據3d

Format Information 存在於全部的尺寸中，用於存放一些格式化數據的。
Version Information 在 >= Version 7 以上，須要預留兩塊 3 x 6 的區域存放一些版本信息。

　　數據碼和糾錯碼code

除了上述的那些地方，剩下的地方存放 Data Code 數據碼和 Error Correction Code 糾錯碼。

　　數據編碼orm

　　咱們先來講說數據編碼。QR 碼支持以下的編碼：blog

　　Numeric mode 數字編碼，從 0 到9。若是須要編碼的數字的個數不是 3 的倍數，那麼，最後剩下的 1 或 2 位數會被轉成 4 或 7bits，則其它的每 3 位數字會被編成 10，12，14bits，編成多長還要看二維碼的尺寸（下面有一個表 Table 3 說明了這點）

　　Alphanumeric mode 字符編碼。包括 0-9，大寫的A到Z（沒有小寫），以及符號$ % * + – . / : 包括空格。這些字符會映射成一個字符索引表。以下所示：（其中的 SP 是空格，Char 是字符，Value 是其索引值）編碼的過程是把字符兩兩分組，而後轉成下表的 45 進制，而後轉成 11bits 的二進制，若是最後有一個落單的，那就轉成 6bits 的二進制。而編碼模式和字符的個數須要根據不一樣的 Version 尺寸編成9, 11 或 13 個二進制（以下表中 Table 3）

　　Byte mode, 字節編碼，能夠是0-255 的 ISO-8859-1 字符。有些二維碼的掃描器能夠自動檢測是不是 UTF-8 的編碼。

　　Kanji mode 這是日文編碼，也是雙字節編碼。一樣，也能夠用於中文編碼。日文和漢字的編碼會減去一個值。如：在 0X8140 to 0X9FFC 中的字符會減去 8140，在 0XE040 到 0XEBBF 中的字符要減去 0XC140，而後把前兩位拿出來乘以 0XC0，而後再加上後兩位，最後轉成 13bit 的編碼。以下圖示例：

　　Extended Channel Interpretation (ECI) mode 主要用於特殊的字符集。並非全部的掃描器都支持這種編碼。

　　Structured Append mode 用於混合編碼，也就是說，這個二維碼中包含了多種編碼格式。

　　FNC1 mode 這種編碼方式主要是給一些特殊的工業或行業用的。好比 GS1 條形碼之類的。

　　簡單起見，後面三種不會在本文中討論。

　　下面兩張表中，

Table 2 是各個編碼格式的「編號」，這個東西要寫在 Format Information 中。注：中文是 1101
Table 3 表示了，不一樣版本（尺寸）的二維碼，對於，數字，字符，字節和 Kanji 模式下，對於單個編碼的 2 進制的位數。（在二維碼的規格說明書中，有各類各樣的編碼規範表，後面還會提到）

　　下面咱們看幾個示例，

　　示例一：數字編碼

　　在 Version 1 的尺寸下，糾錯級別爲H的狀況下，編碼： 01234567

　　1. 把上述數字分紅三組: 012 345 67

　　2. 把他們轉成二進制: 012 轉成 0000001100； 345 轉成 0101011001； 67 轉成 1000011。

　　3. 把這三個二進制串起來: 0000001100 0101011001 1000011

　　4. 把數字的個數轉成二進制 (version 1-H 是 10 bits ): 8 個數字的二進制是 0000001000

　　5. 把數字編碼的標誌 0001 和第 4 步的編碼加到前面: 0001 0000001000 0000001100 0101011001 1000011

　　示例二：字符編碼

　　在 Version 1 的尺寸下，糾錯級別爲H的狀況下，編碼: AC-42

　　1. 從字符索引表中找到 AC-42 這五個字條的索引 (10,12,41,4,2)

　　2. 兩兩分組: (10,12) (41,4) (2)

　　3. 把每一組轉成 11bits 的二進制:

　　(10,12) 10*45+12 等於 462 轉成 00111001110

　　(41,4) 41*45+4 等於 1849 轉成 11100111001

　　(2) 等於 2 轉成 000010

　　4. 把這些二進制鏈接起來：00111001110 11100111001 000010

　　5. 把字符的個數轉成二進制 (Version 1-H 爲 9 bits ): 5 個字符，5 轉成 000000101

　　6. 在頭上加上編碼標識 0010 和第 5 步的個數編碼: 0010 000000101 00111001110 11100111001 000010

　　結束符和補齊符

　　假如咱們有個 HELLO WORLD 的字符串要編碼，根據上面的示例二，咱們能夠獲得下面的編碼，

　　注：二維碼的糾錯碼主要是經過 Reed-Solomon error correction（裏德-所羅門糾錯算法）來實現的。對於這個算法，對於我來講是至關的複雜，裏面有不少的數學計算，好比：多項式除法，把1-255 的數映射成 2 的n次方（0<=n<=255）的伽羅瓦域 Galois Field 之類的神同樣的東西，以及基於這些基礎的糾錯數學公式，由於個人數據基礎差，對於我來講太過複雜，因此我一時半會兒還有點沒搞明白，還在學習中，因此，我在這裏就不展開說這些東西了。還請你們見諒了。（固然，若是有朋友很明白，也繁請教教我）

　　最終編碼

　　穿插放置

　　若是你覺得咱們能夠開始畫圖，你就錯了。二維碼的混亂技術尚未玩完，它還要把數據碼和糾錯碼的各個 codewords 交替放在一塊兒。如何交替呢，規則以下：

　　對於數據碼：把每一個塊的第一個 codewords 先拿出來按順度排列好，而後再取第一塊的第二個，如此類推。如：上述示例中的 Data Codewords 以下：

塊 1	67	85	70	134	87	38	85	194	119	50	6	18	6	103	38
塊 2	246	246	66	7	118	134	242	7	38	86	22	198	199	146	6
塊 3	182	230	247	119	50	7	118	134	87	38	82	6	134	151	50	7
塊 4	70	247	118	86	194	6	151	50	16	236	17	236	17	236	17	236

　　咱們先取第一列的：67， 246， 182， 70

　　而後再取第二列的：67， 246， 182， 70， 85，246，230 ，247

　　如此類推：67， 246， 182， 70， 85，246，230 ，247 ……… ……… ，38，6，50，17，7，236

　　對於糾錯碼，也是同樣：

塊 1	213	199	11	45	115	247	241	223	229	248	154	117	154	111	86	161	111	39
塊 2	87	204	96	60	202	182	124	157	200	134	27	129	209	17	163	163	120	133
塊 3	148	116	177	212	76	133	75	242	238	76	195	230	189	10	108	240	192	141
塊 4	235	159	5	173	24	147	59	33	106	40	255	172	82	2	131	32	178	236

　　和數據碼取的同樣，獲得：213，87，148，235，199，204，116，159，…… …… 39，133，141，236

　　而後，再把這兩組放在一塊兒（糾錯碼放在數據碼以後）獲得：

　　67, 246, 182, 70, 85, 246, 230, 247, 70, 66, 247, 118, 134, 7, 119, 86, 87, 118, 50, 194, 38, 134, 7, 6, 85, 242, 118, 151, 194, 7, 134, 50, 119, 38, 87, 16, 50, 86, 38, 236, 6, 22, 82, 17, 18, 198, 6, 236, 6, 199, 134, 17, 103, 146, 151, 236, 38, 6, 50, 17, 7, 236, 213, 87, 148, 235, 199, 204, 116, 159, 11, 96, 177, 5, 45, 60, 212, 173, 115, 202, 76, 24, 247, 182, 133, 147, 241, 124, 75, 59, 223, 157, 242, 33, 229, 200, 238, 106, 248, 134, 76, 40, 154, 27, 195, 255, 117, 129, 230, 172, 154, 209, 189, 82, 111, 17, 10, 2, 86, 163, 108, 131, 161, 163, 240, 32, 111, 120, 192, 178, 39, 133, 141, 236

　　Remainder Bits

　　最後再加上 Reminder Bits，對於某些 Version 的 QR，上面的還不夠長度，還要加上 Remainder Bits，好比：上述的 5Q 版的二維碼，還要加上 7 個 bits，Remainder Bits 加零就行了。關於哪些 Version 須要多少個 Remainder bit，能夠參看 QR Code Spec 的第 15 頁的 Table-1 的定義表。

　　畫二維碼圖

　　Position Detection Pattern

　　首先，先把 Position Detection 圖案畫在三個角上。

　　Alignment Pattern

　　而後，再把 Alignment 圖案畫上

　　關於 Alignment 的位置，能夠查看 QR Code Spec 的第 81 頁的 Table-E.1 的定義表（下表是不徹底表格）

　　下圖是根據上述表格中的 Version8 的一個例子（6，24，42）

　　Timing Pattern

　　接下來是 Timing Pattern 的線（這個不用多說了）

　　Format Information

　　再接下來是 Formation Information，下圖中的藍色部分。

　　Format Information 是一個 15 個 bits 的信息，每個 bit 的位置以下圖所示：（注意圖中的 Dark Module，那是永遠出現的）

　　這 15 個 bits 中包括：

5 個數據 bits：其中，2 個 bits 用於表示使用什麼樣的 Error Correction Level， 3 個 bits 表示使用什麼樣的 Mask
10 個糾錯 bits。主要經過 BCH Code 來計算

　　而後 15 個 bits 還要與 101010000010010 作 XOR 操做。這樣就保證不會由於咱們選用了 00 的糾錯級別，以及 000 的 Mask，從重形成所有爲白色，這會增長咱們的掃描器的圖像識別的困難。

　　下面是一個示例：

　　關於 Error Correction Level 以下表所示：

　　關於 Mask 圖案如後面的 Table 23 所示。

　　Version Information

　　再接下來是 Version Information（版本 7 之後須要這個編碼），下圖中的藍色部分。

　　Version Information 一共是 18 個 bits，其中包括 6 個 bits 的版本號以及 12 個 bits 的糾錯碼，下面是一個示例：

　　而其填充位置以下：

　　數據和數據糾錯碼

　　而後是填接咱們的最終編碼，最終編碼的填充方式以下：從左下角開始沿着紅線填咱們的各個 bits，1 是黑色，0 是白色。若是遇到了上面的非數據區，則繞開或跳過。

　　掩碼圖案

　　這樣下來，咱們的圖就填好了，可是，也許那些點並不均衡，因此，咱們還要作 Masking 操做（靠，還嫌不復雜）QR 的 Spec 中說了，QR 有 8 個 Mask 你可使用，以下所示：其中，各個 mask 的公式在各個圖下面。所謂 mask，說白了，就是和上面生成的圖作 XOR 操做。Mask 只會和數據區進行 XOR，不會影響功能區。

　　其 Mask 的標識碼以下所示：（其中的i,j分別對應於上圖的x，y）

　　下面是 Mask 後的一些樣子，咱們能夠看到被某些 Mask XOR 了的數據變得比較零散了。

　　Mask 事後的二維碼就成最終的圖了。

　　好了，你們能夠去嘗試去寫一下 QR 的編碼程序，固然，你能夠用網上找個 Reed Soloman 的糾錯算法的庫，或是看看別人的源代碼是怎麼實現這個繁鎖的編碼。