Base64 編碼原理及代碼實現

時間 2019-11-15

原文原文鏈接

Base64 編碼原理及代碼實現

原文地址（其實做者仍是本人啦）：www.sanphantom.com/?p=81html

所謂 base64 編碼就是從 ASCII 碼錶中選取64個可打印字符（A-Za-z0-9+/）做爲基本字符集對其它字符進行編碼轉換。加上做爲填充的「=」其實是 65 個字符。網絡

Base64 產生的緣由

要想了解 base64 就得先了解下 ASCII 碼錶， ASCII 碼錶是由以英語爲母語的美國製定。英語用128個符號編碼就夠了，可是用來表示其餘語言，128個符號是不夠的。好比，在法語中，字母上方有注音符號，它就沒法用 ASCII 碼錶示。因而，一些歐洲國家就決定，利用字節中閒置的最高位編入新的符號。好比，法語中的é的編碼爲130（二進制10000010）。這樣一來，這些歐洲國家使用的編碼體系，能夠表示最多256個符號。ui

可是，這裏又出現了新的問題。不一樣的國家有不一樣的字母，所以，哪怕它們都使用256個符號的編碼方式，表明的字母卻不同。好比，130在法語編碼中表明瞭é，在希伯來語編碼中卻表明了字母Gimel (ג)，在俄語編碼中又會表明另外一個符號。可是無論怎樣，全部這些編碼方式中，0--127表示的符號是同樣的，不同的只是128--255的這一段。編碼

至於亞洲國家的文字，使用的符號就更多了，漢字就多達10萬左右。一個字節只能表示256種符號，確定是不夠的，就必須使用多個字節表達一個符號。好比，簡體中文常見的編碼方式是 GB2312，使用兩個字節表示一個漢字，因此理論上最多能夠表示 256 * 256 = 65536 個符號。加密

而在網絡上交換數據時，好比說從A地傳到B地，每每要通過多個路由設備，因爲不一樣的設備對字符的處理方式有一些不一樣，這樣那些不可見字符就有可能被處理錯誤，這是不利於傳輸的。因此就先把數據先作一個 Base64 編碼，通通變成可見字符，這樣出錯的可能性就大下降了。spa

爲何是 Base64？

爲何是 base64 而不是 base12八、base256 呢？其實緣由很簡單，由於在 ASCII 碼錶中的可打印字符只有 95 個，因此選取 64 個可打印字符是最爲合理的。既然如此，那是否是也有 base3二、base16 呢？對，固然能夠有。只是目前大多用到的仍是 base64 編碼。.net

Base64 編碼的理論實現

前面根據 A-Za-z0-9+/ 字符集能夠獲得一張索引表：code

索引	對應字符	索引	對應字符	索引	對應字符	索引	對應字符
0	A	17	R	34	i	51	z
1	B	18	S	35	j	52	0
2	C	19	T	36	k	53	1
3	D	20	U	37	l	54	2
4	E	21	V	38	m	55	3
5	F	22	W	39	n	56	4
6	G	23	X	40	o	57	5
7	H	24	Y	41	p	58	6
8	I	25	Z	42	q	59	7
9	J	26	a	43	r	60	8
10	K	27	b	44	s	61	9
11	L	28	c	45	t	62	+
12	M	29	d	46	u	63	/
13	N	30	e	47	v
14	O	31	f	48	w
15	P	32	g	49	x
16	Q	33	h	50	y

Base64 具體編碼轉換步驟以下：htm

將待轉換的字符串以每 3 個字節分爲一組，1byte = 8bit，每一組正好 24 個二進制位。
將上面的 24 個二進制位劃分爲每 6 位一組，造成 4 組。
每組前面加兩個 0，造成 8 位一組，即 4 個字節。
根據上面 Base64 對照表獲取對應的值，造成 Base64 編碼。

**舉個例子：**下面表格是以字符串 "Man" 做爲原始字符串進行 Base64 編碼的過程。blog

文本	M	a	n
ASCII	77	97	110
二進制	01001101	01100001	01101110
分組	00 010011	00 010110	00 000101	00 101110
索引	19	22	5	46
Base64編碼	T	W	F	u

那麼你可能會問，若是我原始字符串少於 3 個字節怎麼辦呢？

若是輸入原始字符串長度不能被 3 整除的話，咱們須要用 "=" 對其 Base64 編碼進行填充。爲何須要 "=" 填充呢？由於 Base64 解碼是以 4 位字符一劃分的，若是你不對其進行填充就會致使解碼失敗。

當原始字符串的二進制位不是 6 的倍數的時候，咱們依然會將其劃分爲 6 位一組，而後將最後一組用 0 填充至 6 位（在末尾填充）。

**舉個例子：**下面是對字符串 "AB" 的編碼過程，其編碼結果爲 "QUI="。

文本	A	B
ASCII	65	66
二進制	01000001	01000010
分組	00 010000	00 010100	00 001000
索引	16	20	8
Base64編碼	Q	U	I	=

注意：中文字符有不少的編碼，如 UTF-八、GBK、GB2312 等，不一樣的編碼都會對 Base64 編碼產生影響。

源代碼

base64.h

/*base64.h*/
#ifndef _BASE64_H
#define _BASE64_H

#include <stdlib.h>
#include <string.h>
#include <math.h>

inline unsigned int BASE64_ENCODE_SIZE(unsigned int len) { // 計算字符串加密後的長度（不包括填充字符 '='）
    return ceil(len * 8 / 6);
}

unsigned char *base64encode(const unsigned char *str, unsigned int len);
unsigned char *base64decode(const unsigned char *str, unsigned int len);

#endif
複製代碼

base64.c

#include <stdio.h>
#include "base64.h"

#define CHARPAD '='

extern inline unsigned int BASE64_ENCODE_SIZE(unsigned int);

/* Base64 編碼表 */
static const unsigned char base64_table_encode[] = {
    'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H',
    'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
    'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',
    'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',
    'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
    'o', 'p', 'q', 'r', 's', 't', 'u', 'v',
    'w', 'x', 'y', 'z', '0', '1', '2', '3',
    '4', '5', '6', '7', '8', '9', '+', '/',
};

unsigned char *base64encode(const unsigned char *str, unsigned int len) {
    int i = 0, j = 0, k = 0;
    unsigned int encodeSize = BASE64_ENCODE_SIZE(len);
    unsigned char *result = (unsigned char *) malloc(sizeof(unsigned char) * encodeSize + 4);

    result[encodeSize] = '\0'; /* 構造字符串 */

    for(i = 0, j = 0; i < encodeSize; i += 4, j += 3)
    {
        result[i] = base64_table_encode[(str[j] >> 2) & 0x3f];
        
        if (i + 1 >= encodeSize) break;
        result[i+1] = base64_table_encode[((str[j] & 0x3) << 4) | ((str[j+1] >> 4) & 0xf)];
        
        if (i + 2 >= encodeSize) break;
        result[i+2] = base64_table_encode[((str[j+1] & 0xf) << 2) | ((str[j+2] >> 6) & 0x3)];

        if (i + 3 >= encodeSize) break;
        result[i+3] = base64_table_encode[(str[j+2] & 0x3f)];
    }

    return result;
}
複製代碼

Reference

www.ruanyifeng.com/blog/2007/1…

blog.csdn.net/wo541075754…

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

索引	對應字符	索引	對應字符	索引	對應字符	索引	對應字符
0	A	17	R	34	i	51	z
1	B	18	S	35	j	52	0
2	C	19	T	36	k	53	1
3	D	20	U	37	l	54	2
4	E	21	V	38	m	55	3
5	F	22	W	39	n	56	4
6	G	23	X	40	o	57	5
7	H	24	Y	41	p	58	6
8	I	25	Z	42	q	59	7
9	J	26	a	43	r	60	8
10	K	27	b	44	s	61	9
11	L	28	c	45	t	62	+
12	M	29	d	46	u	63	/
13	N	30	e	47	v
14	O	31	f	48	w
15	P	32	g	49	x
16	Q	33	h	50	y

索引	對應字符	索引	對應字符	索引	對應字符	索引	對應字符
0	A	17	R	34	i	51	z
1	B	18	S	35	j	52	0
2	C	19	T	36	k	53	1
3	D	20	U	37	l	54	2
4	E	21	V	38	m	55	3
5	F	22	W	39	n	56	4
6	G	23	X	40	o	57	5
7	H	24	Y	41	p	58	6
8	I	25	Z	42	q	59	7
9	J	26	a	43	r	60	8
10	K	27	b	44	s	61	9
11	L	28	c	45	t	62	+
12	M	29	d	46	u	63	/
13	N	30	e	47	v
14	O	31	f	48	w
15	P	32	g	49	x
16	Q	33	h	50	y

索引	對應字符	索引	對應字符	索引	對應字符	索引	對應字符
0	A	17	R	34	i	51	z
1	B	18	S	35	j	52	0
2	C	19	T	36	k	53	1
3	D	20	U	37	l	54	2
4	E	21	V	38	m	55	3
5	F	22	W	39	n	56	4
6	G	23	X	40	o	57	5
7	H	24	Y	41	p	58	6
8	I	25	Z	42	q	59	7
9	J	26	a	43	r	60	8
10	K	27	b	44	s	61	9
11	L	28	c	45	t	62	+
12	M	29	d	46	u	63	/
13	N	30	e	47	v
14	O	31	f	48	w
15	P	32	g	49	x
16	Q	33	h	50	y