原文地址(其實做者仍是本人啦):www.sanphantom.com/?p=81html
所謂 base64 編碼就是從 ASCII 碼錶中選取64個可打印字符(A-Za-z0-9+/)做爲基本字符集對其它字符進行編碼轉換。加上做爲填充的 「=」 其實是 65 個字符。網絡
要想了解 base64 就得先了解下 ASCII 碼錶, ASCII 碼錶是由以英語爲母語的美國製定。英語用128個符號編碼就夠了,可是用來表示其餘語言,128個符號是不夠的。好比,在法語中,字母上方有注音符號,它就沒法用 ASCII 碼錶示。因而,一些歐洲國家就決定,利用字節中閒置的最高位編入新的符號。好比,法語中的é
的編碼爲130(二進制10000010
)。這樣一來,這些歐洲國家使用的編碼體系,能夠表示最多256個符號。ui
可是,這裏又出現了新的問題。不一樣的國家有不一樣的字母,所以,哪怕它們都使用256個符號的編碼方式,表明的字母卻不同。好比,130在法語編碼中表明瞭é
,在希伯來語編碼中卻表明了字母Gimel
(ג
),在俄語編碼中又會表明另外一個符號。可是無論怎樣,全部這些編碼方式中,0--127表示的符號是同樣的,不同的只是128--255的這一段。編碼
至於亞洲國家的文字,使用的符號就更多了,漢字就多達10萬左右。一個字節只能表示256種符號,確定是不夠的,就必須使用多個字節表達一個符號。好比,簡體中文常見的編碼方式是 GB2312,使用兩個字節表示一個漢字,因此理論上最多能夠表示 256 * 256 = 65536 個符號。加密
而在網絡上交換數據時,好比說從A地傳到B地,每每要通過多個路由設備,因爲不一樣的設備對字符的處理方式有一些不一樣,這樣那些不可見字符就有可能被處理錯誤,這是不利於傳輸的。因此就先把數據先作一個 Base64 編碼,通通變成可見字符,這樣出錯的可能性就大下降了。spa
爲何是 base64 而不是 base12八、base256 呢?其實緣由很簡單,由於在 ASCII 碼錶中的可打印字符只有 95 個,因此選取 64 個可打印字符是最爲合理的。既然如此,那是否是也有 base3二、base16 呢?對,固然能夠有。只是目前大多用到的仍是 base64 編碼。.net
前面根據 A-Za-z0-9+/ 字符集能夠獲得一張索引表:code
索引 | 對應字符 | 索引 | 對應字符 | 索引 | 對應字符 | 索引 | 對應字符 |
---|---|---|---|---|---|---|---|
0 | A | 17 | R | 34 | i | 51 | z |
1 | B | 18 | S | 35 | j | 52 | 0 |
2 | C | 19 | T | 36 | k | 53 | 1 |
3 | D | 20 | U | 37 | l | 54 | 2 |
4 | E | 21 | V | 38 | m | 55 | 3 |
5 | F | 22 | W | 39 | n | 56 | 4 |
6 | G | 23 | X | 40 | o | 57 | 5 |
7 | H | 24 | Y | 41 | p | 58 | 6 |
8 | I | 25 | Z | 42 | q | 59 | 7 |
9 | J | 26 | a | 43 | r | 60 | 8 |
10 | K | 27 | b | 44 | s | 61 | 9 |
11 | L | 28 | c | 45 | t | 62 | + |
12 | M | 29 | d | 46 | u | 63 | / |
13 | N | 30 | e | 47 | v | ||
14 | O | 31 | f | 48 | w | ||
15 | P | 32 | g | 49 | x | ||
16 | Q | 33 | h | 50 | y |
Base64 具體編碼轉換步驟以下:htm
**舉個例子:**下面表格是以字符串 "Man" 做爲原始字符串進行 Base64 編碼的過程。blog
文本 | M | a | n | |
---|---|---|---|---|
ASCII | 77 | 97 | 110 | |
二進制 | 01001101 | 01100001 | 01101110 | |
分組 | 00 010011 | 00 010110 | 00 000101 | 00 101110 |
索引 | 19 | 22 | 5 | 46 |
Base64編碼 | T | W | F | u |
那麼你可能會問,若是我原始字符串少於 3 個字節怎麼辦呢?
若是輸入原始字符串長度不能被 3 整除的話,咱們須要用 "=" 對其 Base64 編碼進行填充。爲何須要 "=" 填充呢?由於 Base64 解碼是以 4 位字符一劃分的,若是你不對其進行填充就會致使解碼失敗。
當原始字符串的二進制位不是 6 的倍數的時候,咱們依然會將其劃分爲 6 位一組,而後將最後一組用 0 填充至 6 位(在末尾填充)。
**舉個例子:**下面是對字符串 "AB" 的編碼過程,其編碼結果爲 "QUI="。
文本 | A | B | ||
---|---|---|---|---|
ASCII | 65 | 66 | ||
二進制 | 01000001 | 01000010 | ||
分組 | 00 010000 | 00 010100 | 00 001000 | |
索引 | 16 | 20 | 8 | |
Base64編碼 | Q | U | I | = |
注意:中文字符有不少的編碼,如 UTF-八、GBK、GB2312 等,不一樣的編碼都會對 Base64 編碼產生影響。
base64.h
/*base64.h*/
#ifndef _BASE64_H
#define _BASE64_H
#include <stdlib.h>
#include <string.h>
#include <math.h>
inline unsigned int BASE64_ENCODE_SIZE(unsigned int len) { // 計算字符串加密後的長度(不包括填充字符 '=')
return ceil(len * 8 / 6);
}
unsigned char *base64encode(const unsigned char *str, unsigned int len);
unsigned char *base64decode(const unsigned char *str, unsigned int len);
#endif
複製代碼
base64.c
#include <stdio.h>
#include "base64.h"
#define CHARPAD '='
extern inline unsigned int BASE64_ENCODE_SIZE(unsigned int);
/* Base64 編碼表 */
static const unsigned char base64_table_encode[] = {
'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H',
'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',
'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',
'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
'o', 'p', 'q', 'r', 's', 't', 'u', 'v',
'w', 'x', 'y', 'z', '0', '1', '2', '3',
'4', '5', '6', '7', '8', '9', '+', '/',
};
unsigned char *base64encode(const unsigned char *str, unsigned int len) {
int i = 0, j = 0, k = 0;
unsigned int encodeSize = BASE64_ENCODE_SIZE(len);
unsigned char *result = (unsigned char *) malloc(sizeof(unsigned char) * encodeSize + 4);
result[encodeSize] = '\0'; /* 構造字符串 */
for(i = 0, j = 0; i < encodeSize; i += 4, j += 3)
{
result[i] = base64_table_encode[(str[j] >> 2) & 0x3f];
if (i + 1 >= encodeSize) break;
result[i+1] = base64_table_encode[((str[j] & 0x3) << 4) | ((str[j+1] >> 4) & 0xf)];
if (i + 2 >= encodeSize) break;
result[i+2] = base64_table_encode[((str[j+1] & 0xf) << 2) | ((str[j+2] >> 6) & 0x3)];
if (i + 3 >= encodeSize) break;
result[i+3] = base64_table_encode[(str[j+2] & 0x3f)];
}
return result;
}
複製代碼