一份簡明的 Base64 原理解析

時間 2020-03-09

標籤一份簡明 base64 base 原理解析简体版

原文原文鏈接

書接上回，在記一個 Base64 有關的 Bug 一文裏，咱們說到了 Base64 的編解碼器有不一樣實現，交叉使用它們可能引起的問題等等。java

這一回，咱們來對 Base64 這一經常使用編解碼技術的原理一探究竟。git

1. Base64 是什麼

Base64 是一種基於 64 個可打印字符來表示二進制數據的表示方法。因爲 2^6=64，因此每 6 個比特爲一個單元，對應某個可打印字符。3 個字節有 24 個比特，對應於 4 個 Base64 單元，即 3 個字節可由 4 個可打印字符來表示。
——維基百科程序員

它不是一種加解密技術，是一種簡單的編解碼技術。github

Base64 經常使用於表示、傳輸、存儲二進制數據，也能夠用於將一些含有特殊字符的文本內容編碼，以便傳輸。spring

好比：數據庫

在電子郵件的傳輸中，Base64 能夠用來將 binary 的字節序列，好比附件，編碼成 ASCII 字節序列；
將一些體積不大的圖片 Base64 編碼後，直接內嵌到網頁源碼裏；
將要傳遞給 HTTP 請求的參數作簡單的轉換，下降肉眼可讀性；
注：用於 URL 的 Base64 非標準 Base64，是一種變種。segmentfault
網友們在論壇等公開場合習慣將郵箱地址 Base64 後再發出來，防止被爬蟲抓取後發送垃圾郵件。

2. Base64 編碼原理

標準 Base64 裏的 64 個可打印字符是 A-Za-z0-9+/，分別依次對應索引值 0-63。索引表以下：微信

編碼時，每 3 個字節一組，共 8bit*3=24bit，劃分紅 4 組，即每 6bit 表明一個編碼後的索引值，劃分以下圖所示：編碼

這樣可能不太直觀，舉個例子就容易理解了。好比咱們對 cat 進行編碼：spa

能夠看到 cat 編碼後變成了 Y2F0。

若是待編碼內容的字節數不是 3 的整數倍，那須要進行一些額外的處理。

若是最後剩下 1 個字節，那麼將補 4 個 0 位，編碼成 2 個 Base64 字符，而後補兩個 =：

若是最後剩下 2 個字節，那麼將補 2 個 0 位，編碼成 3 個 Base64 字符，而後補一個 =：

3. 實現一個簡易的 Base64 編碼器

講完原理，咱們就能夠動手實現一個簡易的標準 Base64 編碼器了，如下是我參考 Java 8 的 java.util.Base64 亂寫的一個 Java 版本，僅供參考，主要功能代碼以下：

public class CustomBase64Encoder {

    /**
     * 索引表
     */
    private static final char[] sBase64 = {
            'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H',
            'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
            'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',
            'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',
            'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
            'o', 'p', 'q', 'r', 's', 't', 'u', 'v',
            'w', 'x', 'y', 'z', '0', '1', '2', '3',
            '4', '5', '6', '7', '8', '9', '+', '/'
    };

    /**
     * 將 byte[] 進行 Base64 編碼並返回字符串
     * @param src 原文
     * @return 編碼後的字符串
     */
    public static String encode(byte[] src) {
        if (src == null) {
            return null;
        }

        byte[] dst = new byte[(src.length + 2) / 3 * 4];

        int index = 0;

        // 每次將 3 個字節編碼爲 4 個字節
        for (int i = 0; i < (src.length / 3 * 3); i += 3) {
            int bits = (src[i] & 0xff) << 16 | (src[i + 1] & 0xff) << 8 | (src[i + 2] & 0xff);
            dst[index++] = (byte) sBase64[(bits >>> 18) & 0x3f];
            dst[index++] = (byte) sBase64[(bits >>> 12) & 0x3f];
            dst[index++] = (byte) sBase64[(bits >>> 6) & 0x3f];
            dst[index++] = (byte) sBase64[bits & 0x3f];
        }

        // 處理剩下的 1 個或 2 個字節
        if (src.length % 3 == 1) {
            int bits = (src[src.length - 1] & 0xff) << 4;
            dst[index++] = (byte) sBase64[(bits >>> 6) & 0x3f];
            dst[index++] = (byte) sBase64[bits & 0x3f];
            dst[index++] = '=';
            dst[index] = '=';
        } else if (src.length % 3 == 2) {
            int bits = (src[src.length - 2] & 0xff) << 10 | (src[src.length - 1] & 0xff) << 2;
            dst[index++] = (byte) sBase64[(bits >>> 12) & 0x3f];
            dst[index++] = (byte) sBase64[(bits >>> 6) & 0x3f];
            dst[index++] = (byte) sBase64[bits & 0x3f];
            dst[index] = '=';
        }

        return new String(dst);
    }
}

這部分源碼我也上傳到 GitHub 倉庫 https://github.com/mzlogin/sp... 的 base64test 工程裏了。

4. 其它知識點

4.1 爲何有的編碼結果帶回車

在電子郵件中，根據 RFC 822 規定，每 76 個字符須要加上一個回車換行，因此有些編碼器實現，好比 sun.misc.BASE64Encoder.encode，是帶回車的，還有 java.util.Base64.Encoder.RFC2045，是帶回車換行的，每行 76 個字符。

4.2 Base64 的變種

除了標準 Base64 以外，還有一些其它的 Base64 變種。

好比在 URL 的應用場景中，由於標準 Base64 索引表中的 / 和 + 會被 URLEncoder 轉義成 %XX 形式，但 % 是 SQL 中的通配符，直接用於數據庫操做會有問題。此時能夠採用 URL Safe 的編碼器，索引表中的 /+ 被換成 -_，好比 java.util.Base64.Encoder.RFC4648_URLSAFE 就是這樣的實現。

5. 參考連接

假如你對個人文章感興趣，能夠關注個人微信公衆號『悶騷的程序員』隨時閱讀更多內容。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。