很長時間沒有更新我的博客了,由於前一段時間在換工做,入職了一家新的公司,剛開始須要適應一下新公司的節奏,開始階段也比較忙。新公司仍是有必定的技術氣氛的,每週都會有技術分享,並且還會給你們留一些思考題,此次的思考題就是讓咱們回去實現一個Base32的編碼和解碼。java
這可怎麼辦?Base64也就知道個大概,Base32怎麼實現呀?回去一頓惡補,查資料,看Base64源碼,最後終於將Base32實現了。數組
Base64是幹什麼用的
要寫Base32,就要先理解Base64,那麼Base64是幹什麼用的呢?爲何要有Base64呢?這個是根本緣由,把Base64產生的過程搞清楚了,那麼Base32,咱們就能夠依葫蘆畫瓢了。編碼
咱們知道在計算機中,數據的單位是字節byte,它是由8位2進制組成的,總共能夠有256個不一樣的數。那麼這些二進制的數據要怎麼進行傳輸呢?咱們要將其轉化爲ASCII字符,ASCII字符中包含了33個控制字符(不可見)和95個可見字符,咱們若是能將這些二進制的數據轉化成這95個可見字符,就能夠正常傳輸了。因而,咱們從95個字符中,挑選了64個,將2進制的數據轉化爲這個64個可見字符,這樣就能夠正常的傳輸了,這就是Base64的由來。那這64個字符是什麼呢?code
這就是Base64的那64個字符。那麼若是咱們要實現Base32呢?對了,咱們要挑選出32個可見字符,具體以下:orm
private static final char[] toBase32 = { 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5' };
咱們挑選了大寫的A-Z,再加上0-5,一共32個可見字符。blog
Base32是什麼規則
好了,32個可見字符已經選好了,接下來就是將2進制轉化成這32個字符的過程。咱們先來看一下Base64是一個什麼樣的轉化過程,咱們一個字節是8位,而64是2的6次方,也便是一個字節(8位)的數據,咱們要截取其中的6位進行編碼,取到其可見字符。那麼剩餘的2位數怎麼辦呢?它將和下一個本身的前4位組成一個6位的數據進行編碼。那麼咱們須要多少字節才能獲得一個完整的不丟位的編碼呢?咱們要取6和8的最小公倍數,也就是24,24位剛好是3個字節,若是取6位進行編碼,則能夠取到4個編碼。咱們看看下面的圖就能夠更好地理解了,源碼
- M,a,n對應的ASCII碼分別是77,97,110。
- 對應的二進制是01001101,01100001,01101110。
- 而後咱們按照6位截取,剛好可以截取4個編碼,對應的6位二進制分別爲:010011,010110,000101,101110。
- 對應的64位編碼爲:T,W,F,u。
同理,若是咱們要實現Base32怎麼辦呢?32是2的5次方,那麼咱們再進行2進制截位時,要一次截取5位。那麼一個字節8位,截取了5位,剩下的3位怎麼辦?同理和下一個字節的前2位組成一個新的5位。那麼多少個字節按照5位截取才能不丟位呢?咱們要取5和8的最小公倍數,40位,按照5位截取,正好獲得8個編碼。40位,正好5個字節,因此咱們要5個字節分爲一組,進行Base32的編碼。以下圖:博客
對比前面的Base64,Base32就是按照5位去截取,而後去編碼表中找到對應的字符。好了,原理咱們明白了,下面進入程序階段。it
寫程序階段
原理明白了,程序怎麼寫呢?這也就是程序猿的價值所在,把現實中的規則、功能、邏輯用程序把它實現。可是實現Base32也是比較難的,不過有先人給咱們留下了Base64,咱們參照Base64去實現Base32就容易多了。字符編碼
Base32編碼
首先,咱們要根據輸入字節的長度,肯定返回字節的長度,以上面爲例,輸入字節的長度是5,那麼Base32轉碼後的字節長度就是8。那麼若是輸入字節的長度是1,返回結果的字節長度是多少呢?這就須要補位了,也就是說輸入字節的長度不是5的倍數,咱們要進行補位,將其長度補成5的倍數,這樣編碼之後,返回字節的長度就是8的倍數。這樣作,咱們不會丟失信息,好比,咱們只輸入了一個字節,是8位,編碼時,截取了前5位,那麼剩下的後3位怎麼辦?不能捨棄吧,咱們要在其後面補足40位,補位用0去補,前面截取有剩餘的位數再加上後面補位的0,湊成5位,再去編碼。其他的,全是0的5位二進制,咱們編碼成「=」,這個和Base64是同樣的。
好了,咱們先來看看編碼後返回字節的長度怎麼計算。
//返回結果的數組長度 int rLength = 8 * ((src.length + 4) / 5); //返回結果 byte[] result = new byte[rLength];
- 其中src是輸入的字節數組;
- 返回長度的公式咱們要仔細看一下,對5取整,再乘以8,這是一個最基本的操做,咱們用上面的例子套一下,輸入字節的長度是5個字節,8*(5/5) = 8,須要返回8個字節。咱們再來看看加4的做用,好比咱們輸入的是1個字節,那麼返回幾個字節呢?按照前面的要求,若是二進制長度不滿40位,要補滿40位,也就是輸入字節的長度要補滿成5的整數倍。這裏先加4再對5取整,就能夠補位後能夠進行完整編碼的個數,而後再乘以8,獲得返回的字節數。你們能夠隨便想幾個例子,驗證一下結果對不對。
- 而後咱們定義返回結果的數組。
返回結果的數組長度已經肯定了,接下來咱們作什麼呢?固然是編碼的工做了,這裏咱們分爲兩個步驟:
- 先處理能夠正常進行編碼的那些字節,也就是知足5的倍數的那些字節,這些字節能夠進行5字節到8字節轉換的,不須要進行補位。
- 而後處理最後幾位,這些是須要補位的,將其補成5個字節。
編碼的步驟已經肯定了,下面要肯定能夠正常編碼的字節長度,以及須要補位的長度,以下:
//正常轉換的長度 int normalLength = src.length / 5 * 5; //補位長度 int fillLength = (5 - (src.length % 5)) % 5;
又是兩個計算公式,咱們分別看一下:
- 能夠正常編碼的字節長度,對5取整,再乘以5,過濾掉最後不知足5的倍數的字節,這些過濾掉的字節須要補位,知足5個字節;
- 這一步就是計算最後須要補幾位才能知足5的倍數,最後能夠獲得須要補位的長度,若是輸入字節的長度剛好是5的倍數,不須要補位,則計算的結果是0,你們能夠驗證一下這兩個公式。
接下來,咱們處理一下能夠正常編碼的字節,以下:
//輸入字節下標 int srcPos = 0; //返回結果下標 int resultPos = 0; while (srcPos < normalLength) { long bits = ((long)(src[srcPos++] & 0xff)) << 32 | (src[srcPos++] & 0xff) << 24 | (src[srcPos++] & 0xff) << 16 | (src[srcPos++] & 0xff) << 8 | (src[srcPos++] & 0xff); result[resultPos++] = (byte) toBase32[(int)((bits >> 35) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 30) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 25) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 20) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 15) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 10) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)((bits >> 5) & 0x1f)]; result[resultPos++] = (byte) toBase32[(int)(bits & 0x1f)]; }
- 咱們先定義輸入字節的下標和返回結果的下標,用做取值與賦值;
- 再寫個while循環,只要輸入的字節下標在正常轉換的範圍內,就能夠正常的編碼;
- 接下來看看while循環的處理細節,咱們先要將5個字節拼成一個40位的二進制,在程序中,咱們經過位移運算和
|
或運算獲得一個long型的數字,固然它的二進制就是咱們用5個字節拼成的。 - 這裏有個坑要和你們說明一下,咱們第一個字節位移的時候用long轉型了,爲何?由於int型在Java中佔4個字節,32位,咱們左移32位後,它會回到最右側的位置。而long佔64位,咱們左移32位是不會循環的。這一點你們要格外注意。
- 接下來就是將這40位的二進制進行分拆,一樣經過位移操做,每次從左側截取5位,咱們分別向右移動3五、30、2五、20、1五、十、五、0,而後將其和
0x1f
進行與操做,0x1f
是一個16進制的數,其二進制是0001 1111,對了,就是5個1,移位後和0x1f
進行與操做,只留取最右側的5位二進制,並計算其數值,而後從32位編碼表中找到對應的字符。
能夠正常編碼的部分就正常結束了,你們要多多理解位移符號的運用。接下來,咱們再看看結尾字節的處理。先上代碼:
if (fillLength > 0) { switch (fillLength) { case 1: int normalBits1 = (src[srcPos] & 0xff) << 24 | (src[srcPos+1] & 0xff) << 16 | (src[srcPos+2] & 0xff) << 8 | (src[srcPos+3] & 0xff); result[resultPos++] = (byte) toBase32[(normalBits1 >> 27) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 >> 22) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 >> 17) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 >> 12) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 >> 7) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 >> 2) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits1 << 3) & 0x1f]; result[resultPos++] = '='; break; case 2: int normalBits2 = (src[srcPos] & 0xff) << 16 | (src[srcPos+1] & 0xff) << 8 | (src[srcPos+2] & 0xff); result[resultPos++] = (byte) toBase32[(normalBits2 >> 19) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits2 >> 14) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits2 >> 9) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits2 >> 4) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits2 << 1) & 0x1f]; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; break; case 3: int normalBits3 = (src[srcPos] & 0xff) << 8 | (src[srcPos+1] & 0xff); result[resultPos++] = (byte) toBase32[(normalBits3 >> 11) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits3 >> 6) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits3 >> 1) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits3 << 4) & 0x1f]; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; break; case 4: int normalBits4 = (src[srcPos] & 0xff) ; result[resultPos++] = (byte) toBase32[(normalBits4 >> 3) & 0x1f]; result[resultPos++] = (byte) toBase32[(normalBits4 << 2) & 0x1f]; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; result[resultPos++] = '='; break; } }
fillLength
就是須要補位的位數,若是等於0,咱們就不須要補位了。大於0就須要進行補位。- 須要補位的狀況,咱們分爲4種,分別爲:補1位、補2位、補3位和補4位。
- 我嗯先看看補1位的狀況,須要補1位,說明以前剩下4個字節,咱們先將這4個字節拼起來,那麼第一個字節要向左移動24位,這個和正常狀況下第一個字節向左移動的位數是不同的。剩餘的字節分別向左移動相應的位數,你們能夠參照程序計算一下。
- 而後將獲得的32位二進制數,從最高位每次截取5位,每次向右移動位數分別爲2七、2二、1七、十二、七、2,注意,最後剩下2位,不足5位,咱們要向左移動3位。移位後要和
0x1f
進行與操做,這個做用和前面是同樣的,這裏不贅述了。而後將獲得的數字在32位編碼表中,去除對應的字符。 - 剩下的位數咱們統一使用
=
進行補位。 - 其餘的須要補1位、補2位和補3位的狀況,咱們重複步驟3-步驟5,裏邊具體的移動位數有所區別,須要你們仔細計算。
整個的編碼過程到這裏就結束了,咱們將result數組返回便可。
總結
到這裏,Base32的編碼就實現了,你們能夠運行一下,這裏就不演示了。整個的實現過程你們感受怎麼樣,咱們總結一下,
- 原理,不知道其原理,咱們就沒有辦法寫程序。
- 定義32位字符編碼表,你們能夠根據我的喜愛進行定義,沒有標準,只要是可見字符就能夠。
- 寫程序時,要注意正常位數的計算,補位位數的計算,以及左移右移,都是須要你們仔細思考的。
好了,Base32編碼的過程就結束了,還缺乏解碼的過程,咱們有時間再補上吧~