重學計算機組成原理（十）- "燙燙燙"亂碼的由來

時間 2019-12-17

標籤計算機組成原理亂碼由來简体版

原文原文鏈接

程序 = 算法 + 數據結構程序員

對應到計算機的組成原理(硬件層面)算法

算法 --- 各類計算機指令
數據結構 --- 二進制數據

計算機用0/1組成的二進制，來表示全部信息數據結構

程序指令用到的機器碼，是使用二進制表示的
存儲在內存裏面的字符串、整數、浮點數也都是用二進制表示的

萬物在計算機裏都是0和1，搞清楚各類數據在二進制層面是怎麼表示的，是咱們的必修課。編碼

在實際應用中最常遇到的問題，也就是文本字符串是怎麼表示成二進制的，特別是咱們會遇到的亂碼到底是怎麼回事兒加密

在開發的時候，所說的Unicode和UTF-8之間有什麼關係。spa

理解了這些，相信之後遇到任何亂碼問題，你都能手到擒來了。調試

1 理解二進制的「逢二進一」

二進制和咱們平時用的十進制，並無本質區別，只是平時是「逢十進一」，這裏變成了「逢二進一」code

每一位，相比於十進制下的0～9這十個數字，咱們只能用0和1這兩個數字。orm

任何一個十進制的整數，都能經過二進制表示出來blog

把一個二進制數，對應到十進制，很是簡單，就是把從右到左的第N位，乘上一個2的N次方，而後加起來，就變成了一個十進制數

固然，既然二進制是一個面向程序員的「語言」，這個從右到左的位置，天然是從0開始的。

好比_0011_這個二進制數，對應的十進制表示，就是

\(0×2^3+0×2^2+1×2^1+1×2^0\)
\(=3\)

表明十進制的3

對應地，若是咱們想要把一個十進制的數，轉化成二進制，使用短除法就能夠了

也就是，把十進制數除以2的餘數，做爲最右邊的一位。而後用商繼續除以2，把對應的餘數緊靠着剛纔餘數的右側，這樣遞歸迭代，直到商爲0就能夠了。

好比，咱們想把13這個十進制數，用短除法轉化成二進制，須要經歷如下幾個步驟：

所以，對應的二進制數，就是1101

剛纔咱們舉的例子都是正數，對於負數來講，狀況也是同樣的嗎？

咱們能夠把一個數最左側的一位，當成是對應的正負號，好比0爲正數，1爲負數，這樣來進行標記。

這樣，一個4位的二進制數， 0011就表示爲+3。而1011最左側的第一位是1，因此它就表示-3。這個其實就是整數的原碼錶示法

原碼錶示法有一個很直觀的缺點就是，0能夠用兩個不一樣的編碼來表示，1000表明0， 0000也表明0。習慣萬事一一對應的程序員看到這種狀況，必然會被「逼死」。

因而，咱們就有了另外一種表示方法。咱們仍然經過最左側第一位的0和1，來判斷這個數的正負。可是，咱們再也不把這一位當成單獨的符號位，在剩下幾位計算出的十進制前加上正負號，而是在計算整個二進制值的時候，在左側最高位前面加個負號。

好比，一個4位的二進制補碼數值1011，轉換成十進制，就是

\(-1×2^3+0×2^2+1×2^1+1×2^0\)
\(=-5\)

若是最高位是1，這個數必然是負數；最高位是0，必然是正數。而且，只有0000表示0，1000在這樣的狀況下表示-8。一個4位的二進制數，能夠表示從-8到7這16個整數，不會白白浪費一位。

固然更重要的一點是，用補碼來表示負數，使得咱們的整數相加變得很容易，不須要作任何特殊處理，只是把它當成普通的二進制相加，就能獲得正確的結果。

咱們簡單一點，拿一個4位的整數來算一下，好比 -5 + 4 = -1，-5 + 6 = 1

咱們各自把它們轉換成二進制來看一看。若是它們和無符號的二進制整數的加法用的是一樣的計算方式，這也就意味着它們是一樣的電路。

2 字符串的表示，從編碼到數字

不只數值能夠用二進制表示，字符乃至更多的信息都能用二進制表示

最典型的例子就是字符串（Character String）

最先計算機只須要使用英文字符，加上數字和一些特殊符號，而後用8位的二進制，就能表示咱們平常須要的全部字符了，這個就是咱們經常說的ASCII碼（American Standard Code for Information Interchange，美國信息交換標準代碼）

ASCII碼就比如一個字典，用8位二進制中的128個不一樣的數，映射到128個不一樣的字符裏

好比，小寫字母a在ASCII裏面，就是第97個，也就是二進制的0110 0001，對應的十六進制表示就是 61。而大寫字母 A，就是第65個，也就是二進制的0100 0001，對應的十六進制表示就是41。

在ASCII碼裏面，數字9再也不像整數表示法裏同樣，用0000 1001來表示，而是用0011 1001 來表示。字符串15也不是用0000 1111 這8位來表示，而是變成兩個字符1和5連續放在一塊兒，也就是 0011 0001 和 0011 0101，須要用兩個8位來表示。

咱們能夠看到，最大的32位整數，就是2147483647。若是用整數表示法，只須要32位就能表示了。可是若是用字符串來表示，一共有10個字符，每一個字符用8位的話，須要整整80位。比起整數表示法，要多佔不少空間。

這也是爲何，不少時候咱們在存儲數據的時候，要採用二進制序列化這樣的方式，而不是簡單地把數據經過CSV或者JSON，這樣的文本格式存儲來進行序列化。不論是整數也好，浮點數也好，採用二進制序列化會比存儲文本省下很多空間。

ASCII碼只表示了128個字符，一開始倒也堪用，畢竟計算機是在美國發明的

然而隨着愈來愈多的不一樣國家的人都用上了計算機，想要表示譬如中文這樣的文字，128個字符顯然是不太夠用的。因而，計算機工程師們開始各顯神通，給本身國家的語言建立了對應的字符集（Charset）和字符編碼（Character Encoding）

字符集

表示的能夠是字符的一個集合

好比「中文」就是一個字符集，不過這樣描述一個字符集並不許確

想要更精確一點，咱們能夠說，「初版《新華字典》裏面出現的全部漢字」，這是一個字符集。這樣，咱們才能明確知道，一個字符在不在這個集合裏面

好比，咱們平常說的Unicode，其實就是一個字符集，包含了150種語言的14萬個不一樣的字符。

字符編碼

則是對於字符集裏的這些字符，怎麼一一用二進制表示出來的一個字典

咱們上面說的Unicode，就能夠用UTF-八、UTF-16，乃至UTF-32來進行編碼，存儲成二進制。因此，有了Unicode，其實咱們能夠用不止UTF-8一種編碼形式，咱們也能夠本身發明一套 GT-32 編碼，好比就叫做Geek Time 32好了。只要別人知道這套編碼規則，就能夠正常傳輸、顯示這段代碼。

一樣的文本，採用不一樣的編碼存儲下來。若是另一個程序，用一種不一樣的編碼方式來進行解碼和展現，就會出現亂碼。這就好像兩個軍隊用密語通訊，若是用錯了密碼本，那看到的消息就會不知所云。在中文世界裏，最典型的就是「手持兩把錕斤拷，口中疾呼燙燙燙」的典故。

沒有經驗的同窗，在看到程序輸出「燙燙燙」的時候，覺得是程序讓CPU過熱發出報警，因而嘗試給CPU降頻來解決問題。

既然今天要完全搞清楚編碼知識，咱們就來弄清楚「錕斤拷」和「燙燙燙」的前因後果。

「錕斤拷」的來源

若是咱們想要用Unicode編碼記錄一些文本，特別是一些遺留的老字符集內的文本，可是這些字符在Unicode中可能並不存在。因而，Unicode會統一把這些字符記錄爲U+FFFD這個編碼

若是用UTF-8的格式存儲下來，就是\xef\xbf\xbd。若是連續兩個這樣的字符放在一塊兒，\xef\xbf\xbd\xef\xbf\xbd，這個時候，若是程序把這個字符，用GB2312的方式進行decode，就會變成「錕斤拷」。這就比如咱們用GB2312這本密碼本，去解密別人用UTF-8加密的信息，天然沒辦法讀出有用的信息。

而「燙燙燙」，則是由於若是你用了Visual Studio的調試器，默認使用MBCS字符集

「燙」在裏面是由0xCCCC來表示的，而0xCC又剛好是未初始化的內存的賦值。因而，在讀到沒有賦值的內存地址或者變量的時候，電腦就開始大叫「燙燙燙」了。

3 總結延伸

到這裏，相信你發現，咱們能夠用二進制編碼的方式，表示任意的信息。只要創建起字符集和字符編碼，而且獲得你們的認同，咱們就能夠在計算機裏面表示這樣的信息了。因此說，若是你有心，要發明一門本身的克林貢語並非什麼難事。

不過，光是明白怎麼把數值和字符在邏輯層面用二進制表示是不夠的。咱們在計算機組成裏面，關心的不僅是數值和字符的邏輯表示，更要弄明白，在硬件層面，這些數值和咱們一直提的晶體管和電路有什麼關係。下一講，我就會爲你揭開神祕的面紗。我會從時鐘和D觸發器講起，最終讓你明白，計算機裏的加法，是如何經過電路來實現的。