Nodejs進階:服務端字符編解碼&亂碼處理

寫在前面

在web服務端開發中,字符的編解碼幾乎天天都要打交道。編解碼一旦處理不當,就會出現使人頭疼的亂碼問題。javascript

很多從事node服務端開發的同窗,因爲對字符編碼碼相關知識瞭解不足,遇到問題時,常常會束手無策,花大量的時間在排查、解決問題。java

文本先對字符編解碼的基礎知識進行簡單介紹,而後舉例說明如何在node中進行編解碼,最後是服務端的代碼案例。本文相關代碼示例可在這裏找到。node

關於字符編解碼

在網絡通訊的過程當中,傳輸的都是二進制的比特位,無論發送的內容是文本仍是圖片,採用的語言是中文仍是英文。git

舉個例子,客戶端向服務端發送"你好"。github

客戶端 --- 你好 ---> 服務端web

這中間包含了兩個關鍵步驟,分別對應的是編碼、解碼。網絡

  1. 客戶端:將"你好"這個字符串,編碼成計算機網絡須要的二進制比特位。
  2. 服務端:將接收到的二進制比特位,解碼成"你好"這個字符串。

總結一下:ide

  1. 編碼:將須要傳送的數據,轉成對應的二進制比特位。
  2. 解碼:將二進制比特位,轉成原始的數據。

上面有些重要的技術細節沒有提到,答案在下一小節。post

  • 客戶端怎麼知道"你好"這個字符對應的比特位是多少?
  • 服務端收到二進制比特位以後,怎麼知道對應的字符串是什麼?

關於字符集和字符編碼

上面提到字符、二進制的轉換問題。既然二者能夠互相轉換,也就是說存在明確的轉換規則,能夠實現字符<->二進制的相互轉換。學習

這裏提到的轉換規則,其實就是咱們常常聽到的字符集&字符編碼。

字符集是一系列字符(文字、標點符號等)的集合。字符集有不少,常見的有ASCII、Unicode、GBK等。不一樣字符集主要的區別在於包含字符個數的不一樣。

瞭解了字符集的概念後,接下來介紹下字符編碼。

字符集告訴咱們支持哪些字符,但具體字符怎麼編碼,是由字符編碼決定的。好比Unicode字符集,支持的字符編碼有UTF8(經常使用)、UTF1六、UTF32。

歸納一下:

  • 字符集:字符的集合,不一樣字符集包含的字符數不一樣。
  • 字符編碼:字符集中字符的實際編碼方式。
  • 一個字符集可能有多種字符編碼方式。

能夠把字符編碼當作一個映射表,客戶端、服務端就是根據這個映射表,來實現字符跟二進制的編解碼轉換。

舉個例子,"你"這個字符,在UTF8編碼中,佔據三個字節0xe4 0xbd 0xa0,而在GBK編碼中,佔據兩個字節0xc4 0xe3

字符編解碼例子

上面已經提到了字符編解碼所需的基礎知識。下面咱們看一個簡單的例子,這裏藉助了icon-lite這個庫來幫助咱們實現編解碼的操做。

能夠看到,在字符編碼時,咱們採用了gbk。在解碼時,若是一樣採用gbk,能夠獲得原始的字符。而當咱們解碼時採用utf8時,則出現了亂碼。

var iconv = require('iconv-lite');

var oriText = '你';

var encodedBuff = iconv.encode(oriText, 'gbk');
console.log(encodedBuff);
// <Buffer c4 e3>

var decodedText = iconv.decode(encodedBuff, 'gbk');
console.log(decodedText);
// 你

var wrongText = iconv.decode(encodedBuff, 'utf8');
console.log(wrongText);
// ��

實際例子:服務端編解碼

一般咱們須要處理編解碼的場景有文件讀寫、網絡請求處理。這裏距網絡請求的例子,介紹如何在服務端進行編解碼。

假設咱們運行着以下http服務,監聽來自客戶端的請求。客戶端傳輸數據時採用了gbk編碼,而服務端默認採用的是utf8編碼。

若是此時採用默認的utf8對請求進行解碼,就會出現亂碼,所以須要特殊處理。

服務端代碼以下(爲簡化代碼,這裏跳過了請求方法、請求編碼的判斷)

var http = require('http');
var iconv = require('iconv-lite');

// 假設客戶端採用post方法,編碼爲gbk
var server = http.createServer(function (req, res) {
    var chunks = [];
    
    req.on('data', function (chunk) {
        chunks.push(chunk)
    });

    req.on('end', function () {
        chunks = Buffer.concat(chunks);

        // 對二進制進行解碼
        var body = iconv.decode(chunks, 'gbk');
        console.log(body);

        res.end('HELLO FROM SERVER');
    });

});

server.listen(3000);

對應的客戶端代碼以下:

var http = require('http');
var iconv = require('iconv-lite');

var charset = 'gbk';

// 對字符"你"進行編碼
var reqBuff = iconv.encode('你', charset);

var options = {
    hostname: '127.0.0.1',
    port: '3000',
    path: '/',
    method: 'POST',
    headers: {
        'Content-Type': 'text/plain',
        'Content-Encoding': 'identity',
        'Charset': charset // 設置請求字符集編碼
    }
};

var client = http.request(options, function(res) {
    res.pipe(process.stdout);
});

client.end(reqBuff);

相關連接

Nodejs學習筆記
https://github.com/chyingp/no...

iconv-lite
https://github.com/ashtuchkin...

相關文章
相關標籤/搜索