前端開發中的字符編碼

時間 2019-11-11

原文原文鏈接

前端開發過程當中會接觸各類各樣的編碼，比較常見的主要是UTF－8和HTML實體編碼，可是web前端的世界卻不止這兩種編碼，並且編碼的選擇也會形成必定的問題，如先後端開發過程當中不一樣編碼的兼容、多字節編碼可能會形成的XSS漏洞等。所以，本文旨在更好的全面瞭解涉及前端開發領域的字符編碼，避免可能出現的交互和開發中的忽視的漏洞。javascript

URL編碼

我曾經在URL編碼解碼和base64一文中講述了URL編碼中的三組函數，並對比了這三組函數與base64編碼的關係，在此簡要說明一下。
escape/unescape函數針對寬字符作unicode編碼，並針對碼值作十六進制編碼，因此使用escape針對漢字編碼會獲得形如"%uxxxx"的結果；encodeURI/decodeURI,encodeURIComponent/decodeURIComponent函數針對寬字節編碼卻不一樣於escape，首先針對寬字節字符進行UTF－8編碼，而後針對編碼後的結果進行「％」替換，獲得結果。以上所述都是針對寬字節字符而言，對於編碼靠前的ASCII字符而言，上述三組函數的安全字符的範圍也有所不一樣，具體可在上文中瞭解。css

base64編碼

base64編碼在前端一般用於圖片和icon的編碼，它將每3個8位字節爲一組，分紅4組6位字節，而且每一個字節的高位補零，造成4個8位的字節，由此可看出base64編碼是可逆推的。在大多數瀏覽器中，提供了ASCII字符的base64編碼函數，即window.btoa()。該函數沒法針對寬字節進行base64編碼，若針對中文編碼，則需現轉換位UTF－8編碼，而後進行base64編碼。html

function unicodeToBase64(s){
  return window.btoa(unescape(encodeURIComponent(s)))
}
 ```

經過encodeURIComponent對寬字節字符編碼，是「％xx」形式的編碼，與UTF8編碼的區別僅在於前綴（這是由規範RFC3986決定的，將非ASC字符進行某種形式編碼，並轉換爲16進制，並在字節前加上「％」）。所以經過**unescape(encodeURIComponent(s))**能夠轉化爲UTF8字節。固然，也可本身寫一個轉換函數，按照必定規則便行爲UTF－8編碼的字節，以下例：

 ```
 unescape(encodeURIComponent("中國")) //結果："ä¸å½"
 encodeURIComponent("中國") //結果："%E4%B8%AD%E5%9B%BD"
 console.log("\u00E4\u00B8\u00AD\u00E5\u009B\u00BD") // 結果： "ä¸å½"
 ```
 
經過簡單的replace函數，就能夠完成URL編碼到UTF8編碼的轉換，進而完成寬字節字符到base64編碼的轉換。有了這個函數，咱們手動生成一些data URI形式的內容，只需制定MIME類型和編碼方式，就能夠實現文本的轉換，如如下代碼：

 ```
 <a href="data:text/html;charset=utf-8;base64,PHNjcmlwdD5hbGVydCgxMik8L3NjcmlwdD4=" >abc</a>
 // 未編碼前：<a href="javascript: alert(1)">test</a>
 ```

### 前端UTF8編碼與後端GBK編碼的兼容
目前前端大都採用UTF8進行編碼，不論是html、js抑或是css，然後端則因爲歷史緣由大都採用GBK或GB2312進行解碼，所以前端經過parameter傳遞的URL編碼的字符串就不可能直接在後臺進行解碼，爲了更好的兼容性，前端可進行兩次URL編碼，即encodeURIComponent（encodeURIComponent（「中國」）），這樣後端接收到參數後，先使用GBK或GB2312解碼，獲得了UTF8編碼後再使用UTF8解碼便可。兩次編碼主要是利用「**ASC字符使用GBK或GB2312編碼不變**」的特色完成，富有技巧。

## HTML實體編碼與進制編碼
實體編碼針對HTML的預留字符而言，如「<>」等。實體編碼有兩種形式**&實體名;**或**&entity_number;**，因爲瀏覽器對**&實體名;**的兼容性有差異，所以最好採用實體號的形式編碼。

進制編碼，顧名思義將ASC字符對應的碼值按照十六進制或十進制編碼，並轉化爲**&#x;(16進制)**或**&#D;(10進制)**形式。

單單針對實體編碼而言並無什麼特殊強調的點，之因此把它單獨列爲一個章節，意在強調這兩種編碼與js代碼的做用域的關係。

一、<div onclick="document.write('<img src=1 onerror=alert(23)>')">cccc</div> 
二、<div onclick="document.write('&lt;img src=1 onerror=alert(23)&gt;')">cccc</div>
三、&#x3c;&#x69;&#x6d;&#x67;&#x20;&#x73;&#x72;&#x63;&#x3d;&#x31;&#x20;&#x6f;&#x6e;&#x65;&#x72;&#x72;&#x6f;&#x72;&#x3d;&#x61;&#x6c;&#x65;&#x72;&#x74;&#x28;&#x32;&#x33;&#x29;&#x3e;
四、<img src=1 onerror=&#x61;&#x6c;&#x65;&#x72;&#x74;&#x28;&#x32;&#x33;&#x29;>
<script>
    五、document.write('&lt;img src=1 onerror=alert(23)&gt;');
    六、document.write('<img src=1 onerror=&#x61;&#x6c;&#x65;&#x72;&#x74;&#x28;&#x33;&#x29;>');
    七、document.write('&#x3c;&#x69;&#x6d;&#x67;&#x20;&#x73;&#x72;&#x63;&#x3d;&#x31;&#x20;&#x6f;&#x6e;&#x65;&#x72;&#x72;&#x6f;&#x72;&#x3d;&#x61;&#x6c;&#x65;&#x72;&#x74;&#x28;&#x32;&#x33;&#x29;&#x3e;')
    八、document.write('\u003c\u0069\u006d\u0067\u0020\u0073\u0072\u0063\u003d\u0031\u0020\u006f\u006e\u0065\u0072\u0072\u006f\u0072\u003d\u0061\u006c\u0065\u0072\u0074\u0028\u0032\u0033\u0029\u003e')
</script>

代碼中列舉了8個例子，第一個在事件處理函數onclick中輸出HTML片斷；第二個則輸出經實體編碼後的HTML片斷；第三個則是直接針對**&lt;img src=1 onerror=alert(23)&gt;**作16進制編碼；第四個則是針對onerror事件處理函數作16進制編碼；第五個則是在腳本中輸出實體編碼的字符；第六個針對事件處理函數作16進制編碼；第七個則針對全部的字符作16進制編碼；第八個則是在script中直接輸出**&lt;img src=1 onerror=alert(23)&gt;**的unicode編碼。

對比結果，前兩個例子在點擊後都會彈出alert；第三個例子則在頁面中顯示文本**&lt;img src=1 onerror=alert(23)&gt;**；第四個例子則會在頁面加載初期彈出alert；第5、七會輸出字符串；第6、八則會在第四個例子中的alert以後也彈出alert。如今分析這些結果，經過第一二個例子可知道，HTML標籤中（除script標籤）的內聯js代碼能夠進行HTML實體編碼，這是很是重要的一點，咱們能夠更爲明確的進行驗證：

cccc

輸出的結果天然是**&lt;img src=1 onerror=alert(23)&gt;**，這的確論證了咱們上文提到的這一點；第三個例子說明了HTML解析器在進行詞法分析前，首先進行解碼，十六進制和十進制皆可，所以，結果天然輸出形如**&lt;img src=1 onerror=alert(23)&gt;**的字符串；第四個例子則緊接着論證了內聯在HTML的並採用十六進制編碼的js代碼一樣會被正確解析並執行，這說明了進制編碼一樣可被HTML解析器解析；第5、七個例子說明在js中一樣可使用實體編碼和進制編碼，解析的結果會渲染在頁面上；第六個例子則論證了上一觀點，只針對事件處理函數作進制編碼，執行後頁面彈出alert；第八個例子則是在js中執行unicode編碼的字符串，正常alert。

因而可知，js代碼內聯在HTML的非script標籤內，則會遵照HTML編碼規範：**進制編碼和實體編碼**；而在js代碼（script標籤內以及js文件內）中，則聽從js編碼：**1,unicode形式編碼(\uxxxx)2,普通的16進制編碼(\xH)**，這可經過第八個例子獲得證實。之因此在本節提到這麼多編碼特色，主要提醒你們在預防XSS時須要注意的幾點：
- 檢測用戶輸入時，不只僅須要防範相似「<>」這樣的字符，經過unicode編碼或進制編碼仍有可能注入代碼
- 須要針對特定的關鍵字作過濾，如「eval、write、prototype」
- 儘量禁止內聯事件處理函數的使用
- js過濾「src/href/action」屬性，如「javascript:」,"data:"

## JS編碼
其實在上節中已提到了js編碼，即js可執行unicode編碼和十六（八）進制編碼後的字符串，可是不支持十進制編碼的字串。具體操做可經過經常使用的幾個函數來實現，如「eval，write，setTimeout，Function」執行編碼後的字符串；一樣，對於十進制編碼的字串，經過結合String.fromCharCode和eval一樣能夠執行。

在此附上筆者實現的字符轉換，更爲靈活的實現各類自定義形式的字串編碼：

var Code = {};
    /**
     *
     * @param str 待編碼字串
     * @param jinzhi 進制編碼
     * @param prefix 前綴
     * @param postfix 後綴
     * @param count 總共編碼的位數，默認爲4
     * @returns {string}
     */
    Code.encode = function({str = '',jinzhi = '16',prefix = '\\u',postfix = ';',count = '4'} = {}){
        var ret = '';
        var addZero,tmp;
        for(let i=0;i<str.length;i++){
            tmp = str.charCodeAt(i).toString(jinzhi);
            addZero = count - tmp.length + 1;
            ret += prefix + new Array(addZero).join('0') + tmp + postfix;
        }
        return ret;
    };
    Code.decode = function({str = '',jinzhi = '16',prefix = '\\u',postfix = ';'} = {}){
        var ret = '';
        var splits = str.split(';');
        for(let i=0;i<splits.length;i++){
            let tmp = splits[i].replace(prefix,'');
            ret += String.fromCharCode(parseInt(tmp,jinzhi));
        }
        return ret;
    };

    console.log(Code.encode({str: '<img src=@ onerror=alert(123) />'}));
    console.log(Code.decode({str: Code.encode({str: '<img src=@ onerror=alert(123) />'})}))

另外，對於js輸出點的過濾其實並不只限於上文提到的如**eval、setTimeout、Function**等幾個，因爲JS語法比較靈活相對「漏洞」較多，可以使用的「線索」也越豐富，如前段時間在Stackoverflow上發現的一個問題，即

(0)['constructor']['constructor']('return "abc;"')()
```前端

一樣能夠執行JS代碼，確實挺有特色的，具體爲何上述形式能夠執行代碼，請讀者本身仔細品味。java

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。