如何處理相似「\320\234..... 」這類編碼字符

        寫網頁爬蟲的時候遇到了"\320\243\321\351\302\353\264\355\316\363"這種字符串,瞬間懵逼了,沒見過啊,網上基本沒什麼資料,google後發現這其實就是8進制的寫法,結合網頁彈窗發現這串代碼對應「校驗碼錯誤」,分析得出應該是2組數對應一個漢字,用python轉碼各類不成功,按照網上的方法str.decode('ISO-8859-1')(沒記錯應該叫「Latin-1」)獲得的都是俄文和符號,我就鬱悶了,突發奇想,網頁是gbk編碼,試試str.decode('gbk'),成了。。。可是不知道爲何。php

         繼續想。。。。發現\320\243 的二進制位 011 010 000 010 100 011  而校的gbk編碼爲D0 A3,徹底對應不上啊,查了下發現將先將\320\243變換爲16進制即爲D0 A3(查擴展ASCII編碼表也能夠)……而不是將\320\243按位看二進制數。。。又查找了下gbk編碼,校確實是D0A3。python

到此,結貼。網頁爬蟲

附gbk編碼表地址:http://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.phpgoogle

相關文章
相關標籤/搜索