python 爬蟲爬取內容時, \xa0 、 \u3000 的含義

最近用 scrapy 爬某網站,發現拿到的內容裏面含有 \xa0 、 \u3000 這樣的字符,起初還覺得是編碼不對,搜了一下才知道是見識太少 233 。html

\xa0 是不間斷空白符  

咱們一般所用的空格是 \x20 ,是在標準ASCII可見字符 0x20~0x7e 範圍內。
而 \xa0 屬於 latin1 (ISO/IEC_8859-1)中的擴展字符集字符,表明空白符nbsp(non-breaking space)
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。一般咱們見到的字符多數是 latin1 的,好比在 MySQL 數據庫中。數據庫

這裏也有一張簡陋的Latin1字符集對照表scrapy

\u3000 是全角的空白符

根據Unicode編碼標準及其基本多語言面的定義, \u3000 屬於CJK字符CJK標點符號區塊內,是空白字符之一。它的名字是 Ideographic Space ,有人譯做表意字空格、象形字空格等。顧名思義,就是全角的 CJK 空格。它跟 nbsp 不同,是能夠被換行間斷的。經常使用於製造縮進, wiki 還說用於擡頭,但沒見過。網站

這裏還有一個 Unicode.org 上關於 CJK 標點符號塊的字符代碼表編碼

相關文章
相關標籤/搜索