在用爬蟲爬取網頁信息時,在網頁源碼中遇到了「 "字符串,經查閱,發現該字符是不間斷空格符。咱們一般所用的空格是 \x20 ,是在標準ASCII可見字符 0x20~0x7e 範圍內。而 \xa0 屬於 latin1 (ISO/IEC_8859-1)中的擴展字符集字符,表明空白符nbsp(non-breaking space)。 latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。python
解決方法:數組
>>> s = '09月27日\xa0發佈' >>> s = "".join(s.split()) >>> s '09月27日發佈' >>>
注:
join()方法:
join(): 鏈接字符串數組。將字符串、元組、列表中的元素以指定的字符(分隔符)鏈接生成一個新的字符串。
split():split方法中不帶參數時,表示分割全部換行符、製表符、空格。spa