關於利用Jsoup解析HTML中 ;變成非傳統空格或亂碼問題解決方法

在寫爬蟲的時候不少時候會遇到這種問題:HTML中源碼顯示 ;沒問題,可是利用Jsoup的text()方法獲取的文字就會出現問題,通常狀況是 ;變成非傳統空格或者亂碼,這樣在解析的時候想切分字符串會沒法成功。由於 ;是ISO-8859-1的西歐編碼,空格的編碼爲160,而咱們普通使用的ASCII的空格編碼是32.這樣就會產生不少麻煩。編碼 因此在利用Jsoup進行解析的時候要
相關文章
相關標籤/搜索