java爬蟲爬取的html內容中空格( )變爲問號「?」的解決方法

  用java編寫的爬蟲,使用xpath爬取內容後,發現網頁源碼中的 所有顯示爲?(問號),可是使用字符串的replace("?", ""),並不能替換,網上找了一下,大概意思是顯示的這個問號其實並非問號,是亂碼,主要是因爲編碼的問題致使的。java

 

解決方法以下:編碼

 

//替換抓取內容中「 」變爲問號的問題
try {
        intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' ');
} catch (Exception e){
        e.printStackTrace();
}

其中replace(' ', ' ')中,前面哪個空格是全角空格。spa

 

參考連接:.net

http://bbs.csdn.net/topics/360072952code

相關文章
相關標籤/搜索