使用urllib2解析html內容,並正常顯示中文的方法 分類: python Module 2013-10-31 17:30 294人閱讀 評論(0) 收藏

  1. 得到目標html的編碼格式
  2. 按照此編碼格式去解析html內容,就能夠正常解析

import urllib2
target = urllib2.urlopen(" http://www.amazon.cn")
print target.hearders #或使用target.info(),得到charset的內容爲:utf-8
content=target.read().decode("utf-8") #此處對內容 進行 utf-8格式解碼,不然print時會輸出亂碼
print content #正確解碼,顯示正常中文
相關文章
相關標籤/搜索