隨筆小緒

以前在想CSDN與博客園那個寫做更適合本身,後來發現彷佛博客園更適合本身(主要是由於他更專一於博客,使用它寫博客更加天然,流暢)。個人第一個博客主題是解決python的中文亂碼。html

以前在想爬取平凡的世界小說的內容,突然發現出現了中文亂碼,想了好幾個辦法仍是不行,最後求助於廣大網友,找到了一個比較好的方法,與諸君共享。如有其餘疑問請參考這篇博客:https://blog.csdn.net/Winterto1990/article/details/51217363。python

這是個人代碼:ide

import requests
import chardet
from  bs4 import  BeautifulSoup


#爬取目標網頁
url='http://www.pingfandeshijie.net/di-yi-bu-01.html'
#頭部分不用該部分也行
user_agent='Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50'

headers={"User-Agent":user_agent}
r=requests.get(url=url,headers=headers)

r.encoding='gbk2312'        #獲取網頁後這裏設置編碼格式gbk是繁體,gbk2313是簡體  
demo=r.text

soup=BeautifulSoup(demo,'html.parser',from_encoding='gbk')
print(soup.find_all('p'))
View Code

代碼中有兩處使用到編碼設置,通過檢驗,其實只有第一次的編碼是有效的(抱歉,第一次寫不會改)。代碼的標註很清楚,若是有什麼疑問能夠給我留言,你們一塊兒解決。編碼

相關文章
相關標籤/搜索