以前在想CSDN與博客園那個寫做更適合本身,後來發現彷佛博客園更適合本身(主要是由於他更專一於博客,使用它寫博客更加天然,流暢)。個人第一個博客主題是解決python的中文亂碼。html
以前在想爬取平凡的世界小說的內容,突然發現出現了中文亂碼,想了好幾個辦法仍是不行,最後求助於廣大網友,找到了一個比較好的方法,與諸君共享。如有其餘疑問請參考這篇博客:https://blog.csdn.net/Winterto1990/article/details/51217363。python
這是個人代碼:ide
import requests import chardet from bs4 import BeautifulSoup #爬取目標網頁 url='http://www.pingfandeshijie.net/di-yi-bu-01.html' #頭部分不用該部分也行 user_agent='Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' headers={"User-Agent":user_agent} r=requests.get(url=url,headers=headers) r.encoding='gbk2312' #獲取網頁後這裏設置編碼格式gbk是繁體,gbk2313是簡體 demo=r.text soup=BeautifulSoup(demo,'html.parser',from_encoding='gbk') print(soup.find_all('p'))
代碼中有兩處使用到編碼設置,通過檢驗,其實只有第一次的編碼是有效的(抱歉,第一次寫不會改)。代碼的標註很清楚,若是有什麼疑問能夠給我留言,你們一塊兒解決。編碼