解決Python2.x的UnicodeEncodeError: ‘ascii’ codec can’t encode異常錯誤

轉自:http://blog.csdn.net/kingviker/article/details/8950757程序員

剛遇到這個問題的時候,在網上找了 半天,發現都是說 添加以下三行代碼便可解決問題,函數

1
2
3
import sys  
reload(sys)  
sys.setdefaultencoding( 'utf-8' )

我是在小小說下載器練手的時候遇到的問題,在將爬下來的小說內容寫入都文件時報的錯,因爲其中一些內容,ascii編碼不支持,因此報錯。可是我加了以後還解決不了,通過一番思考和挖掘終於找到本質緣由,ui

     因此,更好的辦法是,在輸出的時候,對文件制定特定的UTF-8編碼便可。而無需改動默認編碼。編碼

1
2
3
4
#不使用open打開文件,而使用codecs: 
fp = codecs.open(‘output.txt’, ‘a+’, ‘utf- 8 ′);; 
fp.write(row[ 1 ]); 
fp.close();

----------------------------------------------------------分割線-------------------------------------------------------------下面是我轉載的一篇關於codecs的文章spa

字符的編碼是按照某種規則在單字節字符和多字節字符之間進行轉換的某種方法。從單字節到多字節叫作decoding,從多字節到單字節叫作encoding。在這些規則中常常用到的無非是UTF-8和GB2312兩種。.net

 

在Python中,codecs模塊提供了實現這些規則的方法,經過模塊公開的方法咱們可以方便地獲取某種編碼方式的Encoder和 Decoder工廠函數(Factory function),以及StreamReader、StreamWriter和StreamReaderWriter類。 code

使用「import codecs」導入codecs模塊。對象

codecs模塊中重要的函數之一是lookup,它只有一個參數encoding,指的是編碼方式的名稱,即utf-8或者gb2312等等。以下示例:blog

>>> import codecsutf-8

>>> t = codecs.lookup("utf-8")

>>> print t

(<built-in function utf_8_encode>, <function decode at 0x00AA25B0>, <class encodings.utf_8.StreamReader at 0x00AA0720>, <class encodings.utf_8.StreamWriter at 0x00AA06F0>)

>>> encoder = t[0]

>>> decoder = t[1]

>>> StreamReader = t[2]

>>> StreamWriter = t[3]

lookup函數返回一個包含四個元素的TUPLE,其中t[0]是encoder的函數引用,t[1]是decoder的函數引用,t[2] 是UTF-8編碼方式的StreamReader類對象引用,t[3]是UTF-8編碼方式的StreamWriter類對象引用相信對Python熟悉的你確定知道接下來該怎麼用它們了。

 

codecs模塊還提供了方便程序員使用的單獨函數,以簡化對lookup的調用。它們是:

getencoder(encoding)

getdecoder(encoding)

getreader(encoding)

getwriter(encoding)

若是咱們只是想獲取一種utf-8編碼的encoder方法,那麼只須要這樣作:

>>> encoder = codecs.getencoder("utf-8")

 

另外,對於StreamReader和StreamWriter的簡化, codecs模塊提供一個open方法。相對於built-in對象File的open方法,前者多了三個參數encoding, errors, buffering。這三個參數都是可選參數,可是對於應用來講,須要明確指定encoding的值,而errors和buffering使用默認值便可。使用方法以下:

>>> fin = codecs.open("e:\\mycomputer.txt", "r", "utf-8")

>>> print fin.readline()

這是個人電腦

>>> fin.close()

 

總結一下,codecs模塊爲咱們解決的字符編碼的處理提供了lookup方法,它接受一個字符編碼名稱的參數,並返回指定字符編碼對應的 encoder、decoder、StreamReader和StreamWriter的函數對象和類對象的引用。爲了簡化對lookup方法的調用, codecs還提供了getencoder(encoding)、getdecoder(encoding)、getreader(encoding)和 getwriter(encoding)方法;進一步,簡化對特定字符編碼的StreamReader、StreamWriter和 StreamReaderWriter的訪問,codecs更直接地提供了open方法,經過encoding參數傳遞字符編碼名稱,便可得到對 encoder和decoder的雙向服務。

相關文章
相關標籤/搜索