python自然語言處理-讀書筆記5

#使用UniCode進行文字處理 #Unicode支持超過一百萬種字符。每個字符分配一個編號,稱爲編碼點。在 Python中, 編碼點寫作\uXXXX 的形式,其中 XXXX是四位十六進制形式數。 #從文件中提取已編碼文本 import codecs path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt') f = code
相關文章
相關標籤/搜索