文本預處理

1.利用正則表達式對去除非文本字符python #u的做用 :後面的字符串以unicode格式進行編碼,用在中文字符前面,防止由於源碼存儲格式致使使用時出現亂碼 import re pattern = re.compile(u'[^a-zA-Z\u4E00-\u9FA50-9]') dissertation_title = "'Daddy's girls', 'degenerate daughte
相關文章
相關標籤/搜索