NLP學習筆記

text = text.lower()  //全部小寫 import re text = re.sub(r」[a-zA-Z0-9]」,」 」,text)  //標點移除 //標記化(Tokenization ) Words = text.split() //以空格分詞  ‘,’也會被分爲一個詞 //NLTK 自然語言工具包 From nltk.tokenize import word_tokeni
相關文章
相關標籤/搜索