貪心NLP——jieba分詞、停用詞過濾、詞的標準化,詞袋模型

基於結巴(jieba)的分詞。 Jieba是最經常使用的中文分詞工具python import jieba set_list=jieba.cut('中南財經政法大學在茶山劉',cut_all=False) print('/'.join(set_list)) #jieba裏沒有茶山劉這個詞,把它加進去 jieba.add_word('茶山劉') set_list=jieba.cut('中南財經政
相關文章
相關標籤/搜索