自然語言處理之文本處理步驟

1, 首先將全部單詞轉換爲小寫,並清除標點符號,將其標準化 2.    用分詞器將這個段落或者句子分解成單個詞 3.    刪除停止詞(如:go, to, i , the , that)等以減少需要處理的詞彙 4.   有必要的話可以同時進行詞幹提取和詞性還原,將詞還原成詞根或者詞幹,常見的步驟是先進行詞根還原和詞幹提取。
相關文章
相關標籤/搜索