NLP學習-詞形標準化

首先說一下文本分析流程: 下面講述詞形標準化的相關內容。 在清洗過程中,我們說到了一個處理,就是同音近音近型替換也就是詞形規範化,這裏就講述兩種實現的方法,如下 詞幹提取(Stemming):基於語言的規則,抽取詞的詞幹或詞根形式(不一定能夠表達完整語義),方法較爲簡單。 詞性還原 (Lemmatisation):基於字典的映射,把一個詞彙還原爲一般形式(能表達完整語義),方法較爲複雜。 (個人也
相關文章
相關標籤/搜索