NLP入門(三)詞形還原(Lemmatization)

  詞形還原(Lemmatization)是文本預處理中的重要部分,與詞幹提取(stemming)很相似。   簡單說來,詞形還原就是去掉單詞的詞綴,提取單詞的主幹部分,通常提取後的單詞會是字典中的單詞,不同於詞幹提取(stemming),提取後的單詞不一定會出現在單詞中。比如,單詞「cars」詞形還原後的單詞爲「car」,單詞「ate」詞形還原後的單詞爲「eat」。   在Python的nltk
相關文章
相關標籤/搜索