已遷移到我新博客,閱讀體驗更佳token:NLP之詞形還原 完整代碼實現放在個人github上:click megit
//gbk編碼,以\t分隔 homokaryosis none. 同核性, 同核現象 homokaryotic adj. 同核體的 homokurtic none. 等峯態性 homolanthionine none. 高羊毛氨酸
規則1. *ves --> *f/*fe 規則2. *ies --> *y 規則3. *es --> * 規則4. *s --> *
名次的規律變換形式有下面9條規則:github
//第三人稱單數 規則5. *ies --> *y 規則6. *es --> * 規則7. *s --> * //如今進行時 規則8. *??ing --> *? 規則9. *ying --> *ie 規則10. *ing --> */*e //過去時、過去分詞 規則11. *??ed --> *? 規則12. *ied --> *y 規則13. *ed --> */*e
經過在程序中寫入這些規則來對單詞形態進行還原,而無規則的形態變換隻能經過預先創建好的詞庫來完成詞形形態映射。在程序中經過加載irregualr nouns.txt對名詞進行還原,加載irregualr verbs.txt對動詞進行還原。下面分別給出這兩文件中的內容形式:算法
irregular nouns.txt的內容形式:vim
//gbk編碼,每行的第一個詞是原形,後面的是變換形態,以\t分隔 grief griefs roof roofs gulf gulfs grief griefs
irregualr verbs.txt的內容形式:性能
//gbk編碼,每行的第一個詞是原形,後面的是變換形態,以\t分隔 bear bore borne born alight alighted alit alighted alit arise arose arisen awake awoke awaked awoken awoke awaked
若是找到了還原映射,則在dic_ec.txt詞典中查找還原後的單詞並輸出結果。編碼