《數學之美(第一版)》筆記 —— 第4章

第4章 談談中文分詞 中文分詞方法的演變: 查字典:遇到複合詞就找最長的詞匹配,遇到不認識的字串就分割成單字詞。缺點:無法解決二義性問題(如,發展中國家,發展-中-國家,發展-中國-家) 統計語言模型 不需要窮舉所有的分詞方式,可以採用動態規劃或者維特比算法來快速找到最佳分詞。 關於分詞的顆粒 顆粒度大,翻譯效果最好。(例如「聯想公司」,作爲一個整體) 顆粒度小,網頁搜索好。(例如「清華大學」和「
相關文章
相關標籤/搜索