自然語言處理 第三期 【任務3 - 特徵提取】時長:2天

摘要:中文分詞是中文信息處理的重要基礎,本文詳細闡述了目前主要的幾種中文分詞算法的技術原理 、中文分詞目前的瓶頸和評價準則,以及中文分詞的具體應用。 中文分詞指將一個漢字序列切分成一個個單獨的詞。現有的中文分詞算法有五大類:基於詞典的方法,基於統計的方法,基於規則的方法,基於字標註的方法,基於人工智能技術(基於理解)的方法。中文分詞目前主要有四個瓶頸,分別是分詞歧義、未登錄詞識別、分詞粒度問題、錯
相關文章
相關標籤/搜索