【算法設計】基於大規模語料的新詞發現算法

對中文資料進行天然語言處理時,咱們會遇到不少其餘語言不會有的困難,例如分詞——漢語的詞與詞之間沒有空格,那計算機怎麼才知道「已結婚的和還沒有結婚的」到底是「已/結婚/的/和/還沒有/結婚/的」,仍是「已/結婚/的/和尚/未/結婚/的」呢?算法 這就是所謂的分詞歧義難題。不過,如今不少語言模型都已能比較漂亮地解決這一問題了。但在中文分詞領域裏,還有一個比分詞歧義更使人頭疼的東西——未登陸詞。中文沒有
相關文章
相關標籤/搜索