【算法設計】基於大規模語料的新詞發現算法

時間 2020-08-04

標籤算法設計基於大規模語料新詞發現算法简体版

原文原文鏈接

對中文資料進行天然語言處理時，咱們會遇到不少其餘語言不會有的困難，例如分詞——漢語的詞與詞之間沒有空格，那計算機怎麼才知道「已結婚的和還沒有結婚的」到底是「已／結婚／的／和／還沒有／結婚／的」，仍是「已／結婚／的／和尚／未／結婚／的」呢？算法這就是所謂的分詞歧義難題。不過，如今不少語言模型都已能比較漂亮地解決這一問題了。但在中文分詞領域裏，還有一個比分詞歧義更使人頭疼的東西——未登陸詞。中文沒有

>>阅读原文<<