NLP學習計劃（二）-中文文本特徵處理

時間 2021-01-13

標籤 NLP 自然語言處理詞袋模型向量化简体版

原文原文鏈接

中文分詞的中文分詞指將一個漢字序列切分成一個個單獨的詞。現有的中文分詞算法有五大類：基於詞典的方法，基於統計的方法，基於規則的方法，基於字標註的方法，基於人工智能技術（基於理解）的方法。中文分詞目前主要有三個難點，分別是分詞規範問題、未登錄詞識別、歧義切分問題。一.基本文本處理技能對於中文分詞算法共有以下五類： 1基於詞典的方法（字符串匹配，機械分詞方法） 2基於統計的分詞（無字典分詞） 3

>>阅读原文<<