分詞技術雜記

1. "切分標誌字串"預處理方法是一個毫無必要的技術,它增長了一遍掃描"切分標誌詞典"的時空複雜性,卻並無提升分詞精度,由於所謂的切分標誌其實都已經隱含在詞典之中,是對詞典功能的重複。實際上"切分標誌"也沒有標記歧義字段的任何信息。spa 2. 詞性分詞一體化:存在詞的兼類問題和規則集的肯定問題。登錄 3. 未登陸詞的介入會引發新的切分歧義,從而使分詞系統所面臨的形勢更加複雜化。Sun M.S.
相關文章
相關標籤/搜索