讀書筆記2之中文分詞流程HanLP

  句子切分: 系統讀取帶分詞的字符串。輸入的是一個句子或者一篇文章。如果是篇章則系統會首先進行句子切分,然後調用多線程,對每個切分的句子再進行分詞。 導入詞典: 根據輸入的配置信息,導入相應的詞典。 進入粗分階段:    首先,對句子進行字符級切分,即將輸入的句子切分爲單個UTF-8編碼的字符數組 然後,一元切分。查詢核心詞典,將字符切分的結果與詞典最大匹配,匹配結果,包括詞形、詞性、詞頻等信息
相關文章
相關標籤/搜索