基於條件隨機場模型的中文分詞實現(項目+源碼)

摘 要 基於條件隨機場模型是中文分詞的常用方法,是一種利用語料庫進行統計學習的方法。其一般會提供一個已經人爲分好詞的語料庫,對輸入的字符串進行字字匹配,統計字符串的每一個字在語料庫中出現的次數,每一個字分別爲詞頭、詞中、詞尾和單字成詞的概率,字與字之間的轉移概率,相鄰字在對應狀態下同時出現的概率,基於這些概率求解字符中串的字與狀態的矩陣映射關係表,然後對各個字進行標記,回溯出路徑然後標記字的狀態。
相關文章
相關標籤/搜索