千萬級巨型漢語詞庫分享

算法+語料≈NLP 這是一個六千萬詞彙量的分類詞庫,作HanLP這麼久,我逐漸體會到,算法沒法解決全部問題,詞庫也很是重要。一般一個算法能夠解決80%的問題,剩下的20%不管怎麼調節優化,都是拆東牆補西牆。好比上次我提到的「區人保」被HMM人名識別模塊誤命中的例子,這個詞讓HMM來看,「區」做爲姓氏,「人」「保」做爲名字的二三字的確很是有可能,可是正常人都不會取這個名字。要是我把「人」「保」這兩個
相關文章
相關標籤/搜索