Python實現對張小龍3萬字演講分詞統計

分詞的好壞直接決定了搜索的質量,在英文中分詞比中文要簡單,因爲英文是一個個單詞通過空格來劃分每個詞的,而中文都一個個句子,單獨一個漢字沒有任何意義,必須聯繫前後文字才能正確表達它的意思。 Python 中有個比較著名的分詞庫是結巴分詞,從易用性來說對用戶是非常友好的,但是準確度不怎麼好。 這幾天發現另外一個庫,pkuseg-python,簡單易用,跟現有開源工具相比提高了分詞的準確率。 於是我想起
相關文章
相關標籤/搜索