繁簡轉換git
HanLP幾乎實現了全部咱們須要的繁簡轉換方式,而且已經封裝到了HanLP中,使得咱們能夠輕鬆的使用,而分詞器中已經默認支持多種繁簡格式或者混合。這裏咱們再也不作過多描述。github
·說明算法
· HanLP可以識別簡繁分歧詞,好比打印機=印表機。許多簡繁轉換工具不能區分「之後」「皇后」中的兩個「後」字,HanLP能夠。緩存
·算法詳解數據結構
· 《漢字轉拼音與簡繁轉換的Java實現》工具
漢字轉拼音性能
HanLP中的漢字轉拼音功能也十分的強大。3d
·說明orm
· HanLP不只支持基礎的漢字轉拼音,還支持聲母、韻母、音調、音標和輸入法首字母首聲母功能。blog
· HanLP可以識別多音字,也能給繁體中文注拼音。
· 最重要的是,HanLP採用的模式匹配升級到AhoCorasickDoubleArrayTrie,性能大幅提高,可以提供毫秒級的響應速度!
·算法詳解
· 《漢字轉拼音與簡繁轉換的Java實現》
拼音轉中文
HanLP中的數據結構和接口是靈活的,組合這些接口,能夠本身創造新功能,咱們可使用AhoCorasickDoubleArrayTrie實現的最長分詞器,須要用戶調用setTrie()提供一個AhoCorasickDoubleArrayTrie
字符正則化
演示正規化字符配置項的效果(繁體->簡體,全角->半角,大寫->小寫)。
該配置項位於hanlp.properties中,經過Normalization=true來開啓(如今直接經過HanLP.Config.Normalization開啓便可)。
切換配置後必須刪除CustomDictionary.txt.bin緩存,不然隻影響動態插入的新詞。
在我動筆前一個星期,已經有同窗添加了,添加自定義詞典以後,自動刪除緩存的功能。地址請點擊https://github.com/hankcs/HanLP/pull/954,如今只須要開啓正則化便可
1| HanLP.Config.Normalization = False
2|
3| [愛聽4g]
4| [愛聽4G]
5| [愛, 聽, 4, G]
6| [愛, 聽, 4, G]
7| [愛, 聽, 4, G]
8| [喜歡, 4, G]
9| [hankcs, 在, 臺, 灣寫, 代, 碼]
10|
11| HanLP.Config.Normalization = True
12|
13| [愛聽4g]
14| [愛聽4g]
15| [愛聽4g]
16| [愛聽4g]
17| [愛聽4g]
18| [喜歡, 4, g]
19 |[hankcs, 在, 臺灣, 寫, 代碼]
20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只須要開啟正則化便可
21| [如今, 的, hanlp, 已經, 新增, 了, 新增, 自定義, 詞典, 以後, ,, 自動, 刪除, 快, 取, 的, 功能, ,, 如今, 只, 須要, 開啓, 正, 則, 化, 便可]