C#漢字轉拼音,自動識別多音字,帶聲調,提供正向、逆向、雙向分詞算法的小程序


用C#寫了個漢字轉拼音的小工具,和網上大部分工具不一樣,這個能經過分詞算法,自動識別多音字,而且提供聲調,可開可關。 算法

好比,用"銀行 行不行 行家說了算"舉例,若是轉拼音卻不能識別多音字,就慘了。 工具

而這個小工具的效果如圖: url

實現了3種分詞算法:
* 正向最大匹配
* 反向最大匹配
* 雙向最大匹配
(其中,雙向匹配的歧義處理辦法,是本人小小創新的"雙貪吃蛇法"。
算法詳情參見:http://my.oschina.net/u/1270374/blog/164042spa


軟件下載:
 http://pan.baidu.com/s/1mTg3T  .net

-----------------源代碼(含生成好的程序)-------------------- xml

百度網盤:
http://pan.baidu.com/s/1ED1Ls 

騰訊微雲:
http://url.cn/PnnMOU
blog

源代碼使用注意:
* bin/release目錄下,已經包含了生成的軟件。 get

* 由於詞庫的中文單字很是不全,因此引用了微軟的ChnCharInfo.dll,來得到一些單字拼音。這個庫是要下載Visual Studio International Pack安裝纔會有,不想安裝的話,能夠直接從bin/release裏面找到,從新引用一下就好了。 it

* 詞庫來源:把 搜狗拼音詞庫備份bin文件,經過"深藍詞庫轉換工具",轉成"微軟拼音輸入法"格式的xml,而後用ultraedit查找/替換,去掉了廢節點獲得的。 io

* 該功能,若是想正經用於本身的項目,建議整理下詞庫。詞庫中有大量錯別字詞條 和 無用詞條,是本人長期用搜狗打字的遺留產物,懶得清理。。。

相關文章
相關標籤/搜索