NLP經常使用工具

一、統計類工具:可參見【統計學習經常使用Python擴展包html

二、linux自帶工具:可參見【【整理】Linux經常使用文本處理命令python

三、簡繁轉換工具:opencclinux

  Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。(https://code.google.com/p/opencc/wiki/Introduction)shell

特點工具

  • 嚴格區分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。post

  • 支持異體字轉換,兼容陸港澳臺等不一樣地區用字差別。學習

  • 嚴格審校一簡對多繁詞條,原則爲「能分則不合」,用戶可自定義合併。google

  • 支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。url

  • 詞庫和函數庫徹底分離,能夠自由修改、導入、擴展。命令行

  • 支持C,C++,Python,PHP等多種語言調用,命令行直接調用,以及圖形界面。

  • 兼容Windows、Linux等多種平臺。

進展

  • 2011年12月,支持地區異體字和習慣用詞轉換。

  • 2011年7月,圖形版本發佈。

  • OpenCC創立於2009年,初期一直在蒐集整理詞庫,2010年6月正式對外發佈。

  • 已經用於ibus-pinyin、fcitx的繁體模式輸入。U

Ubuntu 下安裝以下:

 

上面的安裝只是做爲shell的命令調用,若是要在python中import 的話,能夠使用下面方法安裝:

參考:OpenCC 0.1

使用pip或者easy_install從pip源中下載並安裝,以下:以easy_install爲例

使用以下:

zhs2zhtw_p.ini
zhs2zhtw_v.ini
zhs2zhtw_vp.ini
zht2zhtw_p.ini
zht2zhtw_v.ini
zht2zhtw_vp.ini
zhtw2zhs.ini
zhtw2zht.ini
zhtw2zhcn_s.ini
zhtw2zhcn_t.ini
zhs2zht.ini:簡體轉繁體
zht2zhs.ini:繁體轉簡體

相關文章
相關標籤/搜索