linux - 安裝OpenCC(簡體繁體轉換)

最近使用中文維基百科數據訓練Word2Vec時,發現數據裏面包含了不少繁體字,這就很尷尬了。這時候就知道OpenCC的強大了。哈哈,原本打算直接使用python裏面的opencc模塊的,可是在安裝,編譯opencc時遇到了各類錯誤。花費了很長時間,終於安裝成功,可是文本處理起來效率很低。最終選擇了直接在linux下安裝OpenCC,處理的效率着實安慰了我受傷的心 -- 很快,特別快。
好啦,接下來總結下OpenCC的安裝方法,萬一之後又用到它了呢?主要參考這篇博客html

  • 檢查下linux環境下是否已經安裝cmake以及git,若是沒有,那就經過yum安裝好。python

$ yum install cmake
$ yum install git
$ git clone https://github.com/BYVoid/OpenCC
  • 編譯OpenCCgit

$ cd OpenCC
$ make
$ make install
  • 建立libopencc.so.2連接github

若是不知道libopencc.so.2的路徑,能夠經過find / -name libopencc.so.2查找。json

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
  • 經過查看 OpenCC 版本,檢查OpenCC是否已經安裝成功測試

$ opencc --version
  • 測試用例.net

# 繁體轉簡體
$ echo '歐幾裏得 西元前三世紀的希臘數學家' | opencc -c t2s
歐幾里得 西元前三世紀的希臘數學家
# 簡體轉繁體
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c s2t
歐幾裏得 西元前三世紀的希臘數學家
# 能夠經過如下方式直接對文件進行繁簡轉換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
相關文章
相關標籤/搜索