最近使用中文維基百科數據訓練Word2Vec時,發現數據裏面包含了不少繁體字,這就很尷尬了。這時候就知道OpenCC的強大了。哈哈,原本打算直接使用python裏面的opencc模塊的,可是在安裝,編譯opencc時遇到了各類錯誤。花費了很長時間,終於安裝成功,可是文本處理起來效率很低。最終選擇了直接在linux下安裝OpenCC,處理的效率着實安慰了我受傷的心 -- 很快,特別快。
好啦,接下來總結下OpenCC的安裝方法,萬一之後又用到它了呢?主要參考這篇博客:html
檢查下linux環境下是否已經安裝cmake以及git,若是沒有,那就經過yum安裝好。python
$ yum install cmake $ yum install git
克隆下OpennCC開源項目OpennCC開源項目。linux
$ git clone https://github.com/BYVoid/OpenCC
編譯OpenCCgit
$ cd OpenCC $ make $ make install
建立libopencc.so.2連接github
若是不知道libopencc.so.2的路徑,能夠經過find / -name libopencc.so.2查找。json
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
經過查看 OpenCC 版本,檢查OpenCC是否已經安裝成功測試
$ opencc --version
測試用例.net
# 繁體轉簡體 $ echo '歐幾裏得 西元前三世紀的希臘數學家' | opencc -c t2s 歐幾里得 西元前三世紀的希臘數學家 # 簡體轉繁體 $ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c s2t 歐幾裏得 西元前三世紀的希臘數學家 # 能夠經過如下方式直接對文件進行繁簡轉換 $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json