KAKASI(Kanji Kana Simple Inverter)是語言處理過濾器,能夠將 日文漢字 轉換成 平假名,片假名或Romaji ,能夠 方便閱讀日文文本 以及 給日語學習者提供便利。html
好比把漢字
轉換成かんじ
/kanji
。segmentfault
在命令行中( 我用的是mac的terminal win的不太肯定 )api
# input.txt # 漢字 # % ls input.txt % kakasi -JH <input.txt -i utf8 -o utf8 かんじ
? 英文主頁網絡
? 日文主頁工具
把下載到的壓縮包(.tar.gx
或.tar.xz
)解壓學習
% gzip -dc kakasi-2.3.6.tar.gz | tar xvf -
進入到解壓出來的文件夾中編碼
% cd kakasi-2.3.6
你能夠看到文件夾中有如下內容spa
% ls AUTHORS NEWS config.guess* install-sh* ltmain.sh COPYING ONEWS config.h.in itaijidict magic-kakasi ChangeLog README config.rpath* kakasi-config.in maintMakefile INSTALL README-ja config.sub* kakasi.spec man/ INSTALL-ja THANKS configure* kakasi.spec.in missing* Makefile.am TODO configure.in kakasidict src/ Makefile.in aclocal.m4 doc/ lib/ tests/
依次輸出如下命令就能夠完成安裝命令行
% ./configure % make % su # make install
若是沒有意外,到這裏你已經成功安裝kakasi
!code
你能夠經過如下命令來確認是否安裝完畢。
# kakasi -help
它會返回以下一個命令提示
KAKASI - Kanji Kana Simple Inverter Version 2.3.6 Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved. Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH] -i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8} -r{hepburn,kunrei} -p -s -f -c"chars" [jisyo1, jisyo2,,,] Character Sets: a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201) E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208) Options: -i: input coding system -o: output coding system -r: romaji conversion system -p: list all readings (with -J option) -s: insert separate characters (with -J option) -S"chars": set separator -f: furigana mode (with -J option) -F[rl]"chars": set parentheses around furigana -c: skip chars within jukugo (with -J option: default TAB CR LF BLANK) -C: romaji Capitalize (with -Ja or -Jj option) -U: romaji Upcase (with -Ja or -Jj option) -u: call fflush() after 1 character output -t: use old romaji table -w: wakatigaki mode -{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn]) -y: display yomi of each kanji characters Report bugs to <bug-kakasi@namazu.org>.
使用kakasi
的一個問題是,它沒有提供官方文檔,網絡上提供連接也基本失效,不過花了一番功夫仍是找到了一個能用的文檔,你們若想了解更多能夠閱讀。
? 我也只是剛剛接觸kakasi
,更多使用方法,歡迎你們評論留言交流。
kakasi 轉換格式 <入口文件 >出口文件 輸入輸出編碼設置
例子
kakasi -Ja <input.txt -i utf8 -o utf8 # 將會在命令行中返回轉換結果 kakasi -JH <input.txt >output.txt -i utf8 -o utf8 # 轉換結果會保持到output.txt中
-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH] Character Sets: a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201) E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)
經常使用的設置
-JH
漢字轉平假名( kanji -> hiragana ) || 漢字
轉換成かんじ
-Ja
漢字轉羅馬音( kanji -> ascii(roman) ) || 漢字
轉換成kanji
-JK
漢字轉片假名( kanji -> katakana ) || 漢字
轉換成カンジ
-HK
平假名轉片假名(hiragana -> katakana) || かんじ
轉換成カンジ
<input.txt
將"input.txt"做爲輸入文件
>output.txt
以"output.txt"爲輸出文件
-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
其餘工具:
日文文本分析最強王者——Kuromoji