Man page - kakasi(1)
Packages contains this manual
Available languages:
en jaManual
KAKASI
NAMESYNOPSIS
DESCRIPTION
文 字 セ ッ ト の 変 換 指 定 オ プ シ ョ ン
漢 字 コ ー デ ィ ン グ
漢 字 か な 変 換 オ プ シ ョ ン
そ の 他 の オ プ シ ョ ン
辞 書
環 境 変 数
AUTHOR
FILES
SEE ALSO
DIAGNOSTICS
BUGS
NAME
KAKASI - Kanji kana simple inverter (漢 字 か な 読 み 上 げ )
SYNOPSIS
kakasi [options] [jisyo1 [jisyo2 [jisyo1,,]]]
DESCRIPTION
KAKASI は 漢 字 か な 混 じ り 文 を か な だ け の 文 や ロ ー マ 字 表 記 に 変 換 す る こ と を 目 的 と し て 作 ら れ ま し た 。 漢 字 の 読 め な い 端 末 を 使 っ た 時 や 、 漢 字 に 不 慣 れ な 外 国 人 や 子 供 に 文 章 を 紹 介 し た い 時 な ど に 使 え る か も し れ ま せ ん 。 標 準 入 力 か ら 日 本 語 の 文 章 を 入 力 す る と 、 指 定 さ れ た 文 字 セ ッ ト に 変 換 さ れ て 出 力 さ れ ま す 。
例 え ば 次 の 例 で は 文 中 の 漢 字 が ひ ら が な に 変 換 さ れ ま す 。
|
kakasi -JH < document |
バ ー ジ ョ ン 2.3.0 か ら は 、 分 か ち 書 き 機 能 が 追 加 さ れ ま し た 。 例 え ば 次 の 例 で は 、 日 本 語 文 が 分 か ち 書 き さ れ て 出 力 さ れ ま す 。
|
kakasi -w < document |
バ ー ジ ョ ン 2.3.5 か ら は 、 学 年 別 ひ ら が な 変 換 機 能 が 追 加 さ れ ま し た 。 例 え ば 次 の 例 で は 、 小 学 4年 生 ま で に 習 っ た 漢 字 は 漢 字 の ま ま 表 示 し 、 そ れ 以 外 の 難 し い 漢 字 は ひ ら が な に 開 い て 出 力 さ れ ま す 。
|
kakasi -l4 < document |
KAKASI は 文 字 を ロ ー マ 字 に 変 換 し た り 、 JIS x0201 の か た か な 文 字 や 、 JIS x0208 の ひ ら が な 、 か た か な の 間 で 相 互 に 変 換 で き ま す 。 KAKASI で は 文 字 セ ッ ト と し て 次 の も の を 理 解 し ま す 。 (カ ッ コ の 中 は KAKASI の オ プ シ ョ ン と し て 指 定 す る 文 字 を 表 し ま す 。 )
|
ASCII (a) |
い わ ゆ る ascii で す 。 ’〜 ’, ’\ ’ が 含 ま れ て い ま す 。 |
JISROMAN (j)
い わ ゆ る jis roman で す 。 ’ ̄ ’ , ’¥ ’ が 含 ま れ て い ま す 。
GRAPHIC (g)
こ れ に つ い て は 正 し い 名 称 を 知 り ま せ ん 。 DEC 社 の 端 末 で 表 示 さ れ る 罫 線 な ど が こ の 文 字 セ ッ ト に 含 ま れ ま す 。
か た か な (k)
JIS x0201 で 定 義 さ れ て い る 文 字 セ ッ ト の う ち GR の 部 分 で す 。
|
以 下 は JIS x0208 を 便 宜 上 分 割 し た も の で す 。 規 格 上 は 全 体 で 一 つ の 文 字 セ ッ ト で す 。 |
|||
|
漢 字 (J) |
16 区 以 降 の ‘亜 ’ に 続 く 文 字 で す 。
ひ ら が な (H)
4 区 に あ る ひ ら が な で す 。
か た か な (K)
5 区 に あ る か た か な で す 。 ひ ら が な と 1 区 ず れ た だ け で な く 、 独 自 の 個 性 が 発 揮 さ れ て い る も の で す 。
|
記 号 (E) |
上 記 以 外 の 文 字 で す 。
次 の 文 字 セ ッ ト 間 の 変 換 が 指 定 で き ま す 。
|
ASCII |
-> JISROMAN, 記 号 |
|||
|
JISROMAN |
-> ASCII, 記 号 |
|||
|
GRAPHIC |
-> ASCII, JISROMAN, 記 号 |
JISx0201の か た か な
-> ASCII, JISROMAN, カ ナ , ひ ら が な
|
記 号 |
-> ASCII, JISROMAN |
|||
|
か た か な |
-> ASCII, JISROMAN, JISx0201の か た か な , ひ ら が な |
|||
|
ひ ら が な |
-> ASCII, JISROMAN, JISx0201の か た か な , カ ナ |
|||
|
漢 字 |
-> ASCII, JISROMAN, JISx0201の か た か な , カ ナ , ひ ら が な |
漢 字 か ら の 変 換 で は 読 み 上 げ に よ っ て 変 換 し ま す 。 JISx0201か た か な 、 か た か な 、 ひ ら が な 、 漢 字 か ら ASCII と JISROMAN へ の 変 換 で は ロ ー マ 字 変 換 を 行 い ま す 。
文 字 セ ッ ト の 変 換 指 定 オ プ シ ョ ン
|
-a[jE] |
E が 指 定 さ れ る と JISx0208 の 記 号 へ の 変 換 に な り ま す 。 そ れ 以 外 の コ ー ド が 指 定 さ れ る か , 引 数 が な い と 変 換 し ま せ ん 。 |
|||
|
-j[aE] |
E が 指 定 さ れ る と JISx0208 の 記 号 へ の 変 換 に な り ま す 。 |
-g[ajE]
ち ょ っ と 無 理 が あ り ま す 。
-k[ajKH]
aj を 指 定 す る と ロ ー マ 字 に 変 換 し ま す 。 KH で は JISx0208 の か た か な や ひ ら が な に 変 換 し ま す 。
|
-E[aj] |
JISx0208 の 記 号 を ASCII ま た は JIS ROMAN に し ま す 。 現 在 の バ ー ジ ョ ン で は そ の ほ と ん ど が 手 抜 き 工 事 に な っ て い ま す 。 |
-H[ajkK]
aj を 指 定 す る と ロ ー マ 字 に 変 換 し ま す 。 k で は JISx0201の か た か な に 、 K で は か た か な に 変 換 し ま す 。
-K[ajkH]
aj を 指 定 す る と ロ ー マ 字 に 変 換 し ま す 。 k で は JISx0201の か た か な に 、 H で は ひ ら が な に 変 換 し ま す 。
-J[ajkHK]
ま ず 辞 書 を 引 い て 読 み 上 げ 、 aj が 指 定 さ れ る と ロ ー マ 字 に 変 換 し ま す 。 k で は JISx0201の か た か な に 、 H で は ひ ら が な に 、 K で は か た か な に 変 換 し ま す 。
Example:
1. 漢 字 を ひ ら が な に 読 み 上 げ る
kakasi -JH
2. す べ て の JISx0208 で 定 義 さ れ た 文 字 を お き か え る 。
kakasi -Hk -Kk -Jk -Ea
3. す べ て の 文 字 を JISx0208 の 文 字 に お き か え る 。
kakasi -aE -jE -gE -kK
4. ロ ー マ 字 変 換
kakasi -Ha -Ka -Ja -Ea -ka
5. か た か な と ひ ら が な を 交 換
kakasi -HK -KH
漢 字 コ ー デ ィ ン グ
KAKASI で は 次 の 漢 字 コ ー デ ィ ン グ シ ス テ ム が 使 え ま す 。
JIS, OLDJIS,
EUC, DEC, SJIS, UTF8
-i{jis, oldjis, euc, dec, sjis, utf8}
入 力 側 の 漢 字 コ ー ド を 指 定 し ま す 。 も し も 指 定 さ れ な い 場 合 に は 入 力 か ら 判 断 し よ う と し ま す 。 KAKASI は 入 力 を た め こ ん で 統 計 的 に 処 理 す る 方 法 が と れ な い の で 、 最 初 の 漢 字 ら し い 文 字 を も っ て 判 断 し ま す 。
1. ESC-$-B
JIS コ ー デ ィ ン グ
と 解 釈 し ま す
。 ま た こ れ 以
降 は G0 に 新 JIS が 指
示 さ れ た も の
と し ま す 。
2. ESC-$-@
旧 JIS コ ー デ ィ ン
グ と 解 釈 し ま
す 。 ま た こ れ
以 降 は G0 に 旧 JIS が
指 示 さ れ た も
の と し ま す 。
3. 0x80
以 上 の 値
こ の 時 さ ら に 1 Byte
を 入 力 し て 、
こ の 2 Byte で シ フ ト
JIS の JISx0208 文 字 と し
て 解 釈 で き る
場 合 、 新 JIS コ ー
デ ィ ン グ と 解
釈 し ま す 。 ま
た こ れ 以 降 は GR
は 使 え ず シ フ
ト JIS の 文 字 と し
て 解 釈 さ れ ま
す 。
4. 0x80
で 上 記 に 該 当
し な い
以 降 は EUC コ ー デ
ィ ン グ を 仮 定
し ま す 。
な お 、 オ プ シ
ョ ン で 指 定 す
る 以 外 に DEC コ ー
デ ィ ン グ が 指
定 さ れ る こ と
は あ り ま せ ん
。
最 初 に JISx0201の か
た か な を 表 現
す る 0xa0 以 上 の コ
ー ド に 遭 遇 し
た 場 合 と 、 EUC コ
ー ド な の に SJIS と
し て も 解 釈 さ
れ 得 る 文 字 に
遭 遇 す る と 誤
っ て 解 釈 し ま
す 。 つ ま り ‘燹
’ か ら ‘螢 ’ ま
で の 945 文 字 の い
ず れ か が EUC で 表
現 さ れ て い て
も SJIS に 解 釈 さ れ
て し ま い ま す
。
-o{jis, oldjis, euc, dec, sjis, utf8}
出 力 側 の 漢 字 コ ー デ ィ ン グ を 指 定 し ま す 。 も し も 指 定 さ れ な い 場 合 に は 入 力 と 同 じ に し ま す 。
漢 字 の コ ー デ ィ ン グ の モ デ ル と し て は 、 以 下 の よ う に 文 字 セ ッ ト の 指 示 と 呼 出 し が さ れ て い る も の と し ま す 。
JIS:
GL -- G0 --
ASCII
GR -- G1 -- JISx0201の か た か
な
G2 -- JISx0201の か た か な
G3 -- JISx0201の か た か
な
JISx0208 の 文 字 は ESC-$-B を 用 い て G0 に 指 示 を し て 出 力 し ま す 。
OLDJIS:
GL -- G0 --
JISROMAN
GR -- G1 -- JISx0201の か た か
な
G2 -- JISx0201の か た か な
G3 -- JISx0201の か た か
な
JISx0208 の 文 字 は ESC-$-@ を 用 い て G0 に 旧 JISを 指 示 を し て 出 力 し ま す 。
EUC:
GL -- G0 --
ASCII
G1 -- JISx0201の か た か な
G2 -- JISx0201の か た か な
GR -- G3 -- JISx0208 の 文 字
JISx0201の か た か な の 表 示 に は ESC-N (シ ン グ ル シ フ ト )を 使 っ て 、 GR に G2 を 呼 出 し て 出 力 し ま す 。
DEC:
GL -- G0 --
ASCII
G1 -- GRAPHIC
G2 -- JISx0201の か た か な
GR -- G3 -- JISx0208 の 文 字
JISx0201の か た か な の 表 示 に は ESC-} を 使 っ て GR に G2 を 呼 出 し て 出 力 し ま す 。
SJIS:
GL -- G0 --
ASCII
G1 -- JISx0201の か た か な
G2 -- JISx0201の か た か な
G2 -- JISx0201の か た か な
GR -- SHIFTJIS
JISx0201の か た か な と JISx0208 の 文 字 の 表 示 は GR で 行 い ま す 。
入 力 側 で は 次 の よ う に エ ス ケ ー プ シ ー ク エ ン ス を 解 釈 し ま す 。
呼
出 し :
G0 G1 G2 G3
GL: SI SO ESC-n ESC-o
GR: ESC-˜ ESC-} ESC-|
シ
ン グ ル シ フ ト :
G0 G1 G2 G3
ESC-N ESC-O
(SS2) (SS3)
指
示 :
ASCII JISROMAN GRAPHIC か た か な
旧 JIS 新 JIS
G0: ESC-(-B ESC-(-J ESC-(-0 ESC-(-I ESC-$-@ ESC-$-B
G1: ESC-)-B ESC-)-J ESC-)-0 ESC-)-I ESC-$-)-@ ESC-$-)-B
G2: ESC-*-B ESC-*-J ESC-*-0 ESC-*-I ESC-$-*-@ ESC-$-*-B
G3: ESC-+-B ESC-+-J ESC-+-0 ESC-+-I ESC-$-+-@ ESC-$-+-B
漢 字 か な 変 換 オ プ シ ョ ン
-Jx あ る い は -w を 使 っ て 漢 字 か ら の 変 換 に の み 適 用 さ れ る オ プ シ ョ ン で す 。 他 の 変 換 に は 影 響 し ま せ ん 。
|
-p |
辞 書 中 で 照 合 し た も の が 複 数 あ る 時 に 、 そ の す べ て を 表 示 し ま す 。 多 く の 単 語 は 複 数 の 読 み が あ り ま す 。 そ の 場 合 {} で く く っ て 表 示 し ま す 。 |
素 子 -> {も と こ |そ し }
|
-s |
漢 字 か ら の 変 換 で 変 換 ご と に 空 白 等 の 区 切 を 入 れ る よ う に し ま す 。 前 に す で に 改 行 、 空 白 、 TAB が 入 っ て い れ ば な に も し ま せ ん が 、 な け れ ば 空 白 文 字 を 入 れ ま す 。 ま た 後 ろ に も 空 白 を 入 れ ま す 。 漢 字 か な 混 じ り 文 を ロ ー マ 字 に 変 換 す る 場 合 に は 不 可 欠 で す ね 。 |
"漢
字 か な 混 じ り
文 を ロ ー マ 字
に 変 換 "
" kan’zi kana ma ziri bun’ woro-ma zi ni
hen’kan’ "
|
-S |
-s オ プ シ ョ ン あ る い は -w オ プ シ ョ ン 指 定 時 に 出 力 さ れ る 区 切 り 文 字 は デ フ ォ ル ト で は 空 白 文 字 ’ ’ で す が 、 -S オ プ シ ョ ン で 任 意 の ASCII 文 字 列 を 指 定 す る こ と が で き ま す 。 た と え ば -s -S__ の よ う に オ プ シ ョ ン を 与 え る と 、 |
"漢 字 か な 混 じ り 文 を "
が 、
"漢 字 __か な __混 __じ り __文 __を "
と な り ま す 。 あ る い は 、 -s -S"<sep>" と す れ ば 、
"漢 字 <sep>か な <sep>混 <sep>じ り <sep>文 <sep>を "
と な り ま す 。
|
-f |
ふ り が な モ ー ド 。 つ ま り 変 換 前 の 漢 字 の 脇 に そ の 読 み を 差 し 込 み ま す 。 |
"変 換 前 の 漢 字 の 脇 に "
"変 換 前 [へ ん か ん ま え ]の 漢 字 [か ん じ ]の 脇 [わ き ]に "
|
-F |
ふ り が な モ ー ド 時 の 括 弧 と し て 任 意 の ASCII 文 字 列 を 指 定 し ま す 。 左 右 の 括 弧 に 対 応 し て -Fl と -Fr と い う サ フ ィ ッ ク ス が つ き ま す 。 た と え ば 、 左 側 に 左 丸 括 弧 を 指 定 す る に は -Fl"(" と 、 右 側 に 右 丸 括 弧 を 指 定 す る に は -Fr")" と 指 定 し ま す 。 |
"変 換 前 (へ ん か ん ま え )の 漢 字 (か ん じ )の 脇 (わ き )に "
あ る い は 、 -JF -f -Fl"<ruby>" -Fr"</ruby>" の よ う に 指 定 す る と 、 以 下 の よ う に で き ま す 。
"変 換 前 <ruby>へ ん か ん ま え </ruby>の 漢 字 <ruby>か ん じ </ruby>の 脇 <ruby>わ き </ruby>に "
|
-c |
漢 字 熟 語 中 に 含 ま れ る 、 空 白 や 改 行 を 除 い て 読 む よ う に し ま す 。 複 数 の 行 に 改 行 で 分 割 さ れ た り 、 行 の 先 頭 に タ ブ や 引 用 符 が あ る 時 で も よ み が な の 解 釈 が 行 え る よ う に し ま す 。 読 み と ば す 文 字 の default は {改 行 タ ブ 空 白 }で す が 、 任 意 の ascii 文 字 が 追 加 で き ま す 。 JUNET の ニ ュ ー ス な ら ば 、 引 用 を 示 す -c’>’ と す る と い い で し ょ う 。 以 下 の 例 で は -c">_" と し た も の で す 。 |
>>
こ の バ グ に つ
い て は こ れ か
ら 検
>> 討 し て み ま
す 。 谷 _山 __浩
_子
>>
こ の バ グ に つ
い て は こ れ か
ら け ん と う
>> し て み ま す
。 た に や ま ___ひ
ろ こ _
|
-C |
漢 字 を ロ ー マ 字 に 変 換 す る 場 合 に 、 先 頭 の ア ル フ ァ ベ ッ ト を 大 文 字 に し ま す 。 -Ja -Jj と 共 に 使 っ た 場 合 の み 有 効 で す 。 |
||
|
-U |
漢 字 を ロ ー マ 字 に 変 換 す る 場 合 に 、 ア ル フ ァ ベ ッ ト を す べ て 大 文 字 に し ま す 。 -Ja -Jj と 共 に 使 っ た 場 合 の み 有 効 で す 。 |
そ の 他 の オ プ シ ョ ン
|
-rk |
ロ ー マ 字 へ の 変 換 様 式 を ヘ ボ ン 式 か ら 訓 令 式 に 変 更 し ま す 。 例 え ば 、 ’し ’ は 標 準 で は ’shi’ で す が 、 ’si’ に な り ま す 。 -r の み も し く は 、 -rh な ど の 指 定 で は Hepburn (ヘ ボ ン ) 式 に な り ま す 。 |
||
|
-t |
ロ ー マ 字 へ の 変 換 で 従 来 の ヘ ボ ン 式 を 利 用 し ま す 。 |
||
|
-u |
文 字 の 出 力 ご と に fflush() を 呼 び ま す 。 system V な ど で 端 末 出 力 を す ぐ 見 た い 時 に 必 要 に な る か も し れ ま せ ん 。 |
||
|
-w |
分 か ち 書 き を し ま す 。 詳 し く は 、 README.wakati を ご 覧 下 さ い 。 |
-l[123456jn]
学 年 別 ひ ら が な 変 換 機 能 (仮 名 表 記 モ ー ド )を 指 定 し ま す 。 詳 し く は 、 README.level を ご 覧 下 さ い 。
-L[123456jn]
学 年 別 ひ ら が な 変 換 機 能 (振 り 仮 名 モ ー ド )を 指 定 し ま す 。 詳 し く は 、 README.level を ご 覧 下 さ い 。
辞 書
KAKASI で は ユ ー ザ の 辞 書 を 任 意 に 追 加 す る こ と が で き ま す 。 使 用 で き る 辞 書 は SKK の 辞 書 に 準 じ た フ ォ ー マ ッ ト か Wnn の ASCII 形 式 な ど の よ う に 、 1 行 に 読 み と 熟 語 の 順 に 並 ん で い て 、 空 白 、 タ ブ 、 カ ン マ 等 で 区 切 ら れ て い る も の が 使 え ま す 。 辞 書 の 漢 字 コ ー デ ィ ン グ は JIS ま た は EUC に 限 り ま す 。 詳 細 に つ い て は JISYO と い う フ ァ イ ル を 参 照 し て く だ さ い 。
環 境 変 数
KANWADICTPATH
kanwadict の 場 所 (フ ァ イ ル 名 を 含 む フ ル パ ス ) を 指 定 す る こ と が で き ま す 。 省 略 時 は /usr/share/kakasi/kanwadict を 設 定 し た の と 同 じ こ と に な り ま す 。
ITAIJIDICTPATH
itaijidict の 場 所 (フ ァ イ ル 名 を 含 む フ ル パ ス ) を 指 定 す る こ と が で き ま す 。 省 略 時 は /usr/share/kakasi/itaijidict を 設 定 し た の と 同 じ こ と に な り ま す 。
AUTHOR
高 橋 裕 信 <takahasi@tiny.or.jp>
FILES
/usr/share/kakasi/kanwadict
KAKASI の 基 本 辞 書 で す 。 イ ン ス ト ー ル 時 に mkkanwa に よ っ て 作 成 さ れ ま す 。
SEE ALSO
mkkanwa(1)
DIAGNOSTICS
辞 書 に ト ラ ブ ル が あ れ ば 0 以 外 の 値 を 返 し ま す 。
BUGS
何 か あ り ま し た ら 、 高 橋 さ ん に で は な く 、 KAKASI プ ロ ジ ェ ク ト <kakasi-dev@namazu.org> ま で お 知 ら せ 下 さ い 。