Man page - nkf(1)
Packages contains this manual
Available languages:
en jaManual
nkf
NAMESYNOPSIS
DESCRIPTION
OPTIONS
BUGS
ACKNOWLEDGE
nkf 1.4
nkf 1.9-
AUTHOR
NAME
nkf - ネ ッ ト ワ ー ク 用 漢 字 コ ー ド 変 換 フ ィ ル タ
SYNOPSIS
nkf [-butjnesliohrTVvwWJESZxXFfmMBOcdILg] [ file ... ]
DESCRIPTION
nkf は ネ ッ ト ワ ー ク で メ ー ル や ニ ュ ー ス の 読 み 書 き を す る た め に 作 ら れ た 、 漢 字 コ ー ド の 変 換 フ ィ ル タ で あ る 。
こ の nkf の 特 徴 と し て は 、 入 力 漢 字 コ ー ド 系 の 統 計 的 な 自 動 認 識 機 能 が あ る 。 こ の た め 、 利 用 者 は 、 入 力 漢 字 コ ー ド 系 が 何 で あ る か を 知 ら な く て も 、 出 力 漢 字 コ ー ド 系 の み 指 定 す れ ば 良 い こ と に な る 。 た だ 、 こ の 判 定 機 構 は 、 理 論 的 に は 完 全 で は な い が 、 通 常 の ニ ュ ー ス や メ ー ル の メ ッ セ ー ジ に つ い て は 確 実 に 動 作 す る 安 全 な も の に は な っ て い る 。
現 在 、 nkf が 認 識 で き る 入 力 の 漢 字 コ ー ド 系 は 、 い わ ゆ る JIS コ ー ド ( ISO-2022-JP に 基 づ く も の )、 Shift_JIS ( MS 漢 字 コ ー ド )、 日 本 語 EUC ( AT&T コ ー ド )、 UTF-8、 UTF-16 の い ず れ か で あ る 。 出 力 す る 漢 字 コ ー ド 系 も 、 こ れ ら で あ る 。 入 力 は 、 フ ァ イ ル を 指 定 し な け れ ば 、 標 準 入 力 と な る 。 出 力 は 標 準 出 力 で あ る 。
OPTIONS
指 定 で き る オ プ シ ョ ン は 、 以 下 の 通 り 。 -mu の よ う に 続 け る こ と が で き る 。
|
-j |
JIS コ ー ド を 出 力 す る 。 |
|||
|
-e |
EUC コ ー ド を 出 力 す る 。 |
|||
|
-s |
Shift_JIS コ ー ド を 出 力 す る 。 |
-w -w8[0] -w16[ BL ][0]
Unicode を 出
力 す る 。
-w -w80
UTF8 コ ー ド を 出 力 す る 。 ( BOM 無 し )
|
-w8 |
UTF8 コ ー ド を 出 力 す る 。 |
-w16 -w16B0
UTF16 コ ー ド を 出 力 す る 。 (Big Endian / BOM 無 し )
-w16B
UTF16 コ ー ド を 出 力 す る 。 (Big Endian / BOM 有 り )
-w16L
UTF16 コ ー ド を 出 力 す る 。 (Little Endian / BOM 有 り )
-w16L0
UTF16 コ ー ド を 出 力 す る 。 (Little Endian / BOM 無 し )
-m[ BQSN0 ]
MIME を 解 読 す る 。 (デ フ ォ ル ト ) ISO-2022-JP (B encode) と ISO-8859-1 (Q encode) の み を 解 読 す る 。 ISO-8859-1 (Latin-1) を 解 読 す る 時 は 、 -l フ ラ グ も 必 要 で あ る 。 -m0 で は MIME を 解 読 し な い 。 -mB , -mQ で は 、 BASE64, Q encode さ れ て い る も の と し て 処 理 す る 。
|
-mB |
MIME base64 stream を 解 読 す る 。 ヘ ッ ダ な ど は 取 り 除 く こ と 。 |
|||
|
-mQ |
MIME quoted stream を 解 読 す る 。 |
|||
|
-mS |
MIME の チ ェ ッ ク を 厳 し く す る (デ フ ォ ル ト ) |
|||
|
-mN |
MIME の チ ェ ッ ク を 緩 く す る |
|||
|
-m0 |
MIME を 解 読 し な い 。 |
-mS は 、 宣 言 の 内 容 と 、 そ の 後 に 続 く encoded-text の 整 合 性 を チ ェ ッ ク す る 。 -mN は 、 改 行 で 切 ら れ た MIME な ど も 解 読 す る 。 解 読 が 止 ま ら な い こ と も あ る 。
-M[ BQ ]
MIME に 変 換 す る 。
|
-M |
ヘ ッ ダ 形 式 に 変 換 す る |
|||
|
-MB |
base64 stream に 変 換 す る |
|||
|
-MQ |
Quoted stream に 変 換 す る |
-J -E -S -W
期 待 さ れ る 入 力 コ ー ド の 性 質 を 指 定 す る 。
|
-J |
ISO-2022-JP を 仮 定 す る 。 |
||
|
-E |
日 本 語 EUC ( AT&T ) を 仮 定 す る 。 |
||
|
-S |
Shift_JIS を 仮 定 す る 。 い わ ゆ る 半 角 カ ナ ( JIS X 0201 片 仮 名 ) も 受 け 入 れ る 。 |
||
|
-W |
UTF-8 を 仮 定 す る 。 |
||
|
-W8 |
UTF-8 を 仮 定 す る 。 |
-W16
UTF-16 (Little Endian)を 仮 定 す る 。
-W16B
UTF-16 (Big Endian)を 仮 定 す る 。
-W16L
UTF-16 (Little Endian)を 仮 定 す る 。
|
-x |
通 常 お こ な わ れ る 、 い わ ゆ る 半 角 カ ナ ( JIS X 0201 片 仮 名 ) か ら い わ ゆ る 全 角 カ ナ ( JIS X 0208 片 仮 名 ) へ の 変 換 を 行 わ ず 、 半 角 カ ナ を 保 存 す る 。 入 力 は 、 Shift_JIS の 1byte カ ナ 、 SO/SI、 ESC-(-I, SSO を 受 け 付 け る 。 出 力 は 、 日 本 語 EUC 中 で は SSO、 JIS コ ー ド 中 で は ESC- (-I を デ フ ォ ル ト で 用 い る 。 |
||
|
-X |
い わ ゆ る 半 角 カ ナ ( JIS X 0201 片 仮 名 ) を い わ ゆ る 全 角 カ ナ ( JIS X 0208 片 仮 名 ) へ と 変 換 す る 。 |
||
|
-B |
壊 れ た (Broken) JIS コ ー ド 。 ESC が な く な っ た と 仮 定 す る 。 |
-B1
|
ESC- ( , ESC-$ の あ と の コ ー ド を 問 わ な い |
||||
|
-B2 |
改 行 の あ と に 強 制 的 に ASCII に 戻 す |
-f [ m [- n ]]
一 行 m 文 字 に な る よ う に 、 マ ー ジ ン を n と し て 簡 単 な 整 形 を お こ な う 。 デ フ ォ ル ト は 文 字 数 は 60、 マ ー ジ ン は 10 で あ る 。
-Z[0-3]
JIS X 0208
英 数 字 と 若 干
の 記 号 を
ASCII
に 変 換 す る 。
つ ま り 、 全 角
を 半 角 に 変 換
す る 。
-Z -Z0
Convert X0208 alphabet to ASCII.
|
-Z1 |
JIS X 0208 和 字 間 隔 を ASCII space 一 つ に 変 換 す る 。 |
|||
|
-Z2 |
JIS X 0208 和 字 間 隔 を ASCII space 二 つ に 変 換 す る 。 |
|||
|
-Z3 |
> 、 < 、 ”、 & 、 を >、 <、 "、 & に 変 換 す る 。 |
|||
|
-b |
バ ッ フ ァ リ ン グ 出 力 を 行 う 。 (デ フ ォ ル ト )
|
-u |
出 力 時 に 、 バ ッ フ ァ リ ン グ し な い 。 ssh localhost | nkf -u と い う よ う に 使 う 。 |
||
|
-t |
何 も し な い 。 |
||
|
-I |
ISO-2022-JP 以 外 の 漢 字 コ ー ド を 〓 に 変 換 。 |
-i[@B]
JIS 漢 字 を 指 示 す る シ ー ケ ン ス を 指 定 す る 。
|
-i@ |
JIS X 0208-1978 を 用 い る 。 |
|||
|
-iB |
JIS X 0208-1983/1990 を 用 い る 。 |
-o[ BJH ]
1 バ イ ト 英 数 文 字 セ ッ ト を 指 示 す る シ ー ケ ン ス を 指 定 す る 。
|
-oB |
1 バ イ ト 英 数 文 字 セ ッ ト と し て US-ASCII を 用 い る 。 |
||
|
-oJ |
1 バ イ ト 英 数 文 字 セ ッ ト と し て JIS X 0201 Roman を 用 い る 。 |
||
|
-oH |
ESC ( H は 初 期 の JUNET コ ー ド で の み 用 い ら れ た も の で 、 現 在 は 使 っ て は な ら な い 。 |
||
|
-r |
ROT13/47 の 変 換 を す る 。
|
-g |
自 動 判 別 の 結 果 を 出 力 し ま す 。 |
||
|
-T |
テ キ ス ト モ ー ド で 出 力 す る 。 ( MS-DOS 上 で の み 効 力 を 持 つ ) |
||
|
-l |
0x80-0xfe の コ ー ド を ISO-8859-1 (Latin-1) と し て 扱 う 。 JIS コ ー ド ア ウ ト プ ッ ト と の 組 合 せ み の み 有 効 。 -s, -e, -x と は 両 立 し な い 。 |
||
|
-O |
フ ァ イ ル に 出 力 す る 。 UNIX で は 不 要 な 機 能 だ が Windows や MSDOS で は 必 要 ら し い 。 直 後 の 引 き 数 で な く 、 最 後 の フ ァ イ ル 名 が 出 力 フ ァ イ ル 名 と な り 上 書 き さ れ て し ま う の で 注 意 。 フ ァ イ ル 名 が な い 場 合 は nkf.out。 |
-L[uwm] -d -c
改 行 コ
ー ド を 変 換 す
る 。
-Lu -d
unix ( LF )
-Lw -c
windows ( CRLF )
|
-Lm |
mac ( CR ) |
デ フ ォ ル ト で は 変 換 し な い 。
--ic=<input_codeset --oc=<output_codeset>>
入 力 ・
出 力 の 漢 字 コ
ー ド 系 を 指 定
し ま す 。
ISO-2022-JP
い わ ゆ る JIS コ ー ド 。 -j, -J と 同 じ 。
ISO-2022-JP-1
RFC 2237 に 定 め ら れ た 形 式 。 JIS X 0212 を 含 む 。
ISO-2022-JP-3
RFC 2237 に 定 め ら れ た 形 式 。 JIS X 0213 を 含 む 。
EUC-JP
EUC コ ー ド 。 -e, -E と 同 じ 。
EUC-JISX0213
文 字 集 合 に JIS X 0213:2000 を 用 い た EUC-JP。
EUC-JIS-2004
文 字 集 合 に JIS X 0213:2004 を 用 い た EUC-JP。
eucJP-ascii
オ ー プ ン グ ル ー プ 日 本 ベ ン ダ 協 議 会 が 定 義 し た eucJP-ascii。 -x が 暗 黙 の う ち に 指 定 さ れ る 。
eucJP-ms
オ ー プ ン グ ル ー プ 日 本 ベ ン ダ 協 議 会 が 定 義 し た euc-JPms。 -x が 暗 黙 の う ち に 指 定 さ れ る 。
CP51932
Micorosft Code Page 51932。 -x が 暗 黙 の う ち に 指 定 さ れ る 。
Shift_JIS
Shift_JIS。 -s, -S と 同 じ 。
Shift_JISX0213
文 字 集 合 に JIS X 0213:2000 を 用 い た Shift_JIS。
Shift_JIS-2004
文 字 集 合 に JIS X 0213:2004 を 用 い た Shift_JIS。
CP932
Micorosft Code Page 932。 -x が 暗 黙 の う ち に 指 定 さ れ る 。
UTF-8 UTF-8N
BOM 無 し の UTF-8。 -w, -W と 同 じ 。
UTF-8-BOM
BOM 付 き の UTF-8。 -w8 ま た は -W と 同 じ 。
UTF8-MAC
UTF8-MAC。 互 換 分 解 さ れ た ひ ら が な ・ カ タ カ ナ 等 を 結 合 し ま す 。 入 力 の み の 対 応 で す 。
UTF-16 UTF-16BE-BOM
BOM 有 り で Big Endian の UTF-16。 -w16B, -W16B と 同 じ 。
UTF-16BE
BOM 無 し で Big Endian の UTF-16。 -w16B0. -W16B と 同 じ 。
UTF-16LE-BOM
BOM 有 り で Little Endian の UTF-16。 -w16L, -W16L と 同 じ 。
UTF-16LE
BOM 無 し で Little Endian の UTF-16。 -w16L0, -W16L と 同 じ 。
--fj --unix --mac --msdos --windows
こ れ ら の シ ス テ ム に 適 し た 変 換 を し ま す 。
--jis --euc --sjis --mime --base64
対 応 す る 変 換 を し ま す 。
--hiragana --katakana
平 仮 名 、 片 仮 名 変 換
--fb-{skip, html, xml, perl, java, subchar}
Unicode か ら Shift_JIS, EUC-JP, ISO-2022-JP に 変 換 す る 際 に 、 変 換 で き な か っ た 文 字 を ど う 扱 う か を 指 定 で き ま す 。
--prefix= escape charactertarget character ..
EUC-JP か ら Shift_JIS へ の 変 換 の 際 、 2 バ イ ト 目 に 現 れ た 文 字 の 前 に エ ス ケ ー プ 文 字 を つ け る こ と が で き ま す 。 引 数 の 1 文 字 目 が エ ス ケ ー プ 文 字 、 2 文 字 目 以 降 に エ ス ケ ー プ さ れ る べ き 文 字 を 指 定 し ま す 。
例 え ば 、
--prefix=\$@ と す る と 、 Shift_JIS の 2 文 字 目 に $ か @ が 来 た ら 、 そ の 前 に \ が 挿 入 さ れ ま す --prefix=@@ と す る と 、 Shift_JIS の 2 文 字 目 に @ が 来 た ら 、 そ の 前 に @ が 挿 入 さ れ ま す
--no-cp932ext
CP932 に お い て 拡 張 さ れ た 、 NEC 特 殊 文 字 、 NEC 選 定 IBM 拡 張 文 字 (89-92 区 )、 IBM 拡 張 文 字 を 変 換 し ま せ ん 。
--no-best-fit-chars
Unicode か ら の 変 換 の 際 に 、 往 復 安 全 性 が 確 保 さ れ な い 文 字 の 変 換 を 行 い ま せ ん 。 Unicode か ら Unicode の 変 換 の 際 に -x と 共 に 指 定 す る と 、 nkf を UTF 形 式 の 変 換 に 用 い る こ と が で き ま す 。 (逆 に 言 え ば 、 こ れ を 指 定 し な い と 一 部 の 文 字 が 保 存 さ れ ま せ ん )
パ ス に 関 わ る 文 字 列 を 変 換 す る 際 に は 、 こ の オ プ シ ョ ン を 指 定 す る こ と を 強 く 推 奨 し ま す 。
--cap-input, --url-input
そ れ ぞ れ :、 % に 続 く 16 進 数 を 文 字 に 変 換 す る
--numchar-input
&#....; の よ う な Unicode 文 字 参 照 を 変 換 す る
--in-place[= SUFFIX ] --overwrite[= SUFFIX ]
元 の フ ァ イ ル を 変 換 結 果 で 置 き 換 え る 。 複 数 の フ ァ イ ル を 書 き 換 え る こ と も 可 能 。 元 の フ ァ イ ル の タ イ ム ス タ ン プ と パ ー ミ ッ シ ョ ン が 保 持 さ れ る 。 現 在 、 作 成 日 時 や inode は 変 更 さ れ る が 、 将 来 に わ た っ て こ の 実 装 の ま ま で あ る 保 証 は 無 い 。
--guess
自 動 判 別 の 結 果 を 出 力 す る
--help
コ マ ン ド の 簡 単 な 説 明 を 表 示 す る 。
|
-V |
nkf の 設 定 を 表 示 す る 。 |
-v --version
nkf の バ ー ジ ョ ン を 表 示 す る 。
|
-- |
こ れ 以 降 の オ プ シ ョ ン を 無 視 す る |
--exec-in
nkf [options] --exec-in cmd args... と や る と 、 cmd の 出 力 を nkf の 入 力 と す る (config.h で EXEC_IO を define し て コ ン パ イ ル し た 時 の み 有 効 )
--exec-out
nkf [options] --exec-out cmd args... と や る と 、 nkf の 出 力 を cmd の 入 力 と す る (config.h で EXEC_IO を define し て コ ン パ イ ル し た 時 の み 有 効 )
BUGS
実 は 、 入 力 の コ ー ド 系 の 判 定 は 、 Shift_JIS と EUC と の 自 動 判 定 で あ り 、 最 初 に 特 定 で き る 文 字 が 来 た 時 点 で 確 定 し て し ま う 。 そ し て 、 特 定 不 能 の 間 は 保 留 バ ッ フ ァ に た め て お か れ 、 確 定 後 に 処 理 さ れ る 。 こ の た め 、 7 ビ ッ ト JIS は 常 に 認 識 さ れ る 。 Shift_JIS、 EUC 混 合 も ほ と ん ど の 場 合 は 問 題 が な い 。 た だ し 、 Shift_JIS の い わ ゆ る 半 角 カ ナ ( JIS X 0201 片 仮 名 ) と EUC 漢 字 が 識 別 で き な い 。 し た が っ て 、 デ フ ォ ル ト で は Shift_JIS の い わ ゆ る 半 角 カ ナ は な い と 仮 定 し て い る 。 (つ ま り 、 Shift_JIS か EUC か 迷 っ た 時 は EUC と み な す )
Unicode の 日 本 語 以 外 の 部 分 の 変 換 に は 対 応 し て い な い が 、 --no-best-fit-chars を 指 定 す れ ば 、 UTF-8 と UTF-16 の 相 互 変 換 を す る こ と は 可 能 で あ る 。
ACKNOWLEDGE
以 下 の か た が た 、 ど う も あ り が と う ご ざ い ま し た 。
nkf 1.4
morb@fujitsu, kiss@ayumi.stars.flab.fujitsu, cen122@flab.fujitsu, yuki@flab.fujitsu 他 、 fujitsu & flab.fujitsu の 皆 さ ん の 協 力 に 感 謝 。 shinoda@cs.titech, kato@cs.titech, uematsu@cs.titech TNX kono@ie.u-ryukyu.ac.jp void@merope.pleiades.or.jp (Kusakabe Youichi) NIDE Naoyuki <nide@ics.nara-wu.ac.jp> ohta@src.ricoh.co.jp (Junn Ohta) inouet@strl.nhk.or.jp (Tomoyuki Inoue) kiri@pulser.win.or.jp (Tetsuaki Kiriyama) Kimihiko Sato <sato@sail.t.u-tokyo.ac.jp> a_kuroe@kuroe.aoba.yokohama.jp (Akihiko Kuroe) kono@ie.u-ryukyu.ac.jp (Shinji Kono) GHG00637@nifty-serve.or.jp ( COW )
nkf 1.9-
河
野 真 治
Akio Furukawa
Andy Taki
From:
OHARA
Shigeki
Fumitaka Kitagawa
Hiroaki Sengoku
Ikuhiro
MORITA
(森 田 育
宏 )
Yoshiharu
ITO
Junn Ohta
KAWAMURA
Masao
Kazuhiko Mori
Keitaro Isokawa
Ken-ichi Hirose
Ki-ichiro
SATO
Kiwamu Aoyama
Koichi Hirayama
Mitsuru Hase (長 谷 満 )
OHARA
Shigeki (大 原 重 樹 )
Rei
FURUKAWA
Satoru Takabayashi
Shigeyuki Takagi
Shin
MICHIMUKO
Tadamasa Teranishi
TOYODA
Jiro
TSUCHIYA
Masatoshi
Tsutomu Sakai
YAMASHITA
Junji (山 下 純 司
)
Yasuyuki Sato
Yoshiaki Yanagihara
hat@so-net
D C C 技 術 部
渡 辺
か と ぺ / 加 藤 貴
司
か べ dais
ひ ろ せ ま さ あ
き
イ ン ト ラ ネ ッ
ト シ ス テ ム (株
)松 尾
鵜 飼 文 敏
塩 崎 毅 彦 (
SHIOZAKI
Takehiko)
河 村 雅 夫 (Media Lab.)
河 野 康 司
喜 瀬 “冬 猫 ”浩
@ 南 国 沖 縄
金 井 智 彦
桂 田 祐 史 (か つ
ら だ ま さ し )
高 橋 宜 盟
国 吉
黒 江 明 彦
三 宅 正 泰
山 倉 真
山 本 芳 人
山 野 裕 司 (や ま
の ゆ う じ )
重 村 法 克
小 島 基 靖
上 田 健
新 井 康 司 (Koji Arai)
森 千 絵 子
森 和 彦
水 野 貴 文
前 地 和 俊
仲 宗 根 @ 並 列
信 頼 研
猪 谷 英 一 郎 == Eiichiro
Itani
藤 原 秀 行
八 田 真 行 (Masayuki Hatta)
尾 川 敏 也
望 月 孝 志
木 村 (@ 筑 波 大
学 数 学 研 究 科 )
野 村 俊 彰
有 岡 @ ミ ノ ル
タ
有 沢 明 宏
落 合 一 喜
林 亮
國 安 治
木 下 雄 介
田 中 隆 裕
鶴 谷 直 樹
中 田 伸 悦
わ た な べ ひ ろ
ふ み
MoonWolf
sava
AUTHOR
市
川 至 ichikawa@flab.fujitsu.co.jp (was
ichikawa@fujitsu.JUNET)
河 野 真 治 kono@ie.u-ryukyu.acjp
Rei
FURUKAWA
furukawa@tcp-ip.or.jp
成 瀬
mastodon
https://osdn.jp/projects/nkf/
Copyright (C) 1987, FUJITSU LTD. (I.Ichikawa).
Copyright (C) 1996-2018, The nkf Project.