Man page - unicode(7)
Packages contains this manual
- shm_overview(7)
- nss(5)
- proc_mtrr(5)
- intro(7)
- tcp(7)
- iso_8859-9(7)
- armscii-8(7)
- proc_kpagecount(5)
- initrd(4)
- mouse(4)
- proc_stat(5)
- x25(7)
- proc_interrupts(5)
- fifo(7)
- repertoiremap(5)
- icmp(7)
- futex(7)
- feature_test_macros(7)
- lp(4)
- bpf-helpers(7)
- epoll(7)
- proc_sys_dev(5)
- namespaces(7)
- proc_sysrq-trigger(5)
- proc_bus(5)
- cp1251(7)
- proc_pid_maps(5)
- proc_sys_vm(5)
- proc_pid_projid_map(5)
- st(4)
- proc_pid(5)
- issue(5)
- pid_namespaces(7)
- unicode(7)
- inode(7)
- hosts.equiv(5)
- iso-8859-13(7)
- proc_fb(5)
- proc_modules(5)
- proc_pid_autogroup(5)
- keyrings(7)
- sysvipc(7)
- proc_kmsg(5)
- cgroups(7)
- latin6(7)
- proc_pid_uid_map(5)
- unix(7)
- proc_pid_io(5)
- pts(4)
- packet(7)
- ld-linux.so(8)
- tzselect(8)
- iconv(1)
- proc_pid_syscall(5)
- proc_pid_net(5)
- proc_pid_pagemap(5)
- tty(4)
- proc_profile(5)
- standards(7)
- proc_pid_mounts(5)
- filesystems(5)
- iso-8859-15(7)
- locale(5)
- iso_8859_3(7)
- xattr(7)
- iso-8859-2(7)
- proc_uptime(5)
- persistent-keyring(7)
- credentials(7)
- proc_pid_timers(5)
- utmpx(5)
- vcsa(4)
- proc_pid_exe(5)
- proc_net(5)
- proc_timer_stats(5)
- ip(7)
- proc_pid_fd(5)
- ptmx(4)
- user_namespaces(7)
- resolv.conf(5)
- url(7)
- iso_8859_5(7)
- iso_8859-8(7)
- urn(7)
- process-keyring(7)
- proc_pid_auxv(5)
- proc_ksyms(5)
- proc_ide(5)
- veth(4)
- ldd(1)
- proc_swaps(5)
- landlock(7)
- proc_vmstat(5)
- system_data_types(7)
- cp1252(7)
- lirc(4)
- proc_kpageflags(5)
- random(7)
- precedence(7)
- cpuset(7)
- proc_pid_ns(5)
- acct(5)
- latin4(7)
- proc_pid_cgroup(5)
- proc_cpuinfo(5)
- iso_8859-2(7)
- proc_keys(5)
- charsets(7)
- pldd(1)
- proc_pid_stat(5)
- rtnetlink(7)
- netlink(7)
- ram(4)
- mem(4)
- iso-8859-6(7)
- proc_key-users(5)
- iso_8859_15(7)
- fanotify(7)
- proc_sys_net(5)
- sysfs(5)
- math_error(7)
- latin1(7)
- proc_pid_root(5)
- nptl(7)
- proc_cgroups(5)
- proc_iomem(5)
- proc_pid_statm(5)
- sem_overview(7)
- hier(7)
- full(4)
- proc_pid_status(5)
- proc_pid_cwd(5)
- proc_pid_cpuset(5)
- proc_scsi(5)
- uri(7)
- proc_diskstats(5)
- iso_8859_6(7)
- latin2(7)
- latin5(7)
- man-pages(7)
- ld.so(8)
- uts_namespaces(7)
- proc_pid_mountstats(5)
- intro(3)
- proc_pid_seccomp(5)
- proc_pid_wchan(5)
- attributes(7)
- symlink(7)
- mount_namespaces(7)
- charmap(5)
- tis-620(7)
- iso-8859-10(7)
- getent(1)
- proc_buddyinfo(5)
- ttytype(5)
- rtc(4)
- proc_malloc(5)
- suffixes(7)
- sln(8)
- signal(7)
- proc_sys_abi(5)
- signal-safety(7)
- time_namespaces(7)
- proc_pid_comm(5)
- raw(7)
- gai.conf(5)
- proc_crypto(5)
- locale(1)
- iso-8859-3(7)
- motd(5)
- proc_meminfo(5)
- iso-8859-8(7)
- protocols(5)
- proc_pid_map_files(5)
- pthreads(7)
- null(4)
- proc(5)
- zdump(8)
- socket(7)
- proc_sys_kernel(5)
- ddp(7)
- memusagestat(1)
- hd(4)
- iso-8859-14(7)
- shells(5)
- pipe(7)
- glob(7)
- proc_self(5)
- network_namespaces(7)
- utmp(5)
- proc_kcore(5)
- nsswitch.conf(5)
- sd(4)
- iso-8859-5(7)
- iso_8859_16(7)
- man(7)
- iso_8859-6(7)
- dir_colors(5)
- mq_overview(7)
- vsock(7)
- ascii(7)
- thread-keyring(7)
- fs(5)
- proc_pid_attr(5)
- proc_sys_debug(5)
- proc_sys(5)
- proc_pid_cmdline(5)
- pty(7)
- services(5)
- cgroup_namespaces(7)
- securetty(5)
- netdevice(7)
- iso_8859_13(7)
- host.conf(5)
- proc_pid_setgroups(5)
- proc_slabinfo(5)
- sock_diag(7)
- iso_8859-14(7)
- iso-8859-11(7)
- iso_8859_11(7)
- operator(7)
- regex(7)
- wavelan(4)
- proc_sys_fs(5)
- nologin(5)
- proc_pci(5)
- koi8-r(7)
- erofs(5)
- intro(2)
- utf8(7)
- proc_kallsyms(5)
- proc_sysvipc(5)
- queue(7)
- proc_sys_sunrpc(5)
- intro(5)
- latin8(7)
- mtrace(1)
- ipc_namespaces(7)
- dsp56k(4)
- iso_8859_4(7)
- proc_pid_smaps(5)
- proc_cmdline(5)
- rpc(5)
- proc_tty(5)
- proc_version(5)
- smartpqi(4)
- proc_pid_timerslack_ns(5)
- aio(7)
- session-keyring(7)
- resolver(5)
- slabinfo(5)
- wtmp(5)
- iso_8859_9(7)
- proc_locks(5)
- mailaddr(7)
- proc_pid_oom_score(5)
- kmem(4)
- iconvconfig(8)
- iso_8859-7(7)
- glibc(7)
- hostname(7)
- proc_thread-self(5)
- ipv6(7)
- iso_8859_7(7)
- proc_kpagecgroup(5)
- core(5)
- time(7)
- units(7)
- proc_dma(5)
- loop(4)
- address_families(7)
- zero(4)
- intro(4)
- procfs(5)
- iso_8859-4(7)
- vdso(7)
- tmpfs(5)
- iso-8859-16(7)
- iso_8859_10(7)
- user-session-keyring(7)
- libc(7)
- proc_fs(5)
- koi8-u(7)
- latin3(7)
- proc_tid_children(5)
- proc_pid_limits(5)
- proc_pid_coredump_filter(5)
- iso_8859-15(7)
- arp(7)
- urandom(4)
- iso_8859-10(7)
- hpsa(4)
- proc_pid_environ(5)
- boot(7)
- ftm(7)
- ld-linux(8)
- proc_driver(5)
- loop-control(4)
- iso_8859-16(7)
- proc_filesystems(5)
- tzfile(5)
- sprof(1)
- proc_pid_task(5)
- proc_pid_oom_score_adj(5)
- proc_mounts(5)
- iso-8859-4(7)
- iso_8859-1(7)
- utf-8(7)
- iso_8859-13(7)
- intro(6)
- proc_timer_list(5)
- rtld-audit(7)
- iso_8859-3(7)
- group(5)
- sched(7)
- proc_pid_clear_refs(5)
- hosts(5)
- iso_8859-11(7)
- numa(7)
- iso_8859_2(7)
- locale(7)
- iso-8859-1(7)
- fuse(4)
- proc_tid(5)
- proc_execdomains(5)
- proc_pid_mountinfo(5)
- intro(8)
- iso_8859_8(7)
- proc_loadavg(5)
- proc_pid_oom_adj(5)
- re_format(7)
- iso_8859_14(7)
- zic(8)
- bootparam(7)
- inotify(7)
- posixoptions(7)
- proc_partitions(5)
- iso-8859-9(7)
- proc_pid_mem(5)
- networks(5)
- proc_sys_user(5)
- udp(7)
- proc_zoneinfo(5)
- latin10(7)
- proc_pid_fdinfo(5)
- proc_pid_stack(5)
- memusage(1)
- spufs(7)
- pkeys(7)
- path_resolution(7)
- proc_ioports(5)
- intro(1)
- ldconfig(8)
- msr(4)
- svipc(7)
- port(4)
- proc_pid_personality(5)
- cciss(4)
- latin9(7)
- capabilities(7)
- localedef(1)
- vcs(4)
- iso_8859-5(7)
- elf(5)
- proc_sys_proc(5)
- console_codes(4)
- random(4)
- iso-8859-7(7)
- termcap(5)
- cpuid(4)
- environ(7)
- string_copying(7)
- proc_pid_gid_map(5)
- queue(3)
- termio(7)
- user-keyring(7)
- complex(7)
- latin7(7)
- proc_config.gz(5)
- udplite(7)
- kernel_lockdown(7)
- proc_devices(5)
- proc_apm(5)
- iso_8859_1(7)
- proc_pid_numa_maps(5)
apt-get install manpages
Available languages:
en fr pt_BR es it pl cs ja ru ro zh_TW zh_CN deManual
UNICODE
NAME描 述 (DESCRIPTION)
組 合 字 元 (COMBINING CHARACTERS)
實 現 級 別 (IMPLEMENTATION LEVELS)
LINUX 下 的 UNICODE (UNICODE UNDER LINUX)
私 有 區 (PRIVATE AREA)
文 獻 (LITERATURE)
缺 憾 (BUGS)
作 者 (AUTHOR)
又 見 (SEE ALSO)
[中 文 版 維 護 人 ]
[中 文 版 最 新 更 新 ]
《 中 國 linux論 壇 man手 冊 頁 翻 譯 計 劃 》 :
跋
NAME
Unicode - 16 位 統 一 超 級 字 元 集
描 述 (DESCRIPTION)
國 際 標 準 ISO 10646 定 義 了 通 用 字 元 集 (Universal Character Set, UCS) . UCS 包 含 所 有 別 的 字 元 集 標 準 裡 的 字 元 ,並 且 保 證 了 互 換 相 容 性 (round-trip compatibility) , 也 就 是 說 , 當 一 個 字 串 在 UCS 和 任 何 別 的 字 元 集 之 間 轉 換 時 , 轉 換 表 可 以 保 證 不 會 有 資 訊 丟 失 現 象 發 生 .
UCS 包 含 了 表 示 幾 乎 所 有 已 知 的 語 言 所 必 需 的 字 元 . 該 字 元 集 既 包 括 那 些 使 用 擴 充 套 件 拉 丁 語 的 語 言 ,也 包 括 下 面 的 這 些 語 言 : Greek, Cyrillic, Hebrew,Arabic, Armenian, Gregorian, Japanese, Chinese, Hiragana, Katakana, Korean, Hangul, Devangari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, alayam, Thai, Lao, Bopomofo,等 等 .而 另 外 的 語 言 ,例 如 Tibetian, Khmer, Runic, Ethiopian, Hieroglyphics, 各 種 Indo-European 語 言 , 還 有 許 多 其 他 的 語 言 , 正 在 被 加 入 其 中 .1993 年 釋 出 該 標 準 的 時 候 , 還 不 清 楚 怎 樣 才 能 對 後 面 加 入 的 這 些 語 言 中 的 大 部 分 作 更 好 的 編 碼 . 另 外 , 這 些 語 言 所 需 的 字 元 , 以 及 由 TeX, PostScript, MS-DOS, Macintosh, Videotext, OCR, 還 有 很 多 字 處 理 系 統 所 提 供 的 大 量 的 圖 形 , 印 刷 體 , 數 學 和 科 學 符 號 , 都 已 被 包 括 進 來 , 還 包 括 了 一 些 特 別 編 碼 以 保 證 和 所 有 其 它 已 存 在 字 元 集 標 準 的 可 逆 轉 換 相 容 性 .
UCS 標 準 (ISO 10646) 描 述 了 一 個 31 位 字 元 集 的 體 系 , 不 過 , 目 前 只 使 用 了 前 面 65534 個 編 碼 位 置 (0x0000-0xfffd, 它 們 被 稱 為 基 本 多 語 言 塊 (Basic Multilingual Plane,BMP)) , 分 配 給 了 字 元 , 而 且 我 們 估 計 只 有 那 些 很 古 怪 的 字 元 (比 如 . Hieroglyphics)為 了 專 門 的 科 學 目 的 , 才 會 在 將 來 的 某 個 時 候 , 需 要 16 位 的 BMP 之 外 的 部 分 .
從 0x0000 到 0x007f 之 間 的 UCS 字 元 和 經 典 US-ASCII 字 元 集 是 一 樣 的 , 而 從 0x0000 到 0x00ff 之 間 的 字 元 等 於 ISO 8859-1 Latin-1 字 元 集 .
組 合 字 元 (COMBINING CHARACTERS)
一 些 UCS 編 碼 被 分 配 給 了 組 合 字 元 (combining characters) . 這 樣 的 情 形 有 點 類 似 於 打 字 機 上 的 重 音 鍵 . 一 個 組 合 字 元 只 是 給 前 面 的 字 元 新 增 一 個 重 音 . 在 UCS 裡 最 重 要 的 重 音 字 元 都 有 他 們 自 己 的 編 碼 , 不 過 , 組 合 字 元 機 制 允 許 給 任 一 字 元 新 增 重 音 和 其 他 的 可 識 別 記 號 . 組 合 字 元 總 是 跟 在 那 些 他 們 所 修 飾 的 字 元 後 面 . 例 如 ,德 語 符 號 Umlaut-A (帶 分 音 符 的 大 寫 拉 丁 字 母 A)既 可 以 表 示 為 UCS 編 碼 0x00c4, 也 可 以 用 一 個 正 常 的 "大 寫 拉 丁 字 母 A"後 面 跟 一 個 "組 合 分 音 符 號 ": 0x0041 0x0308 來 表 示 .
實 現 級 別 (IMPLEMENTATION LEVELS)
由
於 不 是 所 有 系
統 都 支 援 象 組
合 字 元 這 樣 的
高 階 機 制 , ISO 10646 指
明 瞭
UCS
的 三 種
實 現 級 別 :
級 別 1 (Level 1)
不 支 援 組 合 字 元 和 Hangul Jamo 字 元 (朝 鮮 語 的 一 種 更 復 雜 的 專 用 的 編 碼 , Hangul 音 節 編 碼 成 兩 或 三 個 亞 字 元 ).
級 別 2 (Level 2)
類 似 於 級 別 1, 卻 在 一 些 語 言 裡 面 也 支 援 一 些 組 合 字 元 . (比 如 . Hebrew, Arabic, Devangari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugo, Kannada, Malayalam, Thai 和 Lao).
級 別 3 (Level 3)
支 援 所 有 UCS 字 元 .
Unicode 協 會 發 布 的 Unicode 1.1 標 準 和 ISO 10646 所 描 述 的 那 樣 , 在 第 3 執 行 級 別 只 包 括 了 UCS (基 本 多 語 言 塊 Basic Multilingual Plane). Unicode 1.1 還 為 一 些 ISO 10646 的 字 元 定 義 加 入 了 一 些 語 義 定 義 .
LINUX 下 的 UNICODE (UNICODE UNDER LINUX)
在 Linux 下 , 為 了 降 低 組 合 字 元 的 實 現 複 雜 性 , 目 前 只 包 括 了 執 行 級 別 1 下 的 BMP. 更 高 的 執 行 級 別 更 適 合 於 專 門 的 字 處 理 格 式 , 而 不 是 一 個 普 通 的 系 統 字 元 集 . 在 linux 下 C 的 型 別 wchar_t 是 一 個 有 符 號 位 的 32 位 整 型 並 且 其 值 解 釋 為 UCS4 編 碼 .
本 地 化 設 定 指 明 系 統 字 元 編 碼 是 使 用 諸 如 UTF-8 還 是 ISO 8859-1 這 樣 的 編 碼 . 象 庫 函 式 wctomb, mbtowc, 或 者 wprintf 就 可 以 用 於 內 部 wchar_t 字 元 及 字 串 與 系 統 字 元 編 碼 之 間 做 轉 換 .
私 有 區 (PRIVATE AREA)
在 BMP 裡 , 0xe000 到 0xf8ff 的 範 圍 被 標 準 保 留 做 私 用 因 而 永 遠 不 會 被 分 配 給 任 何 字 元 . 對 於 Linux 社 群 , 該 私 有 區 被 再 細 分 為 可 以 被 任 何 終 端 使 用 者 獨 立 使 用 的 0xe000 到 0xefff 的 範 圍 , 以 及 從 0xf000 到 0xf8ff 給 所 有 linux 使 用 者 所 共 用 的 linux 區 .H. Peter Anvin(<Peter.Anvin@linux.org>, Yggdrasil Computing,Inc) 現 在 維 護 登 記 分 配 到 linux 區 的 字 元 . 該 區 包 括 一 些 Unicode 中 缺 少 的 DEC VT100 的 圖 形 字 元 , 這 使 控 制 檯 的 字 型 緩 衝 區 可 以 直 接 獲 得 這 些 字 元 , 該 區 還 包 括 一 些 象 Klingon 這 樣 的 古 老 語 言 所 使 用 的 字 元 .
文 獻 (LITERATURE)
|
* |
Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane. International Standard ISO 10646-1, International Organization for Standardization, Geneva, 1993. |
這 是 UCS 的 正 式 規 範 , 非 常 正 式 , 也 很 厚 , 還 非 常 貴 . 如 果 要 定 購 資 訊 , 去 看 看 www.iso.ch.
|
* |
The Unicode Standard - Worldwide Character Encoding Version 1.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 1991. |
Unicode 已 經 有 1.1.4 版 可 用 ,與 1.0 版 的 差 別 可 以 在 ftp.unicode.org 找 到 . Unicode 2.0 也 將 在 1996 年 出 版 一 本 書 .
|
* |
S. Harbison, G. Steele. C - A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3. |
一 本 很 好 的 C 語 言 程 式 設 計 參 考 書 . 現 在 的 第 四 版 包 含 了 1994 年 對 標 準 ISO C 的 第 一 次 修 正 (ISO/IEC 9899:1990), 添 加 了 大 量 處 理 多 種 字 元 集 的 新 的 C 庫 函 式 .
缺 憾 (BUGS)
在 寫 這 個 手 冊 頁 的 時 候 ,linux 對 UCS 的 C 語 言 庫 支 援 遠 未 完 成 .
作 者 (AUTHOR)
Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
又 見 (SEE ALSO)
utf-8(7), http://www.linuxforum.net/books/UTF-8-Unicode.html
[中 文 版 維 護 人 ]
mapping <mapping@263.net>
[中 文 版 最 新 更 新 ]
2000/11/06
《 中 國 linux論 壇 man手 冊 頁 翻 譯 計 劃 》 :
http://cmpp.linuxforum.net
跋
本
頁 面 中 文 版 由
中 文 man 手 冊 頁 計
劃 提 供 。
中 文 man 手 冊 頁 計
劃 :
https://github.com/man-pages-zh/manpages-zh