Man page - unicode(7)
Packages contains this manual
- shm_overview(7)
- nss(5)
- proc_mtrr(5)
- intro(7)
- tcp(7)
- iso_8859-9(7)
- armscii-8(7)
- proc_kpagecount(5)
- initrd(4)
- mouse(4)
- proc_stat(5)
- x25(7)
- proc_interrupts(5)
- fifo(7)
- repertoiremap(5)
- icmp(7)
- futex(7)
- feature_test_macros(7)
- lp(4)
- bpf-helpers(7)
- epoll(7)
- proc_sys_dev(5)
- namespaces(7)
- proc_sysrq-trigger(5)
- proc_bus(5)
- cp1251(7)
- proc_pid_maps(5)
- proc_sys_vm(5)
- proc_pid_projid_map(5)
- st(4)
- proc_pid(5)
- issue(5)
- pid_namespaces(7)
- unicode(7)
- inode(7)
- hosts.equiv(5)
- iso-8859-13(7)
- proc_fb(5)
- proc_modules(5)
- proc_pid_autogroup(5)
- keyrings(7)
- sysvipc(7)
- proc_kmsg(5)
- cgroups(7)
- latin6(7)
- proc_pid_uid_map(5)
- unix(7)
- proc_pid_io(5)
- pts(4)
- packet(7)
- ld-linux.so(8)
- tzselect(8)
- iconv(1)
- proc_pid_syscall(5)
- proc_pid_net(5)
- proc_pid_pagemap(5)
- tty(4)
- proc_profile(5)
- standards(7)
- proc_pid_mounts(5)
- filesystems(5)
- iso-8859-15(7)
- locale(5)
- iso_8859_3(7)
- xattr(7)
- iso-8859-2(7)
- proc_uptime(5)
- persistent-keyring(7)
- credentials(7)
- proc_pid_timers(5)
- utmpx(5)
- vcsa(4)
- proc_pid_exe(5)
- proc_net(5)
- proc_timer_stats(5)
- ip(7)
- proc_pid_fd(5)
- ptmx(4)
- user_namespaces(7)
- resolv.conf(5)
- url(7)
- iso_8859_5(7)
- iso_8859-8(7)
- urn(7)
- process-keyring(7)
- proc_pid_auxv(5)
- proc_ksyms(5)
- proc_ide(5)
- veth(4)
- ldd(1)
- proc_swaps(5)
- landlock(7)
- proc_vmstat(5)
- system_data_types(7)
- cp1252(7)
- lirc(4)
- proc_kpageflags(5)
- random(7)
- precedence(7)
- cpuset(7)
- proc_pid_ns(5)
- acct(5)
- latin4(7)
- proc_pid_cgroup(5)
- proc_cpuinfo(5)
- iso_8859-2(7)
- proc_keys(5)
- charsets(7)
- pldd(1)
- proc_pid_stat(5)
- rtnetlink(7)
- netlink(7)
- ram(4)
- mem(4)
- iso-8859-6(7)
- proc_key-users(5)
- iso_8859_15(7)
- fanotify(7)
- proc_sys_net(5)
- sysfs(5)
- math_error(7)
- latin1(7)
- proc_pid_root(5)
- nptl(7)
- proc_cgroups(5)
- proc_iomem(5)
- proc_pid_statm(5)
- sem_overview(7)
- hier(7)
- full(4)
- proc_pid_status(5)
- proc_pid_cwd(5)
- proc_pid_cpuset(5)
- proc_scsi(5)
- uri(7)
- proc_diskstats(5)
- iso_8859_6(7)
- latin2(7)
- latin5(7)
- man-pages(7)
- ld.so(8)
- uts_namespaces(7)
- proc_pid_mountstats(5)
- intro(3)
- proc_pid_seccomp(5)
- proc_pid_wchan(5)
- attributes(7)
- symlink(7)
- mount_namespaces(7)
- charmap(5)
- tis-620(7)
- iso-8859-10(7)
- getent(1)
- proc_buddyinfo(5)
- ttytype(5)
- rtc(4)
- proc_malloc(5)
- suffixes(7)
- sln(8)
- signal(7)
- proc_sys_abi(5)
- signal-safety(7)
- time_namespaces(7)
- proc_pid_comm(5)
- raw(7)
- gai.conf(5)
- proc_crypto(5)
- locale(1)
- iso-8859-3(7)
- motd(5)
- proc_meminfo(5)
- iso-8859-8(7)
- protocols(5)
- proc_pid_map_files(5)
- pthreads(7)
- null(4)
- proc(5)
- zdump(8)
- socket(7)
- proc_sys_kernel(5)
- ddp(7)
- memusagestat(1)
- hd(4)
- iso-8859-14(7)
- shells(5)
- pipe(7)
- glob(7)
- proc_self(5)
- network_namespaces(7)
- utmp(5)
- proc_kcore(5)
- nsswitch.conf(5)
- sd(4)
- iso-8859-5(7)
- iso_8859_16(7)
- man(7)
- iso_8859-6(7)
- dir_colors(5)
- mq_overview(7)
- vsock(7)
- ascii(7)
- thread-keyring(7)
- fs(5)
- proc_pid_attr(5)
- proc_sys_debug(5)
- proc_sys(5)
- proc_pid_cmdline(5)
- pty(7)
- services(5)
- cgroup_namespaces(7)
- securetty(5)
- netdevice(7)
- iso_8859_13(7)
- host.conf(5)
- proc_pid_setgroups(5)
- proc_slabinfo(5)
- sock_diag(7)
- iso_8859-14(7)
- iso-8859-11(7)
- iso_8859_11(7)
- operator(7)
- regex(7)
- wavelan(4)
- proc_sys_fs(5)
- nologin(5)
- proc_pci(5)
- koi8-r(7)
- erofs(5)
- intro(2)
- utf8(7)
- proc_kallsyms(5)
- proc_sysvipc(5)
- queue(7)
- proc_sys_sunrpc(5)
- intro(5)
- latin8(7)
- mtrace(1)
- ipc_namespaces(7)
- dsp56k(4)
- iso_8859_4(7)
- proc_pid_smaps(5)
- proc_cmdline(5)
- rpc(5)
- proc_tty(5)
- proc_version(5)
- smartpqi(4)
- proc_pid_timerslack_ns(5)
- aio(7)
- session-keyring(7)
- resolver(5)
- slabinfo(5)
- wtmp(5)
- iso_8859_9(7)
- proc_locks(5)
- mailaddr(7)
- proc_pid_oom_score(5)
- kmem(4)
- iconvconfig(8)
- iso_8859-7(7)
- glibc(7)
- hostname(7)
- proc_thread-self(5)
- ipv6(7)
- iso_8859_7(7)
- proc_kpagecgroup(5)
- core(5)
- time(7)
- units(7)
- proc_dma(5)
- loop(4)
- address_families(7)
- zero(4)
- intro(4)
- procfs(5)
- iso_8859-4(7)
- vdso(7)
- tmpfs(5)
- iso-8859-16(7)
- iso_8859_10(7)
- user-session-keyring(7)
- libc(7)
- proc_fs(5)
- koi8-u(7)
- latin3(7)
- proc_tid_children(5)
- proc_pid_limits(5)
- proc_pid_coredump_filter(5)
- iso_8859-15(7)
- arp(7)
- urandom(4)
- iso_8859-10(7)
- hpsa(4)
- proc_pid_environ(5)
- boot(7)
- ftm(7)
- ld-linux(8)
- proc_driver(5)
- loop-control(4)
- iso_8859-16(7)
- proc_filesystems(5)
- tzfile(5)
- sprof(1)
- proc_pid_task(5)
- proc_pid_oom_score_adj(5)
- proc_mounts(5)
- iso-8859-4(7)
- iso_8859-1(7)
- utf-8(7)
- iso_8859-13(7)
- intro(6)
- proc_timer_list(5)
- rtld-audit(7)
- iso_8859-3(7)
- group(5)
- sched(7)
- proc_pid_clear_refs(5)
- hosts(5)
- iso_8859-11(7)
- numa(7)
- iso_8859_2(7)
- locale(7)
- iso-8859-1(7)
- fuse(4)
- proc_tid(5)
- proc_execdomains(5)
- proc_pid_mountinfo(5)
- intro(8)
- iso_8859_8(7)
- proc_loadavg(5)
- proc_pid_oom_adj(5)
- re_format(7)
- iso_8859_14(7)
- zic(8)
- bootparam(7)
- inotify(7)
- posixoptions(7)
- proc_partitions(5)
- iso-8859-9(7)
- proc_pid_mem(5)
- networks(5)
- proc_sys_user(5)
- udp(7)
- proc_zoneinfo(5)
- latin10(7)
- proc_pid_fdinfo(5)
- proc_pid_stack(5)
- memusage(1)
- spufs(7)
- pkeys(7)
- path_resolution(7)
- proc_ioports(5)
- intro(1)
- ldconfig(8)
- msr(4)
- svipc(7)
- port(4)
- proc_pid_personality(5)
- cciss(4)
- latin9(7)
- capabilities(7)
- localedef(1)
- vcs(4)
- iso_8859-5(7)
- elf(5)
- proc_sys_proc(5)
- console_codes(4)
- random(4)
- iso-8859-7(7)
- termcap(5)
- cpuid(4)
- environ(7)
- string_copying(7)
- proc_pid_gid_map(5)
- queue(3)
- termio(7)
- user-keyring(7)
- complex(7)
- latin7(7)
- proc_config.gz(5)
- udplite(7)
- kernel_lockdown(7)
- proc_devices(5)
- proc_apm(5)
- iso_8859_1(7)
- proc_pid_numa_maps(5)
apt-get install manpages
Available languages:
en fr pt_BR es it pl cs ja ru ro zh_TW zh_CN deManual
UNICODE
NAME描 述 (DESCRIPTION)
组 合 字 符 (COMBINING CHARACTERS)
实 现 级 别 (IMPLEMENTATION LEVELS)
LINUX 下 的 UNICODE (UNICODE UNDER LINUX)
私 有 区 (PRIVATE AREA)
文 献 (LITERATURE)
缺 憾 (BUGS)
作 者 (AUTHOR)
又 见 (SEE ALSO)
[中 文 版 维 护 人 ]
[中 文 版 最 新 更 新 ]
《 中 国 linux论 坛 man手 册 页 翻 译 计 划 》 :
跋
NAME
Unicode - 16 位 统 一 超 级 字 符 集
描 述 (DESCRIPTION)
国 际 标 准 ISO 10646 定 义 了 通 用 字 符 集 (Universal Character Set, UCS) . UCS 包 含 所 有 别 的 字 符 集 标 准 里 的 字 符 ,并 且 保 证 了 互 换 兼 容 性 (round-trip compatibility) , 也 就 是 说 , 当 一 个 字 符 串 在 UCS 和 任 何 别 的 字 符 集 之 间 转 换 时 , 转 换 表 可 以 保 证 不 会 有 信 息 丢 失 现 象 发 生 .
UCS 包 含 了 表 示 几 乎 所 有 已 知 的 语 言 所 必 需 的 字 符 . 该 字 符 集 既 包 括 那 些 使 用 扩 展 拉 丁 语 的 语 言 ,也 包 括 下 面 的 这 些 语 言 : Greek, Cyrillic, Hebrew,Arabic, Armenian, Gregorian, Japanese, Chinese, Hiragana, Katakana, Korean, Hangul, Devangari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, alayam, Thai, Lao, Bopomofo,等 等 .而 另 外 的 语 言 ,例 如 Tibetian, Khmer, Runic, Ethiopian, Hieroglyphics, 各 种 Indo-European 语 言 , 还 有 许 多 其 他 的 语 言 , 正 在 被 加 入 其 中 .1993 年 发 布 该 标 准 的 时 候 , 还 不 清 楚 怎 样 才 能 对 后 面 加 入 的 这 些 语 言 中 的 大 部 分 作 更 好 的 编 码 . 另 外 , 这 些 语 言 所 需 的 字 符 , 以 及 由 TeX, PostScript, MS-DOS, Macintosh, Videotext, OCR, 还 有 很 多 字 处 理 系 统 所 提 供 的 大 量 的 图 形 , 印 刷 体 , 数 学 和 科 学 符 号 , 都 已 被 包 括 进 来 , 还 包 括 了 一 些 特 别 编 码 以 保 证 和 所 有 其 它 已 存 在 字 符 集 标 准 的 可 逆 转 换 兼 容 性 .
UCS 标 准 (ISO 10646) 描 述 了 一 个 31 位 字 符 集 的 体 系 , 不 过 , 目 前 只 使 用 了 前 面 65534 个 编 码 位 置 (0x0000-0xfffd, 它 们 被 称 为 基 本 多 语 言 块 (Basic Multilingual Plane,BMP)) , 分 配 给 了 字 符 , 而 且 我 们 估 计 只 有 那 些 很 古 怪 的 字 符 (比 如 . Hieroglyphics)为 了 专 门 的 科 学 目 的 , 才 会 在 将 来 的 某 个 时 候 , 需 要 16 位 的 BMP 之 外 的 部 分 .
从 0x0000 到 0x007f 之 间 的 UCS 字 符 和 经 典 US-ASCII 字 符 集 是 一 样 的 , 而 从 0x0000 到 0x00ff 之 间 的 字 符 等 于 ISO 8859-1 Latin-1 字 符 集 .
组 合 字 符 (COMBINING CHARACTERS)
一 些 UCS 编 码 被 分 配 给 了 组 合 字 符 (combining characters) . 这 样 的 情 形 有 点 类 似 于 打 字 机 上 的 重 音 键 . 一 个 组 合 字 符 只 是 给 前 面 的 字 符 添 加 一 个 重 音 . 在 UCS 里 最 重 要 的 重 音 字 符 都 有 他 们 自 己 的 编 码 , 不 过 , 组 合 字 符 机 制 允 许 给 任 一 字 符 添 加 重 音 和 其 他 的 可 识 别 记 号 . 组 合 字 符 总 是 跟 在 那 些 他 们 所 修 饰 的 字 符 后 面 . 例 如 ,德 语 符 号 Umlaut-A (带 分 音 符 的 大 写 拉 丁 字 母 A)既 可 以 表 示 为 UCS 编 码 0x00c4, 也 可 以 用 一 个 正 常 的 "大 写 拉 丁 字 母 A"后 面 跟 一 个 "组 合 分 音 符 号 ": 0x0041 0x0308 来 表 示 .
实 现 级 别 (IMPLEMENTATION LEVELS)
由
于 不 是 所 有 系
统 都 支 持 象 组
合 字 符 这 样 的
高 级 机 制 , ISO 10646 指
明 了
UCS
的 三 种
实 现 级 别 :
级 别 1 (Level 1)
不 支 持 组 合 字 符 和 Hangul Jamo 字 符 (朝 鲜 语 的 一 种 更 复 杂 的 专 用 的 编 码 , Hangul 音 节 编 码 成 两 或 三 个 亚 字 符 ).
级 别 2 (Level 2)
类 似 于 级 别 1, 却 在 一 些 语 言 里 面 也 支 持 一 些 组 合 字 符 . (比 如 . Hebrew, Arabic, Devangari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugo, Kannada, Malayalam, Thai 和 Lao).
级 别 3 (Level 3)
支 持 所 有 UCS 字 符 .
Unicode 协 会 发 布 的 Unicode 1.1 标 准 和 ISO 10646 所 描 述 的 那 样 , 在 第 3 执 行 级 别 只 包 括 了 UCS (基 本 多 语 言 块 Basic Multilingual Plane). Unicode 1.1 还 为 一 些 ISO 10646 的 字 符 定 义 加 入 了 一 些 语 义 定 义 .
LINUX 下 的 UNICODE (UNICODE UNDER LINUX)
在 Linux 下 , 为 了 降 低 组 合 字 符 的 实 现 复 杂 性 , 目 前 只 包 括 了 执 行 级 别 1 下 的 BMP. 更 高 的 执 行 级 别 更 适 合 于 专 门 的 字 处 理 格 式 , 而 不 是 一 个 普 通 的 系 统 字 符 集 . 在 linux 下 C 的 类 型 wchar_t 是 一 个 有 符 号 位 的 32 位 整 型 并 且 其 值 解 释 为 UCS4 编 码 .
本 地 化 设 置 指 明 系 统 字 符 编 码 是 使 用 诸 如 UTF-8 还 是 ISO 8859-1 这 样 的 编 码 . 象 库 函 数 wctomb, mbtowc, 或 者 wprintf 就 可 以 用 于 内 部 wchar_t 字 符 及 字 符 串 与 系 统 字 符 编 码 之 间 做 转 换 .
私 有 区 (PRIVATE AREA)
在 BMP 里 , 0xe000 到 0xf8ff 的 范 围 被 标 准 保 留 做 私 用 因 而 永 远 不 会 被 分 配 给 任 何 字 符 . 对 于 Linux 社 区 , 该 私 有 区 被 再 细 分 为 可 以 被 任 何 终 端 用 户 独 立 使 用 的 0xe000 到 0xefff 的 范 围 , 以 及 从 0xf000 到 0xf8ff 给 所 有 linux 用 户 所 共 用 的 linux 区 .H. Peter Anvin(<Peter.Anvin@linux.org>, Yggdrasil Computing,Inc) 现 在 维 护 登 记 分 配 到 linux 区 的 字 符 . 该 区 包 括 一 些 Unicode 中 缺 少 的 DEC VT100 的 图 形 字 符 , 这 使 控 制 台 的 字 体 缓 冲 区 可 以 直 接 获 得 这 些 字 符 , 该 区 还 包 括 一 些 象 Klingon 这 样 的 古 老 语 言 所 使 用 的 字 符 .
文 献 (LITERATURE)
|
* |
Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane. International Standard ISO 10646-1, International Organization for Standardization, Geneva, 1993. |
这 是 UCS 的 正 式 规 范 , 非 常 正 式 , 也 很 厚 , 还 非 常 贵 . 如 果 要 定 购 信 息 , 去 看 看 www.iso.ch.
|
* |
The Unicode Standard - Worldwide Character Encoding Version 1.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 1991. |
Unicode 已 经 有 1.1.4 版 可 用 ,与 1.0 版 的 差 别 可 以 在 ftp.unicode.org 找 到 . Unicode 2.0 也 将 在 1996 年 出 版 一 本 书 .
|
* |
S. Harbison, G. Steele. C - A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3. |
一 本 很 好 的 C 语 言 编 程 参 考 书 . 现 在 的 第 四 版 包 含 了 1994 年 对 标 准 ISO C 的 第 一 次 修 正 (ISO/IEC 9899:1990), 添 加 了 大 量 处 理 多 种 字 符 集 的 新 的 C 库 函 数 .
缺 憾 (BUGS)
在 写 这 个 手 册 页 的 时 候 ,linux 对 UCS 的 C 语 言 库 支 持 远 未 完 成 .
作 者 (AUTHOR)
Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
又 见 (SEE ALSO)
utf-8(7), http://www.linuxforum.net/books/UTF-8-Unicode.html
[中 文 版 维 护 人 ]
mapping <mapping@263.net>
[中 文 版 最 新 更 新 ]
2000/11/06
《 中 国 linux论 坛 man手 册 页 翻 译 计 划 》 :
http://cmpp.linuxforum.net
跋
本
页 面 中 文 版 由
中 文 man 手 册 页 计
划 提 供 。
中 文 man 手 册 页 计
划 :
https://github.com/man-pages-zh/manpages-zh