Man page - utf-8(7)
Packages contains this manual
- shm_overview(7)
- nss(5)
- proc_mtrr(5)
- intro(7)
- tcp(7)
- iso_8859-9(7)
- armscii-8(7)
- proc_kpagecount(5)
- initrd(4)
- mouse(4)
- proc_stat(5)
- x25(7)
- proc_interrupts(5)
- fifo(7)
- repertoiremap(5)
- icmp(7)
- futex(7)
- feature_test_macros(7)
- lp(4)
- bpf-helpers(7)
- epoll(7)
- proc_sys_dev(5)
- namespaces(7)
- proc_sysrq-trigger(5)
- proc_bus(5)
- cp1251(7)
- proc_pid_maps(5)
- proc_sys_vm(5)
- proc_pid_projid_map(5)
- st(4)
- proc_pid(5)
- issue(5)
- pid_namespaces(7)
- unicode(7)
- inode(7)
- hosts.equiv(5)
- iso-8859-13(7)
- proc_fb(5)
- proc_modules(5)
- proc_pid_autogroup(5)
- keyrings(7)
- sysvipc(7)
- proc_kmsg(5)
- cgroups(7)
- latin6(7)
- proc_pid_uid_map(5)
- unix(7)
- proc_pid_io(5)
- pts(4)
- packet(7)
- ld-linux.so(8)
- tzselect(8)
- iconv(1)
- proc_pid_syscall(5)
- proc_pid_net(5)
- proc_pid_pagemap(5)
- tty(4)
- proc_profile(5)
- standards(7)
- proc_pid_mounts(5)
- filesystems(5)
- iso-8859-15(7)
- locale(5)
- iso_8859_3(7)
- xattr(7)
- iso-8859-2(7)
- proc_uptime(5)
- persistent-keyring(7)
- credentials(7)
- proc_pid_timers(5)
- utmpx(5)
- vcsa(4)
- proc_pid_exe(5)
- proc_net(5)
- proc_timer_stats(5)
- ip(7)
- proc_pid_fd(5)
- ptmx(4)
- user_namespaces(7)
- resolv.conf(5)
- url(7)
- iso_8859_5(7)
- iso_8859-8(7)
- urn(7)
- process-keyring(7)
- proc_pid_auxv(5)
- proc_ksyms(5)
- proc_ide(5)
- veth(4)
- ldd(1)
- proc_swaps(5)
- landlock(7)
- proc_vmstat(5)
- system_data_types(7)
- cp1252(7)
- lirc(4)
- proc_kpageflags(5)
- random(7)
- precedence(7)
- cpuset(7)
- proc_pid_ns(5)
- acct(5)
- latin4(7)
- proc_pid_cgroup(5)
- proc_cpuinfo(5)
- iso_8859-2(7)
- proc_keys(5)
- charsets(7)
- pldd(1)
- proc_pid_stat(5)
- rtnetlink(7)
- netlink(7)
- ram(4)
- mem(4)
- iso-8859-6(7)
- proc_key-users(5)
- iso_8859_15(7)
- fanotify(7)
- proc_sys_net(5)
- sysfs(5)
- math_error(7)
- latin1(7)
- proc_pid_root(5)
- nptl(7)
- proc_cgroups(5)
- proc_iomem(5)
- proc_pid_statm(5)
- sem_overview(7)
- hier(7)
- full(4)
- proc_pid_status(5)
- proc_pid_cwd(5)
- proc_pid_cpuset(5)
- proc_scsi(5)
- uri(7)
- proc_diskstats(5)
- iso_8859_6(7)
- latin2(7)
- latin5(7)
- man-pages(7)
- ld.so(8)
- uts_namespaces(7)
- proc_pid_mountstats(5)
- intro(3)
- proc_pid_seccomp(5)
- proc_pid_wchan(5)
- attributes(7)
- symlink(7)
- mount_namespaces(7)
- charmap(5)
- tis-620(7)
- iso-8859-10(7)
- getent(1)
- proc_buddyinfo(5)
- ttytype(5)
- rtc(4)
- proc_malloc(5)
- suffixes(7)
- sln(8)
- signal(7)
- proc_sys_abi(5)
- signal-safety(7)
- time_namespaces(7)
- proc_pid_comm(5)
- raw(7)
- gai.conf(5)
- proc_crypto(5)
- locale(1)
- iso-8859-3(7)
- motd(5)
- proc_meminfo(5)
- iso-8859-8(7)
- protocols(5)
- proc_pid_map_files(5)
- pthreads(7)
- null(4)
- proc(5)
- zdump(8)
- socket(7)
- proc_sys_kernel(5)
- ddp(7)
- memusagestat(1)
- hd(4)
- iso-8859-14(7)
- shells(5)
- pipe(7)
- glob(7)
- proc_self(5)
- network_namespaces(7)
- utmp(5)
- proc_kcore(5)
- nsswitch.conf(5)
- sd(4)
- iso-8859-5(7)
- iso_8859_16(7)
- man(7)
- iso_8859-6(7)
- dir_colors(5)
- mq_overview(7)
- vsock(7)
- ascii(7)
- thread-keyring(7)
- fs(5)
- proc_pid_attr(5)
- proc_sys_debug(5)
- proc_sys(5)
- proc_pid_cmdline(5)
- pty(7)
- services(5)
- cgroup_namespaces(7)
- securetty(5)
- netdevice(7)
- iso_8859_13(7)
- host.conf(5)
- proc_pid_setgroups(5)
- proc_slabinfo(5)
- sock_diag(7)
- iso_8859-14(7)
- iso-8859-11(7)
- iso_8859_11(7)
- operator(7)
- regex(7)
- wavelan(4)
- proc_sys_fs(5)
- nologin(5)
- proc_pci(5)
- koi8-r(7)
- erofs(5)
- intro(2)
- utf8(7)
- proc_kallsyms(5)
- proc_sysvipc(5)
- queue(7)
- proc_sys_sunrpc(5)
- intro(5)
- latin8(7)
- mtrace(1)
- ipc_namespaces(7)
- dsp56k(4)
- iso_8859_4(7)
- proc_pid_smaps(5)
- proc_cmdline(5)
- rpc(5)
- proc_tty(5)
- proc_version(5)
- smartpqi(4)
- proc_pid_timerslack_ns(5)
- aio(7)
- session-keyring(7)
- resolver(5)
- slabinfo(5)
- wtmp(5)
- iso_8859_9(7)
- proc_locks(5)
- mailaddr(7)
- proc_pid_oom_score(5)
- kmem(4)
- iconvconfig(8)
- iso_8859-7(7)
- glibc(7)
- hostname(7)
- proc_thread-self(5)
- ipv6(7)
- iso_8859_7(7)
- proc_kpagecgroup(5)
- core(5)
- time(7)
- units(7)
- proc_dma(5)
- loop(4)
- address_families(7)
- zero(4)
- intro(4)
- procfs(5)
- iso_8859-4(7)
- vdso(7)
- tmpfs(5)
- iso-8859-16(7)
- iso_8859_10(7)
- user-session-keyring(7)
- libc(7)
- proc_fs(5)
- koi8-u(7)
- latin3(7)
- proc_tid_children(5)
- proc_pid_limits(5)
- proc_pid_coredump_filter(5)
- iso_8859-15(7)
- arp(7)
- urandom(4)
- iso_8859-10(7)
- hpsa(4)
- proc_pid_environ(5)
- boot(7)
- ftm(7)
- ld-linux(8)
- proc_driver(5)
- loop-control(4)
- iso_8859-16(7)
- proc_filesystems(5)
- tzfile(5)
- sprof(1)
- proc_pid_task(5)
- proc_pid_oom_score_adj(5)
- proc_mounts(5)
- iso-8859-4(7)
- iso_8859-1(7)
- utf-8(7)
- iso_8859-13(7)
- intro(6)
- proc_timer_list(5)
- rtld-audit(7)
- iso_8859-3(7)
- group(5)
- sched(7)
- proc_pid_clear_refs(5)
- hosts(5)
- iso_8859-11(7)
- numa(7)
- iso_8859_2(7)
- locale(7)
- iso-8859-1(7)
- fuse(4)
- proc_tid(5)
- proc_execdomains(5)
- proc_pid_mountinfo(5)
- intro(8)
- iso_8859_8(7)
- proc_loadavg(5)
- proc_pid_oom_adj(5)
- re_format(7)
- iso_8859_14(7)
- zic(8)
- bootparam(7)
- inotify(7)
- posixoptions(7)
- proc_partitions(5)
- iso-8859-9(7)
- proc_pid_mem(5)
- networks(5)
- proc_sys_user(5)
- udp(7)
- proc_zoneinfo(5)
- latin10(7)
- proc_pid_fdinfo(5)
- proc_pid_stack(5)
- memusage(1)
- spufs(7)
- pkeys(7)
- path_resolution(7)
- proc_ioports(5)
- intro(1)
- ldconfig(8)
- msr(4)
- svipc(7)
- port(4)
- proc_pid_personality(5)
- cciss(4)
- latin9(7)
- capabilities(7)
- localedef(1)
- vcs(4)
- iso_8859-5(7)
- elf(5)
- proc_sys_proc(5)
- console_codes(4)
- random(4)
- iso-8859-7(7)
- termcap(5)
- cpuid(4)
- environ(7)
- string_copying(7)
- proc_pid_gid_map(5)
- queue(3)
- termio(7)
- user-keyring(7)
- complex(7)
- latin7(7)
- proc_config.gz(5)
- udplite(7)
- kernel_lockdown(7)
- proc_devices(5)
- proc_apm(5)
- iso_8859_1(7)
- proc_pid_numa_maps(5)
apt-get install manpages
Available languages:
en fr pt_BR es it pl cs ja ru ro zh_TW zh_CN deManual
UTF-8
NAME描 述
屬 性
編 碼 方 式
舉 例 說 明
遵 循 標 準
作 者
參 考
[中 文 版 維 護 人 ]
[中 文 版 最 新 更 新 ]
《 中 國 linux論 壇 man手 冊 頁 翻 譯 計 劃 》 :
跋
NAME
UTF-8 - ASCII 相 容 的 多 位 元 組 Unicode 編 碼
描 述
The Unicode 字 元 集 使 用 的 是 16 位 ( 雙 位 元 組 ) 碼 。 最 普 遍 的 Unicode 編 碼 方 法 ( UCS-2 ) 由 一 個 16 位 雙 字 序 列 組 成 。 這 樣 的 字 串 中 包 括 了 的 一 些 如 ‘\0’或 ‘/’這 樣 的 在 檔 名 中 或 者 是 在 C 庫 函 式 中 具 有 特 殊 意 義 的 字 元 。 另 外 , 如 果 沒 有 做 重 大 的 修 正 的 話 , 大 部 分 操 作 ASCII 碼 檔 案 的 UNIX 工 具 不 能 夠 正 確 識 別 16 位 的 字 元 。 因 此 , UCS-2 對 於 Unicode 的 檔 名 、 文 字 檔 案 、 環 境 變 數 等 等 來 說 並 不 是 一 種 合 適 的 外 部 編 碼 方 式 。 ISO 10646 Universal Character Set (UCS) , 是 Unicode 的 超 集 , 甚 至 使 用 了 31 位 編 碼 方 式 , 另 外 還 有 使 用 32 編 碼 的 UCS-4 也 有 同 樣 上 述 的 問 題 。 UCS-4 而 用 UTF-8 對 Unicode UCS 編 碼 就 不 會 存 在 這 樣 的 問 題 。 所 以 , UTF-8 很 明 顯 的 是 在 UNIX 類 作 業 系 統 下 的 Unicode 字 元 集 的 解 決 方 案 。
屬 性
UTF-8 編 碼 具 有 以 下 優 良 屬 性 :
|
* |
UCS 字 元 從 0x00000000 到 0x0000007f ( 傳 統 的 US-ASCII 字 元 ) 簡 單 地 編 碼 為 位 元 組 0x00 到 0x7f ( 與 ASCII 碼 相 容 ) 。 這 意 味 著 只 包 含 7 位 ASCII 字 元 的 檔 案 和 字 串 在 ASCII 和 UTF-8 . 編 碼 方 式 下 是 完 全 一 樣 的 。 |
||
|
* |
所 有 大 於 0x7f 的 UCS 字 元 被 編 碼 成 為 多 位 元 組 序 列 。 該 序 列 全 部 是 由 0x80 到 0fd 的 字 元 組 成 , 這 樣 就 不 會 有 標 準 ASCII 字 元 會 被 作 為 某 個 字 的 一 個 部 分 這 種 現 象 出 現 , 對 於 ‘\0’和 ‘\[u2019]這 樣 的 特 殊 字 元 來 說 也 就 不 會 有 問 題 了 。 |
||
|
* |
保 留 了 UCS-4 字 典 中 的 位 元 組 串 的 排 列 順 序 。 |
||
|
* |
所 有 2ˆ32 次 方 的 UCS 碼 都 能 夠 使 用 UTF-8 來 進 行 編 碼 。 |
||
|
* |
0xfe 和 0xff 兩 個 字 元 在 UTF-8 中 不 會 被 用 到 。 |
||
|
* |
表 示 非 ASCII 碼 的 UCS 多 位 元 組 串 的 開 始 字 元 總 是 0xc0 到 0xfd 之 間 的 字 元 , 並 會 指 出 該 串 的 長 度 。 多 位 元 組 串 的 其 他 字 元 都 是 0x80 到 0xbf 之 間 的 字 元 。 這 使 得 再 同 步 非 常 簡 單 , 並 令 編 碼 是 無 態 的 , 丟 位 元 組 現 象 也 不 容 易 發 生 。 |
||
|
* |
用 UTF-8 編 碼 的 UCS 字 元 可 以 增 加 到 6 個 位 元 組 的 長 度 。 而 Unicode 只 能 增 加 到 3 個 位 元 組 長 。 由 於 Linux 只 使 用 16 位 的 Unicode , UCS 的 子 集 。 所 以 在 Linux 下 , UTF-8 多 位 元 組 串 長 度 最 多 不 會 超 過 三 個 位 元 組 。 |
編 碼 方 式
下
面 的 位 元 組 串
用 來 表 示 一 個
字 元 。 用 什 麼
串 依 照 該 字 元
在 UCS 編 碼 中 的 序
號 來 定 :
0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF:
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF:
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
這 裡 xxx 的 位 置 二 進 位 制 位 形 式 的 字 元 編 碼 填 入 。 只 用 最 短 的 那 個 足 夠 表 達 一 個 字 元 編 碼 數 的 多 位 元 組 串 。
舉 例 說 明
Unicode 字 元 0xa9 = 1010 1001 (版 權 所 有 的 符 號 ) 在 UTF-8 中 被 編 碼 為 :
11000010 10101001 = 0xc2 0xa9
字 元 0x2260 = 0010 0010 0110 0000 (“不 等 於 ”符 號 )被 編 碼 為 :
11100010 10001001 10100000 = 0xe2 0x89 0xa0
遵 循 標 準
ISO 10646, Unicode 1.1, XPG4, Plan 9.
作 者
Markus Kuhn
參 考
unicode (7)
[中 文 版 維 護 人 ]
billpan <billpan@yeah.net>
[中 文 版 最 新 更 新 ]
2000/11/09
《 中 國 linux論 壇 man手 冊 頁 翻 譯 計 劃 》 :
http://cmpp.linuxforum.net
跋
本
頁 面 中 文 版 由
中 文 man 手 冊 頁 計
劃 提 供 。
中 文 man 手 冊 頁 計
劃 :
https://github.com/man-pages-zh/manpages-zh