Man page - utf8(7)
Packages contains this manual
- shm_overview(7)
- nss(5)
- proc_mtrr(5)
- intro(7)
- tcp(7)
- iso_8859-9(7)
- armscii-8(7)
- proc_kpagecount(5)
- initrd(4)
- mouse(4)
- proc_stat(5)
- x25(7)
- proc_interrupts(5)
- fifo(7)
- repertoiremap(5)
- icmp(7)
- futex(7)
- feature_test_macros(7)
- lp(4)
- bpf-helpers(7)
- epoll(7)
- proc_sys_dev(5)
- namespaces(7)
- proc_sysrq-trigger(5)
- proc_bus(5)
- cp1251(7)
- proc_pid_maps(5)
- proc_sys_vm(5)
- proc_pid_projid_map(5)
- st(4)
- proc_pid(5)
- issue(5)
- pid_namespaces(7)
- unicode(7)
- inode(7)
- hosts.equiv(5)
- iso-8859-13(7)
- proc_fb(5)
- proc_modules(5)
- proc_pid_autogroup(5)
- keyrings(7)
- sysvipc(7)
- proc_kmsg(5)
- cgroups(7)
- latin6(7)
- proc_pid_uid_map(5)
- unix(7)
- proc_pid_io(5)
- pts(4)
- packet(7)
- ld-linux.so(8)
- tzselect(8)
- iconv(1)
- proc_pid_syscall(5)
- proc_pid_net(5)
- proc_pid_pagemap(5)
- tty(4)
- proc_profile(5)
- standards(7)
- proc_pid_mounts(5)
- filesystems(5)
- iso-8859-15(7)
- locale(5)
- iso_8859_3(7)
- xattr(7)
- iso-8859-2(7)
- proc_uptime(5)
- persistent-keyring(7)
- credentials(7)
- proc_pid_timers(5)
- utmpx(5)
- vcsa(4)
- proc_pid_exe(5)
- proc_net(5)
- proc_timer_stats(5)
- ip(7)
- proc_pid_fd(5)
- ptmx(4)
- user_namespaces(7)
- resolv.conf(5)
- url(7)
- iso_8859_5(7)
- iso_8859-8(7)
- urn(7)
- process-keyring(7)
- proc_pid_auxv(5)
- proc_ksyms(5)
- proc_ide(5)
- veth(4)
- ldd(1)
- proc_swaps(5)
- landlock(7)
- proc_vmstat(5)
- system_data_types(7)
- cp1252(7)
- lirc(4)
- proc_kpageflags(5)
- random(7)
- precedence(7)
- cpuset(7)
- proc_pid_ns(5)
- acct(5)
- latin4(7)
- proc_pid_cgroup(5)
- proc_cpuinfo(5)
- iso_8859-2(7)
- proc_keys(5)
- charsets(7)
- pldd(1)
- proc_pid_stat(5)
- rtnetlink(7)
- netlink(7)
- ram(4)
- mem(4)
- iso-8859-6(7)
- proc_key-users(5)
- iso_8859_15(7)
- fanotify(7)
- proc_sys_net(5)
- sysfs(5)
- math_error(7)
- latin1(7)
- proc_pid_root(5)
- nptl(7)
- proc_cgroups(5)
- proc_iomem(5)
- proc_pid_statm(5)
- sem_overview(7)
- hier(7)
- full(4)
- proc_pid_status(5)
- proc_pid_cwd(5)
- proc_pid_cpuset(5)
- proc_scsi(5)
- uri(7)
- proc_diskstats(5)
- iso_8859_6(7)
- latin2(7)
- latin5(7)
- man-pages(7)
- ld.so(8)
- uts_namespaces(7)
- proc_pid_mountstats(5)
- intro(3)
- proc_pid_seccomp(5)
- proc_pid_wchan(5)
- attributes(7)
- symlink(7)
- mount_namespaces(7)
- charmap(5)
- tis-620(7)
- iso-8859-10(7)
- getent(1)
- proc_buddyinfo(5)
- ttytype(5)
- rtc(4)
- proc_malloc(5)
- suffixes(7)
- sln(8)
- signal(7)
- proc_sys_abi(5)
- signal-safety(7)
- time_namespaces(7)
- proc_pid_comm(5)
- raw(7)
- gai.conf(5)
- proc_crypto(5)
- locale(1)
- iso-8859-3(7)
- motd(5)
- proc_meminfo(5)
- iso-8859-8(7)
- protocols(5)
- proc_pid_map_files(5)
- pthreads(7)
- null(4)
- proc(5)
- zdump(8)
- socket(7)
- proc_sys_kernel(5)
- ddp(7)
- memusagestat(1)
- hd(4)
- iso-8859-14(7)
- shells(5)
- pipe(7)
- glob(7)
- proc_self(5)
- network_namespaces(7)
- utmp(5)
- proc_kcore(5)
- nsswitch.conf(5)
- sd(4)
- iso-8859-5(7)
- iso_8859_16(7)
- man(7)
- iso_8859-6(7)
- dir_colors(5)
- mq_overview(7)
- vsock(7)
- ascii(7)
- thread-keyring(7)
- fs(5)
- proc_pid_attr(5)
- proc_sys_debug(5)
- proc_sys(5)
- proc_pid_cmdline(5)
- pty(7)
- services(5)
- cgroup_namespaces(7)
- securetty(5)
- netdevice(7)
- iso_8859_13(7)
- host.conf(5)
- proc_pid_setgroups(5)
- proc_slabinfo(5)
- sock_diag(7)
- iso_8859-14(7)
- iso-8859-11(7)
- iso_8859_11(7)
- operator(7)
- regex(7)
- wavelan(4)
- proc_sys_fs(5)
- nologin(5)
- proc_pci(5)
- koi8-r(7)
- erofs(5)
- intro(2)
- utf8(7)
- proc_kallsyms(5)
- proc_sysvipc(5)
- queue(7)
- proc_sys_sunrpc(5)
- intro(5)
- latin8(7)
- mtrace(1)
- ipc_namespaces(7)
- dsp56k(4)
- iso_8859_4(7)
- proc_pid_smaps(5)
- proc_cmdline(5)
- rpc(5)
- proc_tty(5)
- proc_version(5)
- smartpqi(4)
- proc_pid_timerslack_ns(5)
- aio(7)
- session-keyring(7)
- resolver(5)
- slabinfo(5)
- wtmp(5)
- iso_8859_9(7)
- proc_locks(5)
- mailaddr(7)
- proc_pid_oom_score(5)
- kmem(4)
- iconvconfig(8)
- iso_8859-7(7)
- glibc(7)
- hostname(7)
- proc_thread-self(5)
- ipv6(7)
- iso_8859_7(7)
- proc_kpagecgroup(5)
- core(5)
- time(7)
- units(7)
- proc_dma(5)
- loop(4)
- address_families(7)
- zero(4)
- intro(4)
- procfs(5)
- iso_8859-4(7)
- vdso(7)
- tmpfs(5)
- iso-8859-16(7)
- iso_8859_10(7)
- user-session-keyring(7)
- libc(7)
- proc_fs(5)
- koi8-u(7)
- latin3(7)
- proc_tid_children(5)
- proc_pid_limits(5)
- proc_pid_coredump_filter(5)
- iso_8859-15(7)
- arp(7)
- urandom(4)
- iso_8859-10(7)
- hpsa(4)
- proc_pid_environ(5)
- boot(7)
- ftm(7)
- ld-linux(8)
- proc_driver(5)
- loop-control(4)
- iso_8859-16(7)
- proc_filesystems(5)
- tzfile(5)
- sprof(1)
- proc_pid_task(5)
- proc_pid_oom_score_adj(5)
- proc_mounts(5)
- iso-8859-4(7)
- iso_8859-1(7)
- utf-8(7)
- iso_8859-13(7)
- intro(6)
- proc_timer_list(5)
- rtld-audit(7)
- iso_8859-3(7)
- group(5)
- sched(7)
- proc_pid_clear_refs(5)
- hosts(5)
- iso_8859-11(7)
- numa(7)
- iso_8859_2(7)
- locale(7)
- iso-8859-1(7)
- fuse(4)
- proc_tid(5)
- proc_execdomains(5)
- proc_pid_mountinfo(5)
- intro(8)
- iso_8859_8(7)
- proc_loadavg(5)
- proc_pid_oom_adj(5)
- re_format(7)
- iso_8859_14(7)
- zic(8)
- bootparam(7)
- inotify(7)
- posixoptions(7)
- proc_partitions(5)
- iso-8859-9(7)
- proc_pid_mem(5)
- networks(5)
- proc_sys_user(5)
- udp(7)
- proc_zoneinfo(5)
- latin10(7)
- proc_pid_fdinfo(5)
- proc_pid_stack(5)
- memusage(1)
- spufs(7)
- pkeys(7)
- path_resolution(7)
- proc_ioports(5)
- intro(1)
- ldconfig(8)
- msr(4)
- svipc(7)
- port(4)
- proc_pid_personality(5)
- cciss(4)
- latin9(7)
- capabilities(7)
- localedef(1)
- vcs(4)
- iso_8859-5(7)
- elf(5)
- proc_sys_proc(5)
- console_codes(4)
- random(4)
- iso-8859-7(7)
- termcap(5)
- cpuid(4)
- environ(7)
- string_copying(7)
- proc_pid_gid_map(5)
- queue(3)
- termio(7)
- user-keyring(7)
- complex(7)
- latin7(7)
- proc_config.gz(5)
- udplite(7)
- kernel_lockdown(7)
- proc_devices(5)
- proc_apm(5)
- iso_8859_1(7)
- proc_pid_numa_maps(5)
apt-get install manpages
Available languages:
en fr pt_BR es it pl cs ja ru ro deManual
UTF-8
NOMDESCRIPTION
Propriétés
Encodage
Exemple
Notes applicatives
Sécurité
Normes
VOIR AUSSI
TRADUCTION
NOM
UTF-8 - Encodage Unicode multioctet compatible ASCII
DESCRIPTION
Le jeu de caractĂšres Unicode 3.0 est constituĂ© dâun encodage sur 16 bits. Lâencodage Unicode le plus Ă©vident (connu sous le nom de UCS-2) consiste en une suite de mots de 16 bits. De telles chaĂźnes peuvent contenir, comme fragments de caractĂšre 16 bits, des octets comme « \0 » ou « / » qui ont une signification particuliĂšre dans les noms de fichiers et les paramĂštres de fonctions de bibliothĂšque C. De plus, la majoritĂ© des outils UNIX attendent des fichiers ASCII et ne peuvent pas lire des caractĂšres reprĂ©sentĂ©s par des mots de 16 bits sans subir de modifications majeures. Pour ces raisons, lâUCS-2 nâest pas un encodage externe de lâUnicode utilisable dans les noms de fichiers, les variables dâenvironnement, les fichiers textes, etc. Le jeu universel de caractĂšres (UCS â Universal Character Set) de la norme ISO/IEC 10646, un sur-ensemble dâUnicode, occupe mĂȘme un espace dâencodage plus important (31 bits) et lâencodage Ă©vident UCS-4 (une suite de mots sur 32 bits) a les mĂȘmes inconvĂ©nients.
Lâencodage UTF-8 de lâUnicode et de lâUCS nâa pas ces inconvĂ©nients et est un moyen dâutiliser le jeu de caractĂšres Unicode sous les systĂšmes dâexploitation compatibles UNIX.
Propriétés
Lâencodage UTF-8 a les propriĂ©tĂ©s suivantes.
|
- |
Les caractĂšres UCS 0x00000000 Ă 0x0000007f (le jeu US-ASCII classique) sont encodĂ©s simplement par les octets 0x00 Ă 0x7f (compatibilitĂ© ASCII). Cela signifie que les fichiers et les chaĂźnes qui contiennent uniquement des caractĂšres du jeu ASCII 7 bits ont exactement le mĂȘme encodage en ASCII et en UTF-8. |
||
|
- |
Tous les caractĂšres UCS supĂ©rieurs Ă 0x7F sont encodĂ©s en une suite de multioctets constituĂ©e uniquement dâoctets dans lâintervalle 0x80 Ă 0xfd. Ainsi aucun octet ASCII nâapparaĂźt en tant que partie dâun autre caractĂšre, et il nây a donc pas de problĂšme avec « \0 » ou « / ». |
||
|
- |
Lâordre de tri lexicographique des chaĂźnes UCS-4 est prĂ©servĂ©. |
||
|
- |
Tous les 2^31 caractĂšres de lâUCS peuvent ĂȘtre encodĂ©s en utilisant UTF-8. |
||
|
- |
Les octets 0xc0, 0xc1, 0xfe et 0xff ne sont jamais utilisĂ©s dans lâencodage UTF-8. |
||
|
- |
Le premier octet dâune suite multioctet reprĂ©sentant un caractĂšre UCS non ASCII est toujours dans lâintervalle 0xc2 Ă 0xfd et indique la longueur de la suite multioctet. Tous les octets suivants de cette suite sont dans lâintervalle 0x80 Ă 0xbf. Cela permet une resynchronisation aisĂ©e et rend lâencodage robuste face aux octets manquants. |
||
|
- |
Les caractĂšres UCS encodĂ©s en UTF-8 peuvent avoir jusquâĂ 6 octets. NĂ©anmoins la norme Unicode ne prĂ©cise aucun caractĂšre au-delĂ de 0x10ffff, ainsi les caractĂšres Unicode ne peuvent avoir que jusque 4 octets en UTF-8. |
Encodage
Les suites
dâoctets suivantes sont utilisĂ©es pour
représenter un caractÚre. Les suites
utilisées dépendent du numéro de code
UCS du caractÚre :
0x00000000 - 0x0000007FÂ :
0 xxxxxxx
0x00000080 - 0x000007FFÂ :
110 xxxxx 10 xxxxxx
0x00000800 - 0x0000FFFFÂ :
1110 xxxx 10 xxxxxx 10 xxxxxx
0x00010000 - 0x001FFFFFÂ :
11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx
0x00200000 - 0x03FFFFFFÂ :
111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx
0x04000000 - 0x7FFFFFFFÂ :
1111110 x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx
Les positions des bits xxx sont remplies avec les bits du numĂ©ro de code du caractĂšre en reprĂ©sentation binaire, bit de poids fort en premier (gros-boutiste). Seule la plus petite suite multioctet permettant de reprĂ©senter un numĂ©ro de code doit ĂȘtre utilisĂ©e.
Les codes UCS de valeur 0xd800â0xdfff (remplacements en UTF-16) ainsi que 0xfffe et 0xffff (non caractĂšres UCS) ne doivent pas apparaĂźtre dans un flux de donnĂ©es UTF-8. Aucun point au delĂ de U+10FFFF ne doit ĂȘtre utilisĂ© selon la norme RFC 3629, ce qui limite les caractĂšres Ă 4 octets.
Exemple
Le caractÚre Unicode 0xA9 = 1010 1001 (le symbole copyright) est encodé en UTF-8 de la maniÚre suivante :
11000010 10101001 = 0xc2 0xa9
et le caractÚre 0x2260 = 0010 0010 0110 0000 (le symbole « différent de ») est encodé ainsi :
11100010 10001001 10100000 = 0xe2 0x89 0xa0
Notes applicatives
Les utilisateurs doivent sélectionner des paramÚtres régionaux UTF-8, par exemple en faisant
export LANG=fr_FR.UTF-8
afin dâactiver la gestion de lâUTF-8 dans les applications.
Les applications qui doivent connaĂźtre lâencodage de caractĂšres utilisĂ© doivent toujours dĂ©finir la locale, en faisant par exemple
setlocale(LC_CTYPE, "")
et les programmeurs peuvent tester lâexpression
strcmp(nl_langinfo(CODESET), "UTF-8") == 0
pour savoir si des paramĂštres rĂ©gionaux UTF-8 ont Ă©tĂ© sĂ©lectionnĂ©s, et si les entrĂ©es et sorties texte, les communications avec les terminaux, le contenu des fichiers textes, les noms de fichiers et les variables dâenvironnement sont encodĂ©s en UTF-8.
Les programmeurs habituĂ©s aux jeux de caractĂšres mono-octet comme US-ASCII ou ISO/IEC 8859 doivent savoir que deux hypothĂšses valables jusque lĂ ne le sont plus dans les paramĂštres rĂ©gionaux UTF-8. Dâabord, un octet seul ne correspond pas nĂ©cessairement Ă un unique caractĂšre. Ensuite, comme les Ă©mulateurs de terminaux modernes en mode UTF-8 gĂšrent Ă©galement les caractĂšres double largeur du chinois, du japonais ou du corĂ©en et les caractĂšres combinĂ©s sans espacement, lâaffichage dâun unique caractĂšre ne fait pas avancer obligatoirement le curseur dâune position comme câĂ©tait le cas en ASCII. Les fonctions de bibliothĂšques comme mbsrtowcs (3) et wcswidth (3) doivent ĂȘtre dĂ©sormais utilisĂ©es pour compter les caractĂšres et les positions de curseur.
La suite ESC officielle pour basculer dâun encodage ISO/IEC 2022 (comme utilisĂ© par exemple par les terminaux VT100) en UTF-8 est ESC % G (« \x1b%G »). La suite de retour depuis UTF-8 est ISO/IEC 2022 est ESC % @ (« \x1b%@ »). Dâautres suites ISO/IEC 2022 (comme celle pour basculer entre les jeux G0 et G1) ne sont pas applicables en mode UTF-8.
Sécurité
Les normes Unicode et UCS demandent que le fabricant utilisant UTF-8 utilise la forme la plus courte possible, par exemple, produire une suite de deux octets avec un premier octet 0xc0 nâest pas conforme. Unicode 3.1 a ajoutĂ© la nĂ©cessitĂ© pour les programmes conformes de ne pas accepter les formes non minimales en entrĂ©e. Il sâagit de raisons de sĂ©curité : si une saisie est examinĂ©e pour des problĂšmes de sĂ©curitĂ©, un programme doit rechercher seulement la version ASCII de « /../ » ou « ; » ou NUL. De nombreuses maniĂšres non ASCII existent pour reprĂ©senter ces choses dans un encodage UTF-8 non minimal.
Normes
ISO/IEC 10646-1:2000, Unicode 3.1, RFCÂ 3629, Plan 9.
VOIR AUSSI
locale (1), nl_langinfo (3), setlocale (3), charsets (7), unicode (7)
TRADUCTION
La traduction française de cette page de manuel a été créée par Christophe Blaess <https://www.blaess.fr/christophe/>, Stéphan Rafin <stephan.rafin@laposte.net>, Thierry Vignaud <tvignaud@mandriva.com>, François Micaux, Alain Portal <aportal@univ-montp2.fr>, Jean-Philippe Guérard <fevrier@tigreraye.org>, Jean-Luc Coulon (f5ibh) <jean-luc.coulon@wanadoo.fr>, Julien Cristau <jcristau@debian.org>, Thomas Huriaux <thomas.huriaux@gmail.com>, Nicolas François <nicolas.francois@centraliens.net>, Florentin Duneau <fduneau@gmail.com>, Simon Paillard <simon.paillard@resel.enst-bretagne.fr>, Denis Barbier <barbier@debian.org>, David Prévot <david@tilapin.org> et Grégoire Scano <gregoire.scano@malloc.fr>
Cette traduction est une documentation libre ; veuillez vous reporter Ă la GNU General Public License version 3 concernant les conditions de copie et de distribution. Il nây a aucune RESPONSABILITĂ LĂGALE.
Si vous découvrez un bogue dans la traduction de cette page de manuel, veuillez envoyer un message à debian-l10n-french@lists.debian.org .