Man page - unicode(7)
Packages contains this manual
- shm_overview(7)
- nss(5)
- proc_mtrr(5)
- intro(7)
- tcp(7)
- iso_8859-9(7)
- armscii-8(7)
- proc_kpagecount(5)
- initrd(4)
- mouse(4)
- proc_stat(5)
- x25(7)
- proc_interrupts(5)
- fifo(7)
- repertoiremap(5)
- icmp(7)
- futex(7)
- feature_test_macros(7)
- lp(4)
- bpf-helpers(7)
- epoll(7)
- proc_sys_dev(5)
- namespaces(7)
- proc_sysrq-trigger(5)
- proc_bus(5)
- cp1251(7)
- proc_pid_maps(5)
- proc_sys_vm(5)
- proc_pid_projid_map(5)
- st(4)
- proc_pid(5)
- issue(5)
- pid_namespaces(7)
- unicode(7)
- inode(7)
- hosts.equiv(5)
- iso-8859-13(7)
- proc_fb(5)
- proc_modules(5)
- proc_pid_autogroup(5)
- keyrings(7)
- sysvipc(7)
- proc_kmsg(5)
- cgroups(7)
- latin6(7)
- proc_pid_uid_map(5)
- unix(7)
- proc_pid_io(5)
- pts(4)
- packet(7)
- ld-linux.so(8)
- tzselect(8)
- iconv(1)
- proc_pid_syscall(5)
- proc_pid_net(5)
- proc_pid_pagemap(5)
- tty(4)
- proc_profile(5)
- standards(7)
- proc_pid_mounts(5)
- filesystems(5)
- iso-8859-15(7)
- locale(5)
- iso_8859_3(7)
- xattr(7)
- iso-8859-2(7)
- proc_uptime(5)
- persistent-keyring(7)
- credentials(7)
- proc_pid_timers(5)
- utmpx(5)
- vcsa(4)
- proc_pid_exe(5)
- proc_net(5)
- proc_timer_stats(5)
- ip(7)
- proc_pid_fd(5)
- ptmx(4)
- user_namespaces(7)
- resolv.conf(5)
- url(7)
- iso_8859_5(7)
- iso_8859-8(7)
- urn(7)
- process-keyring(7)
- proc_pid_auxv(5)
- proc_ksyms(5)
- proc_ide(5)
- veth(4)
- ldd(1)
- proc_swaps(5)
- landlock(7)
- proc_vmstat(5)
- system_data_types(7)
- cp1252(7)
- lirc(4)
- proc_kpageflags(5)
- random(7)
- precedence(7)
- cpuset(7)
- proc_pid_ns(5)
- acct(5)
- latin4(7)
- proc_pid_cgroup(5)
- proc_cpuinfo(5)
- iso_8859-2(7)
- proc_keys(5)
- charsets(7)
- pldd(1)
- proc_pid_stat(5)
- rtnetlink(7)
- netlink(7)
- ram(4)
- mem(4)
- iso-8859-6(7)
- proc_key-users(5)
- iso_8859_15(7)
- fanotify(7)
- proc_sys_net(5)
- sysfs(5)
- math_error(7)
- latin1(7)
- proc_pid_root(5)
- nptl(7)
- proc_cgroups(5)
- proc_iomem(5)
- proc_pid_statm(5)
- sem_overview(7)
- hier(7)
- full(4)
- proc_pid_status(5)
- proc_pid_cwd(5)
- proc_pid_cpuset(5)
- proc_scsi(5)
- uri(7)
- proc_diskstats(5)
- iso_8859_6(7)
- latin2(7)
- latin5(7)
- man-pages(7)
- ld.so(8)
- uts_namespaces(7)
- proc_pid_mountstats(5)
- intro(3)
- proc_pid_seccomp(5)
- proc_pid_wchan(5)
- attributes(7)
- symlink(7)
- mount_namespaces(7)
- charmap(5)
- tis-620(7)
- iso-8859-10(7)
- getent(1)
- proc_buddyinfo(5)
- ttytype(5)
- rtc(4)
- proc_malloc(5)
- suffixes(7)
- sln(8)
- signal(7)
- proc_sys_abi(5)
- signal-safety(7)
- time_namespaces(7)
- proc_pid_comm(5)
- raw(7)
- gai.conf(5)
- proc_crypto(5)
- locale(1)
- iso-8859-3(7)
- motd(5)
- proc_meminfo(5)
- iso-8859-8(7)
- protocols(5)
- proc_pid_map_files(5)
- pthreads(7)
- null(4)
- proc(5)
- zdump(8)
- socket(7)
- proc_sys_kernel(5)
- ddp(7)
- memusagestat(1)
- hd(4)
- iso-8859-14(7)
- shells(5)
- pipe(7)
- glob(7)
- proc_self(5)
- network_namespaces(7)
- utmp(5)
- proc_kcore(5)
- nsswitch.conf(5)
- sd(4)
- iso-8859-5(7)
- iso_8859_16(7)
- man(7)
- iso_8859-6(7)
- dir_colors(5)
- mq_overview(7)
- vsock(7)
- ascii(7)
- thread-keyring(7)
- fs(5)
- proc_pid_attr(5)
- proc_sys_debug(5)
- proc_sys(5)
- proc_pid_cmdline(5)
- pty(7)
- services(5)
- cgroup_namespaces(7)
- securetty(5)
- netdevice(7)
- iso_8859_13(7)
- host.conf(5)
- proc_pid_setgroups(5)
- proc_slabinfo(5)
- sock_diag(7)
- iso_8859-14(7)
- iso-8859-11(7)
- iso_8859_11(7)
- operator(7)
- regex(7)
- wavelan(4)
- proc_sys_fs(5)
- nologin(5)
- proc_pci(5)
- koi8-r(7)
- erofs(5)
- intro(2)
- utf8(7)
- proc_kallsyms(5)
- proc_sysvipc(5)
- queue(7)
- proc_sys_sunrpc(5)
- intro(5)
- latin8(7)
- mtrace(1)
- ipc_namespaces(7)
- dsp56k(4)
- iso_8859_4(7)
- proc_pid_smaps(5)
- proc_cmdline(5)
- rpc(5)
- proc_tty(5)
- proc_version(5)
- smartpqi(4)
- proc_pid_timerslack_ns(5)
- aio(7)
- session-keyring(7)
- resolver(5)
- slabinfo(5)
- wtmp(5)
- iso_8859_9(7)
- proc_locks(5)
- mailaddr(7)
- proc_pid_oom_score(5)
- kmem(4)
- iconvconfig(8)
- iso_8859-7(7)
- glibc(7)
- hostname(7)
- proc_thread-self(5)
- ipv6(7)
- iso_8859_7(7)
- proc_kpagecgroup(5)
- core(5)
- time(7)
- units(7)
- proc_dma(5)
- loop(4)
- address_families(7)
- zero(4)
- intro(4)
- procfs(5)
- iso_8859-4(7)
- vdso(7)
- tmpfs(5)
- iso-8859-16(7)
- iso_8859_10(7)
- user-session-keyring(7)
- libc(7)
- proc_fs(5)
- koi8-u(7)
- latin3(7)
- proc_tid_children(5)
- proc_pid_limits(5)
- proc_pid_coredump_filter(5)
- iso_8859-15(7)
- arp(7)
- urandom(4)
- iso_8859-10(7)
- hpsa(4)
- proc_pid_environ(5)
- boot(7)
- ftm(7)
- ld-linux(8)
- proc_driver(5)
- loop-control(4)
- iso_8859-16(7)
- proc_filesystems(5)
- tzfile(5)
- sprof(1)
- proc_pid_task(5)
- proc_pid_oom_score_adj(5)
- proc_mounts(5)
- iso-8859-4(7)
- iso_8859-1(7)
- utf-8(7)
- iso_8859-13(7)
- intro(6)
- proc_timer_list(5)
- rtld-audit(7)
- iso_8859-3(7)
- group(5)
- sched(7)
- proc_pid_clear_refs(5)
- hosts(5)
- iso_8859-11(7)
- numa(7)
- iso_8859_2(7)
- locale(7)
- iso-8859-1(7)
- fuse(4)
- proc_tid(5)
- proc_execdomains(5)
- proc_pid_mountinfo(5)
- intro(8)
- iso_8859_8(7)
- proc_loadavg(5)
- proc_pid_oom_adj(5)
- re_format(7)
- iso_8859_14(7)
- zic(8)
- bootparam(7)
- inotify(7)
- posixoptions(7)
- proc_partitions(5)
- iso-8859-9(7)
- proc_pid_mem(5)
- networks(5)
- proc_sys_user(5)
- udp(7)
- proc_zoneinfo(5)
- latin10(7)
- proc_pid_fdinfo(5)
- proc_pid_stack(5)
- memusage(1)
- spufs(7)
- pkeys(7)
- path_resolution(7)
- proc_ioports(5)
- intro(1)
- ldconfig(8)
- msr(4)
- svipc(7)
- port(4)
- proc_pid_personality(5)
- cciss(4)
- latin9(7)
- capabilities(7)
- localedef(1)
- vcs(4)
- iso_8859-5(7)
- elf(5)
- proc_sys_proc(5)
- console_codes(4)
- random(4)
- iso-8859-7(7)
- termcap(5)
- cpuid(4)
- environ(7)
- string_copying(7)
- proc_pid_gid_map(5)
- queue(3)
- termio(7)
- user-keyring(7)
- complex(7)
- latin7(7)
- proc_config.gz(5)
- udplite(7)
- kernel_lockdown(7)
- proc_devices(5)
- proc_apm(5)
- iso_8859_1(7)
- proc_pid_numa_maps(5)
apt-get install manpages
Available languages:
en fr pt_BR es it pl cs ja ru ro zh_TW zh_CN deManual
unicode
NOMDESCRIPTION
CaractÚres composés
Niveaux dâimplĂ©mentation
Unicode sous Linux
Zone dâutilisation privĂ©e (PUA ou « Private Use Areas »)
Littérature
VOIR AUSSI
TRADUCTION
NOM
Unicode - Jeu de caractĂšres universel
DESCRIPTION
La norme internationale ISO/IEC 10646 dĂ©finit le jeu de caractĂšres universel (UCS). UCS contient tous les caractĂšres de tous les autres normes de jeux de caractĂšres. Il garantit Ă©galement une « compatibilitĂ© circulaire », ce qui signifie que les tables de conversions peuvent ĂȘtre construites de maniĂšre Ă ne perdre aucune information quand une chaĂźne de caractĂšres est convertie dans un autre encodage, puis reconvertie en sens inverse.
UCS contient les caractĂšres nĂ©cessaires pour reprĂ©senter presque toutes les langues connues. Il inclut non seulement les alphabets latin, grec, cyrillique, hĂ©breu, arabe, armĂ©nien et gĂ©orgien, mais Ă©galement les idĂ©ogrammes chinois, japonais, sino-corĂ©ens et les Ă©critures : hiragana, katakana, hangĂ»l, dĂ©vanĂągarĂź, bengali, gourmoukhĂź, goudjarati, oriya, tamoul, tĂ©lougou, kannara, malayalam, thaĂŻ, laotien, khmer, bopomofo, tibĂ©tain, runes, Ă©thiopien, syllabaires canadiens, chĂ©rokĂź, mongol, ogam, birman, cingalais, thĂąna, yi, et dâautres. Pour les Ă©critures qui nâont pas encore Ă©tĂ© intĂ©grĂ©es, des recherches sont en cours pour optimiser lâencodage et elles seront probablement ajoutĂ©es. Cela inclut non seulement des hiĂ©roglyphes et des langues indo-europĂ©ennes historiques, mais aussi des Ă©critures artistiques comme les tengwar de FĂ«anor, les cirth ou le klingon. UCS contient Ă©galement un grand nombre de symboles graphiques, typographiques, mathĂ©matiques et scientifiques comme ceux fournis par TeX, PostScript, APL, MS-DOS, MS-Windows, Macintosh, les polices OCR et par de nombreux traitements de texte et systĂšmes dâĂ©dition, et de plus en plus sont ajoutĂ©s.
La norme UCS (ISO/IEC 10646) dĂ©crit un jeu de caractĂšres sur 31 bits, constituĂ© de 128 groupes sur 24 bits, chacun dâeux divisĂ©s en 256 plans sur 16 bits, composĂ©s de 256 rangĂ©es de 8 bits, avec 256 positions en colonne contenant chacune un caractĂšre. La premiĂšre partie de la norme (ISO/IEC 10646-1) dĂ©finit les 65 534 premiers codes (0x0000 Ă 0xFFFD) qui forment le plan multilingue de base (PMB), câest-Ă -dire le plan 0 du groupe 0. La partie 2 de la norme (ISO/IEC 10646-2) ajoute des caractĂšres au groupe 0 en dehors du PMB, dans plusieurs plans supplĂ©mentaires de lâespace 0x10000 Ă 0x10ffff. On ne prĂ©voit pas dâajouter Ă la norme des caractĂšres au-delĂ de 0x10ffff. Ainsi sur lâensemble de lâespace disponible, une faible fraction du groupe 0 ne sera effectivement utilisĂ©e dans un futur proche. Le PMB contient tous les caractĂšres des jeux habituels. Les plans supplĂ©mentaires ajoutĂ©s par ISO/IEC 10646-2 ne contiennent que des caractĂšres exotiques pour des notations scientifiques spĂ©ciales, des impressions de dictionnaires, lâindustrie de lâimpression, des protocoles de plus haut niveau et les besoins de quelques enthousiastes.
La reprĂ©sentation des caractĂšres UCS sur des mots de 2 octets est appelĂ©e UCS-2 (seulement pour les caractĂšres du BMP), alors que UCS-4 est la reprĂ©sentation des caractĂšres par un mot de 4 octets. De plus, il existe deux formes dâencodage : UTF-8 pour la rĂ©trocompatibilitĂ© avec les logiciels traitant lâASCII et UTF-16 pour la gestion rĂ©trocompatible des caractĂšres non PMB jusquâĂ 0x10ffff par des logiciels UCS-2.
Les caractĂšres UCS 0x0000 Ă 0x007f sont identiques Ă ceux du jeu classique US-ASCII, et ceux de lâintervalle 0x0000 Ă 0x00ff sont identiques Ă ceux du jeu de caractĂšres ISO/IECÂ 8859-1 (latin-1).
CaractÚres composés
Quelques codes de lâUCS ont Ă©tĂ© assignĂ©s Ă des caractĂšres composĂ©s . Ils sont semblables aux touches mortes dâaccents sur les machines Ă Ă©crire. Un caractĂšre composĂ© ajoute simplement un accent sur le caractĂšre prĂ©cĂ©dent. Les caractĂšres accentuĂ©s les plus importants ont leur propre code dans lâUCS. Cependant, le mĂ©canisme des caractĂšres composĂ©s permet dâajouter des accents ou des signes diacritiques sur nâimporte quel caractĂšre de base. Les caractĂšres composĂ©s suivent toujours le caractĂšre quâils modifient. Par exemple, le caractĂšre « Ă » (lettre majuscule latine A accent grave) peut ĂȘtre reprĂ©sentĂ© soit par le code UCS prĂ©composĂ© 0x00C0, soit par la combinaison dâun A majuscule normal, suivi dâun « diacritique accent grave », 0x0041 0x0308.
Les caractĂšres composĂ©s sont essentiels par exemple pour lâencodage de lâĂ©criture thaĂŻe ou pour les notations mathĂ©matiques et lâalphabet phonĂ©tique international.
Niveaux dâimplĂ©mentation
Comme tous les systĂšmes ne sont pas censĂ©s gĂ©rer les mĂ©canismes avancĂ©s comme les caractĂšres composĂ©s, ISO/IEC 10646-1 spĂ©cifie les trois niveaux dâimplĂ©mentation suivants pour lâUCS :
|
Niveau 1 |
Les caractĂšres composĂ©s et les caractĂšres jamos hangĂ»l (un encodage spĂ©cial de lâĂ©criture corĂ©enne, oĂč les glyphes de syllabes hangĂ»l sont encodĂ©s par 2 ou 3 codes de voyelle ou consonne) ne sont pas pris en charge. |
||
|
Niveau 2 |
Outre le niveau 1, les caractĂšres composĂ©s sont maintenant permis pour certaines langues oĂč ils sont essentiels (par exemple, le thaĂŻ, le laotien, lâhĂ©breu, lâarabe, le dĂ©vanĂągarĂź ou le malayalam). |
||
|
Niveau 3 |
Tous les caractÚres UCS sont gérés. |
La norme Unicode 3.0 publiĂ©e par le Consortium Unicode contient exactement le plan multilingue de base UCS au niveau 3 de lâimplĂ©mentation, comme dĂ©crit dans la norme ISO/IEC 10646-1:2000. Unicode 3.1 ajoute les plans supplĂ©mentaires de lâISO/IEC 10646-2. La norme Unicode et les rapports techniques publiĂ©s par le Consortium Unicode fournissent beaucoup de renseignements supplĂ©mentaires sur la sĂ©mantique et les recommandations dâutilisation de nombreux caractĂšres. Elles fournissent des guides et des algorithmes pour Ă©diter, trier, comparer, normaliser, convertir et afficher des chaĂźnes Unicode.
Unicode sous Linux
Sous GNU/Linux, le type C wchar_t est un entier 32 bits signé, et sa valeur est toujours interprétée par la bibliothÚque C comme un code UCS (dans tous les paramÚtres régionaux), une convention signalée par la bibliothÚque C de GNU pour les applications en définissant la constante __STDC_ISO_10646__ comme indiquée dans la norme ISO C99.
LâUCS/Unicode peut ĂȘtre employĂ© comme lâASCII dans les flux dâentrĂ©e-sortie, les communications avec les terminaux, les fichiers textes, les noms de fichier et les variables dâenvironnement dans un encodage multioctet UTF-8 compatible ASCII. Pour signaler lâutilisation de lâUTF-8 comme encodage pour toutes les applications, des paramĂštres rĂ©gionaux ( locale ) adĂ©quats doivent ĂȘtre configurĂ©s dans les variables dâenvironnement (par exemple, « LANG=fr_FR.UTF-8 »).
La fonction nl_langinfo(CODESET) renvoie le nom de lâencodage sĂ©lectionnĂ©. Les fonctions de bibliothĂšque comme wctomb (3) et mbsrtowcs (3) peuvent ĂȘtre utilisĂ©es pour transformer les caractĂšres internes wchar_t et les chaĂźnes dans le jeu de caractĂšres du systĂšme et inversement. La fonction wcwidth (3) indique de combien de positions (0â2) le curseur a Ă©tĂ© avancĂ© en affichant un caractĂšre.
Zone dâutilisation privĂ©e (PUA ou « Private Use Areas »)
Lâintervalle entre 0xe000 et 0xf8ff du plan multilingue de base (« Basic Multilingual Plane ») ne sera jamais assignĂ© a aucun caractĂšre par la norme et est rĂ©servĂ© pour une utilisation privĂ©e. Pour la communautĂ© Linux, cette zone privĂ©e a Ă©tĂ© divisĂ©e en deux. Lâintervalle entre 0xe000 et 0xefff peut ĂȘtre utilisĂ© individuellement par nâimporte quel utilisateur final. Lâintervalle sâĂ©tendant de 0xf000 Ă 0xf8ff est rĂ©servĂ© Ă Linux et les extensions y sont coordonnĂ©es entre les divers utilisateurs de Linux. Lâenregistrement des caractĂšres assignĂ©s Ă la zone Linux est maintenu par LANANA et le registre lui-mĂȘme est disponible dans les sources du noyau Linux sous Documentation/admin-guide/unicode.rst (ou Documentation/unicode.txt avant Linux 4.10).
Deux autres plans sont rĂ©servĂ©s Ă un usage privĂ©. Le plan 15 (zone dâutilisation privĂ©e supplĂ©mentaire PUA-A, intervalle 0xf0000-0xffffd) et le plan 16 (zone dâutilisation privĂ©e PUA-B, intervalle 0x100000-0x10fffd).
Littérature
|
- |
Information technology â Universal Multiple-Octet Coded Character Set (UCS) â Part 1: Architecture and Basic Multilingual Plane. International Standard ISO/IECÂ 10646-1, International Organization for Standardization, Geneva, 2000. |
Il sâagit des spĂ©cifications officielles de lâUCS. Disponible sur http://www.iso.ch/ .
|
- |
The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 2000, ISBN 0-201-61633-5. |
||
|
- |
S. Harbison, G. Steele. CÂ : A Reference Manual. QuatriĂšme edition, Prentice Hall, Englewood Cliffs, 1995, ISBNÂ 0-13-326224-3. |
Un bon livre de rĂ©fĂ©rence sur le langage de programmation C. La quatriĂšme Ă©dition couvre maintenant lâamendement 1 de 1994 Ă la norme ISO C90, qui ajoute un grand nombre de fonctions de bibliothĂšque C pour manipuler les jeux de caractĂšres larges et multioctets, mais ne couvre pas encore lâISO C99, qui amĂ©liore encore plus la gestion des caractĂšres larges et multioctets.
|
- |
Unicode Technical Reports. |
http://www.unicode.org/reports/
|
- |
Markus Kuhn : UTF-8 and Unicode FAQ for UNIX/Linux. |
http://www.cl.cam.ac.uk/~mgk25/unicode.html
|
- |
Bruno Haible : Unicode HOWTO. |
http://guidespratiques.traduc.org/lecture/Unicode-HOWTO.html
VOIR AUSSI
locale (1), setlocale (3), charsets (7), utf-8 (7)
TRADUCTION
La traduction française de cette page de manuel a été créée par Christophe Blaess <https://www.blaess.fr/christophe/>, Stéphan Rafin <stephan.rafin@laposte.net>, Thierry Vignaud <tvignaud@mandriva.com>, François Micaux, Alain Portal <aportal@univ-montp2.fr>, Jean-Philippe Guérard <fevrier@tigreraye.org>, Jean-Luc Coulon (f5ibh) <jean-luc.coulon@wanadoo.fr>, Julien Cristau <jcristau@debian.org>, Thomas Huriaux <thomas.huriaux@gmail.com>, Nicolas François <nicolas.francois@centraliens.net>, Florentin Duneau <fduneau@gmail.com>, Simon Paillard <simon.paillard@resel.enst-bretagne.fr>, Denis Barbier <barbier@debian.org>, David Prévot <david@tilapin.org> et Grégoire Scano <gregoire.scano@malloc.fr>
Cette traduction est une documentation libre ; veuillez vous reporter Ă la GNU General Public License version 3 concernant les conditions de copie et de distribution. Il nây a aucune RESPONSABILITĂ LĂGALE.
Si vous découvrez un bogue dans la traduction de cette page de manuel, veuillez envoyer un message à debian-l10n-french@lists.debian.org .