Man page - perf_event_open(2)

Packages contains this manual

Available languages:

en fr ru

Manual

perf_event_open

NOM
BIBLIOTHÈQUE
SYNOPSIS
DESCRIPTION
Argument
Lecture des résultats
Disposition MMAP
Gestion du dépassement
Instruction rdpmc
Appels ioctl perf_event
Utilisation de prctl(2)
Fichiers de configuration relatifs Ă  perf_event
VALEUR RENVOYÉE
ERREURS
STANDARDS
HISTORIQUE
NOTES
BOGUES
EXEMPLES
VOIR AUSSI
TRADUCTION

NOM

perf_event_open - Définir la surveillance des performances

BIBLIOTHÈQUE

BibliothĂšque C standard ( libc , -lc )

SYNOPSIS

#include <linux/perf_event.h> /* Définition des constantes PERF_* */
#include <linux/hw_breakpoint.h>
/* Définition des constantes HW_* */
#include <sys/syscall.h>
/* Définition des constantes SYS_* */
#include <unistd.h>

int syscall(SYS_perf_event_open, struct perf_event_attr * attr ,
pid_t
pid , int cpu , int group_fd , unsigned long flags );

Remarque : la glibc ne fournit pas d’enveloppe pour perf_event_open (), imposant l’utilisation de syscall (2).

DESCRIPTION

À partir d’une liste de paramùtres, perf_event_open () renvoie un descripteur de fichier, pour une utilisation dans les appels systùme suivants ( read (2), mmap (2), prctl (2), fcntl (2), etc.).

Un appel de perf_event_open () crĂ©e un descripteur de fichier qui permet de mesurer les renseignements de performance. Tous les descripteurs de fichier correspondent chacun Ă  un Ă©vĂ©nement mesuré ; ils peuvent ĂȘtre regroupĂ©s pour mesurer plusieurs Ă©vĂ©nements simultanĂ©ment.

Les Ă©vĂ©nements peuvent ĂȘtre activĂ©s et dĂ©sactivĂ©s de deux façons : Ă  l’aide de ioctl (2) ou de prctl (2). Quand un Ă©vĂ©nement est dĂ©sactivĂ©, il ne dĂ©compte ni ne gĂ©nĂšre de dĂ©passement, mais continue vraiment d’exister et maintient sa valeur de dĂ©compte.

Les Ă©vĂ©nements sont de deux types : comptage et Ă©chantillonnage. Un Ă©vĂ©nement de comptage sert Ă  comptabiliser le nombre total d’évĂ©nements qui se produisent. En gĂ©nĂ©ral, les rĂ©sultats d’un Ă©vĂ©nement de comptage sont recueillis avec un appel read (2). Un Ă©vĂ©nement d’ Ă©chantillonnage Ă©crit pĂ©riodiquement les mesures dans un tampon qui peut ensuite ĂȘtre accĂ©dĂ© Ă  l’aide de mmap (2).

Argument

Les arguments pid et cpu permettent d’indiquer le processus et le processeur à surveiller :
pid == 0
et cpu == -1

Cela mesure le processus ou thread appelant sur tous les processeurs.

pid == 0 et cpu >= 0

Cela ne mesure le processus ou thread appelant que s’il est en cours d’exĂ©cution sur le processeur indiquĂ©.

pid > 0 et cpu == -1

Cela mesure le processus ou thread indiqué sur tous les processeurs.

pid > 0 et cpu >= 0

Cela ne mesure le processus ou thread indiquĂ© que s’il est en cours d’exĂ©cution sur le processeur indiquĂ©.

pid == -1 et cpu >= 0

Cela mesure tous les processus et threads du processeur indiqué. Cela nécessite la capacité CAP_PERFMON (depuis Linux 5.8) ou CAP_SYS_ADMIN ou une valeur /proc/sys/kernel/perf_event_paranoid strictement inférieure à 1 .

pid == -1 et cpu == -1

Ce réglage est incorrect et renverra une erreur.

Quand pid est supĂ©rieur Ă  zĂ©ro, le droit d’effectuer cet appel systĂšme est gĂ©rĂ© par CAP_PERFMON (depuis Linux 5.9) et une vĂ©rification PTRACE_MODE_READ_REALCREDS du mode d’accĂšs ptrace sur les anciennes versions du noyau ; voir ptrace (2).

L’argument group_fd permet aux groupes d’évĂ©nements d’ĂȘtre créés. Un groupe d’évĂ©nements a un Ă©vĂ©nement qui est le leader de groupe. Le leader est d’abord créé avec group_fd = -1 . Les autres membres du groupe sont créés par les appels perf_event_open () suivants, avec group_fd dĂ©fini au descripteur de fichier du leader de groupe (un Ă©vĂ©nement unique créé avec group_fd = -1 est considĂ©rĂ© comme formant un groupe d’un seul membre). Un Ă©vĂ©nement de groupe est programmĂ© dans le processeur comme un bloc : il ne sera mis dans le processeur que si tous les Ă©vĂ©nements du groupe peuvent ĂȘtre mis dans le processeur. Cela veut dire que les valeurs des Ă©vĂ©nements de tous les membres peuvent ĂȘtre comparĂ©es — ajoutĂ©es, divisĂ©es (pour obtenir des rapports), etc. — ensemble de maniĂšre significative, puisqu’elles ont comptĂ© les Ă©vĂ©nements pendant les mĂȘmes instructions exĂ©cutĂ©es.

L’argument flags est constituĂ© d’un OU binaire entre une ou plusieurs des valeurs suivantes.
PERF_FLAG_FD_CLOEXEC
(depuis Linux 3.14)

Cet attribut active l’attribut « close-on-exec » pour le descripteur de fichier de l’évĂ©nement créé, de telle sorte que le descripteur de fichier est automatiquement fermĂ© par execve (2). L’attribution de « close-on-exec » au moment de la crĂ©ation, plutĂŽt qu’ensuite avec fcntl (2), Ă©vite de potentielles situations de compĂ©tition oĂč le thread appelant invoque perf_event_open () et fcntl () en mĂȘme temps qu’un autre thread appelle fork (2) puis execve (2).

PERF_FLAG_FD_NO_GROUP

Cet attribut dit Ă  l’évĂ©nement d’ignorer le paramĂštre group_fd , sauf pour initialiser la redirection de la sortie en utilisant l’attribut PERF_FLAG_FD_OUTPUT .

PERF_FLAG_FD_OUTPUT (cassé depuis Linux 2.6.35)

Cet attribut redirige la sortie Ă©chantillonnĂ©e de l’évĂ©nement vers le tampon mmap de l’évĂ©nement indiquĂ© par group_fd .

PERF_FLAG_PID_CGROUP (depuis Linux 2.6.39)

Cet attribut active la surveillance par conteneur sur tout le systĂšme. Un conteneur est une abstraction qui isole un ensemble de ressources Ă  contrĂŽler plus finement (processeurs, mĂ©moire, etc.). Dans ce mode, l’évĂ©nement n’est mesurĂ© que si le thread exĂ©cutĂ© sur le processeur surveillĂ© appartient au conteneur dĂ©signĂ© (cgroup). Le cgroup est identifiĂ© en passant un fichier au descripteur de fichier ouvert sur son rĂ©pertoire dans le systĂšme de fichiers cgroupfs. Par exemple, si le cgroup Ă  surveiller est appelĂ© test , alors un descripteur de fichier ouvert sur /dev/cgroup/test (en supposant que cgroupfs est montĂ© sur /dev/cgroup ) doit ĂȘtre passĂ© au paramĂštre pid . La surveillance de cgroup n’est disponible que pour les Ă©vĂ©nements sur tout le systĂšme et pourrait donc nĂ©cessiter des droits supplĂ©mentaires.

La structure perf_event_attr fournit des renseignements de configuration détaillés pour les événements en cours de création.

struct perf_event_attr {
__u32 type; /* Type d’évĂ©nement */
__u32 size; /* Taille de la structure d’attributs */
__u64 config; /* Configuration spécifique au type */
union {
__u64 sample_period; /* PĂ©riode d’échantillonnage */
__u64 sample_freq; /* FrĂ©quence d’échantillonnage */
};
__u64 sample_type; /* Indique les valeurs incluses dans
l’échantillon */
__u64 read_format; /* Indique les valeurs renvoyées en
lecture */
__u64 disabled : 1, /* désactivé par défaut */
inherit : 1, /* les enfants en héritent */
pinned : 1, /* doit toujours ĂȘtre en PMU */
exclusive : 1, /* ne regrouper qu’en PMU */
exclude_user : 1, /* ne pas compter l’utilisateur */
exclude_kernel : 1, /* ne pas compter le noyau */
exclude_hv : 1, /* ne pas compter l’hyperviseur */
exclude_idle : 1, /* ne pas compter quand inactif */
mmap : 1, /* inclure les données mmap */
comm : 1, /* inclure les données comm */
freq : 1, /* utiliser la fréquence, pas la
période */
inherit_stat : 1, /* décomptes par tùche */
enable_on_exec : 1, /* prochain exec activé */
task : 1, /* tracer la crĂ©ation d’enfant
et la fin */
watermark : 1, /* wakeup_watermark */
precise_ip : 2, /* contrainte de dérapage */
mmap_data : 1, /* données mmap non exécutées */
sample_id_all : 1, /* tous les événements sample_type */
exclude_host : 1, /* ne pas compter dans l’hîte */
exclude_guest : 1, /* ne pas compter dans l’invitĂ© */
exclude_callchain_kernel : 1,
/* exclure les appels en chaĂźne
du noyau */
exclude_callchain_user : 1,
/* exclure les appels en chaĂźne
d’utilisateur */
mmap2 : 1, /* inclure mmap avec les donnĂ©es d’inƓud */
comm_exec : 1, /* Ă©vĂ©nements flag comm devant ĂȘtre
exécutés */
use_clockid : 1, /* utiliser clockid pour les champs de temps */
context_switch : 1, /* données de changement de contexte */
write_backward : 1, /* Écrire le tampon circulaire de la fin
vers le début */
namespaces : 1, /* inclure les données des espaces de noms */
ksymbol : 1, /* inclure les événements ksymbol */
bpf_event : 1, /* inclure les événements BPF */
aux_output : 1, /* générer les enregistrements AUX au lieu des
événements */
cgroup : 1, /* inclure les événements cgroup */
text_poke : 1, /* inclure les événements de poke de texte */
build_id : 1, /* utiliser build id dans les événements mmap2 */
inherit_thread : 1, /* seuls les enfants en héritent */
/* si cloné avec CLONE_THREAD */
remove_on_exec : 1, /* l’évĂ©nement est supprimĂ© des tĂąches
Ă  l’exĂ©cution */
sigtrap : 1, /* envoyer un SIGTRAP synchrone
lors d’un Ă©vĂ©nement */
__reserved_1 : 26;
union {
__u32 wakeup_events; /* réveil tous les n événements */
__u32 wakeup_watermark; /* octets avant le réveil */
};
__u32 bp_type; /* type de point d’arrĂȘt */
union {
__u64 bp_addr; /* adresse de point d’arrĂȘt */
__u64 kprobe_func; /* pour perf_kprobe */
__u64 uprobe_path; /* pour perf_uprobe */
__u64 config1; /* extension de config */
};
union {
__u64 bp_len; /* taille de point d’arrĂȘt */
__u64 kprobe_addr; /* avec kprobe_func == NULL */
__u64 probe_offset; /* pour perf_[k,u]probe */
__u64 config2; /* extension de config1 */
};
__u64 branch_sample_type; /* enum perf_branch_sample_type */
__u64 sample_regs_user; /* registres utilisateur Ă  renvoyer
dans les échantillons */
__u32 sample_stack_user; /* taille de pile Ă  renvoyer dans
les échantillons */
__s32 clockid; /* horloge Ă  utiliser pour les champs
de temps */
__u64 sample_regs_intr; /* registres Ă  renvoyer dans les
échantillons */
__u32 aux_watermark; /* octets supp. avant le réveil */
__u16 sample_max_stack; /* nombre maximal de trames dans la
chaüne d’appel */
__u32 __reserved_2; /* aligner sur u64 */
__u32 aux_sample_size; /* taille maximale d’échantillon aux */
__u32 __reserved_3; /* aligner sur u64 */
__u64 sig_data; /* données utilisateur pour sigtrap */
};

Les champs de la structure perf_event_attr sont décrits en détail ci-dessous.

type

Ce champ indique le type d’évĂ©nement dans son ensemble. Il a une des valeurs suivantes :

PERF_TYPE_HARDWARE

Cela indique un des événements matériels « généralisés » fournis par le noyau. Consultez la définition du champ config pour plus de précisions.

PERF_TYPE_SOFTWARE

Cela indique un des Ă©vĂ©nements logiciels fournis par le noyau (mĂȘme si aucune prise en charge matĂ©rielle n’est disponible).

PERF_TYPE_TRACEPOINT

Cela indique un point de trace fourni par l’infrastructure de point de trace du noyau.

PERF_TYPE_HW_CACHE

Cela indique un événement de cache matériel. Cela a un encodage particulier décrit dans la définition du champ config .

PERF_TYPE_RAW

Cela indique un Ă©vĂ©nement « brut » spĂ©cifique Ă  l’implĂ©mentation dans le champ config .

PERF_TYPE_BREAKPOINT (depuis Linux 2.6.33)

Cela indique un point d’arrĂȘt matĂ©riel tel que fourni par le processeur. Les points d’arrĂȘt peuvent ĂȘtre des accĂšs en lecture ou Ă©criture sur une adresse ainsi que l’exĂ©cution d’une adresse d’instruction.

PMU dynamique

Depuis Linux 2.6.38, perf_event_open () permet de gĂ©rer plusieurs PMU. Pour activer cela, une valeur exportĂ©e par le noyau peut ĂȘtre utilisĂ©e dans le champ type pour indiquer la PMU Ă  utiliser. La valeur Ă  utiliser est trouvable dans le systĂšme de fichiers sysfs : un sous-rĂ©pertoire existe par instance PMU sous /sys/bus/event_source/devices . Le fichier type dans chaque sous-rĂ©pertoire contient un entier qui peut ĂȘtre utilisĂ© dans le champ type . Par exemple, /sys/bus/event_source/devices/cpu/type contient la valeur de PMU du processeur principal, c’est-Ă -dire 4 en gĂ©nĂ©ral.

kprobe et uprobe (depuis Linux 4.17)

Ces deux PMU dynamiques créent un kprobe/uprobe et le rattachent à un descripteur de fichier généré par perf_event_open. kprobe/uprobe sera détruit lors de la destruction du descripteur de fichier. Voir les champs kprobe_func , uprobe_path , kprobe_addr et probe_offset pour plus de détails.

size

La taille de la structure perf_event_attr pour compatibilités ascendante et descendante. Définissez-la en utilisant sizeof(struct perf_event_attr) pour permettre au noyau de voir la taille de struct au moment de la compilation.

Le PERF_ATTR_SIZE_VER0 relatif est dĂ©fini Ă  64 ; c’était la taille de la premiĂšre struct publiĂ©e. PERF_ATTR_SIZE_VER1 est 72, correspondant Ă  l’addition des points d’arrĂȘts dans Linux 2.6.33. PERF_ATTR_SIZE_VER2 est 80, correspondant Ă  l’addition d’échantillonnage de branchement dans Linux 3.4. PERF_ATR_SIZE_VER3 est 96, correspondant Ă  l’addition de sample_regs_user et sample_stack_user dans Linux 3.7. PERF_ATTR_SIZE_VER4 vaut 104, correspondant Ă  l’ajout de sample_regs_intr dans Linux 3.19. PERF_ATTR_SIZE_VER5 vaut 112, correspondant Ă  l’ajout de aux_watermark dans Linux 4.1.

config

Cela indique l’évĂ©nement voulu, en conjonction avec le champ type . Les champs config1 et config2 sont aussi pris en compte dans les cas oĂč 64 bits ne suffisent pas pour spĂ©cifier complĂštement l’évĂ©nement. L’encodage de ces champs dĂ©pend de l’évĂ©nement.

Le champ config peut ĂȘtre dĂ©fini de diffĂ©rentes façons, en fonction de la valeur du champ type prĂ©cĂ©demment dĂ©crit. Suivent les divers rĂ©glages possibles pour config , distinguĂ©s par type .

Si type est PERF_TYPE_HARDWARE , un des événements processeur matériel généralisé est mesuré. Ils ne sont pas tous disponibles sur toutes les plateformes. Définissez config à une des valeurs suivantes :

PERF_COUNT_HW_CPU_CYCLES

Nombre total de cycles. Méfiez-vous de ce qui arrive lors de la variation de fréquence du processeur.

PERF_COUNT_HW_INSTRUCTIONS

Instructions retirĂ©es. Prenez garde, elles peuvent ĂȘtre affectĂ©es par plusieurs problĂšmes, en particulier les dĂ©comptes d’interruptions matĂ©rielles.

PERF_COUNT_HW_CACHE_REFERENCES

AccÚs au cache. En général, cela indique les accÚs au cache de dernier niveau, mais cela peut dépendre du processeur. Cela pourrait inclure des messages de prélecture et de cohérence ; cela dépend toujours de la conception du processeur.

PERF_COUNT_HW_CACHE_MISSES

Absences dans le cache. Cela indique gĂ©nĂ©ralement les absences dans le cache de dernier niveau, c’est destinĂ© Ă  ĂȘtre utilisĂ© en conjonction avec l’évĂ©nement PERF_COUNT_HW_CACHE_REFERENCES pour calculer le taux d’absence du cache.

PERF_COUNT_HW_BRANCH_INSTRUCTIONS

Instructions de branchements retirĂ©s. Avant Linux 2.6.34, cela utilisait l’évĂ©nement incorrect sur les processeurs AMD.

PERF_COUNT_HW_BRANCH_MISSES

Instructions de branchements mal prédits.

PERF_COUNT_HW_BUS_CYCLES

Cycles de bus, ce qui peut ĂȘtre diffĂ©rent du dĂ©compte total de cycles.

PERF_COUNT_HW_STALLED_CYCLES_FRONTEND (depuis Linux 3.0)

Cycles bloqués pendant un problÚme.

PERF_COUNT_HW_STALLED_CYCLES_BACKEND (depuis Linux 3.0)

Cycles bloqués pendant un retrait.

PERF_COUNT_HW_REF_CPU_CYCLES (depuis Linux 3.3)

Nombre total de cycles ; non affecté par la variation de fréquence du processeur.

Si type est PERF_TYPE_SOFTWARE , les événements logiciels fournis par le noyau sont mesurés. Définissez config à une des valeurs suivantes :

PERF_COUNT_SW_CPU_CLOCK

Cela rend compte de l’horloge du processeur, un temporisateur par processeur Ă  haute rĂ©solution.

PERF_COUNT_SW_TASK_CLOCK

Cela rend compte de l’horloge spĂ©cifique Ă  la tĂąche en cours d’exĂ©cution.

PERF_COUNT_SW_PAGE_FAULTS

Cela rend compte du nombre d’erreurs de pagination.

PERF_COUNT_SW_CONTEXT_SWITCHES

Cela compte les changements de contexte. Jusqu’à Linux 2.6.34, ils Ă©taient tous signalĂ©s comme des Ă©vĂ©nements en espace utilisateur, ils sont maintenant signalĂ©s comme ayant lieu dans le noyau.

PERF_COUNT_SW_CPU_MIGRATIONS

Cela rend compte du nombre de fois oĂč le processus a migrĂ© vers un nouveau processeur.

PERF_COUNT_SW_PAGE_FAULTS_MIN

Cela compte le nombre d’erreurs mineures de pagination. Elles n’ont pas nĂ©cessitĂ© d’entrĂ©es ou sorties du disque pour les traiter.

PERF_COUNT_SW_PAGE_FAULTS_MAJ

Cela compte le nombre d’erreurs majeures de pagination. Elles ont nĂ©cessitĂ© des entrĂ©es ou sorties de disque pour les traiter.

PERF_COUNT_SW_ALIGNMENT_FAULTS (depuis Linux 2.6.33)

Cela compte le nombre de dĂ©fauts d’alignement. Ils ont lieu lors d’accĂšs non alignĂ©s en mĂ©moire ; le noyau peut les traiter mais cela rĂ©duit les performances. Cela n’arrive que sur certaines architectures (jamais sur x86).

PERF_COUNT_SW_EMULATION_FAULTS (depuis Linux 2.6.33)

Cela compte le nombre de dĂ©fauts d’émulation. Le noyau intercepte parfois des instructions non implĂ©mentĂ©es et les Ă©mule pour l’espace utilisateur. Cela peut avoir des consĂ©quences nĂ©gatives sur les performances.

PERF_COUNT_SW_DUMMY (depuis Linux 3.12)

C’est un Ă©vĂ©nement fictif qui ne compte rien. Les types d’enregistrement d’échantillonnage informatif comme mmap ou comm doivent ĂȘtre associĂ©s Ă  un Ă©vĂ©nement actif. Cet Ă©vĂ©nement factice permet de rĂ©cupĂ©rer ce genre d’enregistrements sans nĂ©cessiter d’évĂ©nement de comptage.

PERF_COUNT_SW_BPF_OUTPUT (depuis Linux 4.4)

Cela est utilisĂ© pour gĂ©nĂ©rer des donnĂ©es d’échantillonnage brutes Ă  partir de BPF. Les programmes BPF peuvent Ă©crire sur cet Ă©vĂ©nement en utilisant l’assistant bpf_perf_event_output .

PERF_COUNT_SW_CGROUP_SWITCHES (since Linux 5.13)

Cela compte les changements de contexte d’une tĂąche dans un cgroup diffĂ©rent. En d’autres termes, si la tĂąche suivante est dans le mĂȘme cgroup, il ne comptera le changement.

Si type est PERF_TYPE_TRACEPOINT , alors les points de trace du noyau sont mesurĂ©s. La valeur Ă  utiliser dans config peut ĂȘtre obtenue depuis tracing/events/*/*/id de debugfs si ftrace est activĂ© dans le noyau.

Si type est PERF_TYPE_HW_CACHE , alors un Ă©vĂ©nement de cache du processeur matĂ©riel est mesurĂ©. Utilisez l’équation suivante pour calculer la valeur config appropriĂ©e.

config = (perf_hw_cache_id) |
(perf_hw_cache_op_id << 8) |
(perf_hw_cache_op_result_id << 16);

oĂč perf_hw_cache_id peut ĂȘtre :

PERF_COUNT_HW_CACHE_L1D

pour mesurer le cache de données de niveau 1 ;

PERF_COUNT_HW_CACHE_L1I

pour mesurer le cache d’instructions de niveau 1 ;

PERF_COUNT_HW_CACHE_LL

pour mesurer le cache de dernier niveau ;

PERF_COUNT_HW_CACHE_DTLB

pour mesurer les données TLB ;

PERF_COUNT_HW_CACHE_ITLB

pour mesurer les instructions TLB ;

PERF_COUNT_HW_CACHE_BPU

pour mesurer l’unitĂ© de prĂ©diction de branchement ;

PERF_COUNT_HW_CACHE_NODE (depuis Linux 3.1)

pour mesurer les accÚs à la mémoire locale.

et perf_hw_cache_op_id est parmi :

PERF_COUNT_HW_CACHE_OP_READ

pour les accÚs en lecture ;

PERF_COUNT_HW_CACHE_OP_WRITE

pour les accÚs en écriture ;

PERF_COUNT_HW_CACHE_OP_PREFETCH

pour les accÚs de prélecture

et perf_hw_cache_op_result_id peut ĂȘtre :

PERF_COUNT_HW_CACHE_RESULT_ACCESS

pour mesurer les accÚs ;

PERF_COUNT_HW_CACHE_RESULT_MISS

pour mesurer les échecs.

Si type est PERF_TYPE_RAW , alors une valeur config « brute » personnalisĂ©e est nĂ©cessaire. La plupart des processeurs gĂšrent les Ă©vĂ©nements qui ne sont pas couverts par les Ă©vĂ©nements « gĂ©nĂ©ralisĂ©s ». Ceux-ci sont dĂ©finis par l’implĂ©mentation ; consultez le manuel du processeur (par exemple la documentation Intel Volume 3B ou le guide du dĂ©veloppeur de BIOS et noyau AMD). La bibliothĂšque libpfm4 peut ĂȘtre utilisĂ©e pour traduire le nom, dans les manuels architecturaux, en valeur hexadĂ©cimale brute que perf_event_open () attend dans ce champ.

Si type est PERF_TYPE_BREAKPOINT , alors laissez config défini à zéro. Ses paramÚtres sont définis ailleurs.

Si type est kprobe ou uprobe , définir retprobe (bit 0 de config , voir /sys/bus/event_source/devices/[k,u]probe/format/retprobe ) pour kretprobe/uretprobe. Voir les champs kprobe_func , uprobe_path , kprobe_addr et probe_offset pour plus de détails.

kprobe_func
uprobe_path
kprobe_addr
probe_offset

Ces champs décrivent les kprobe/uprobe pour les PMU dynamiques kprobe et uprobe . Pour kprobe utilisez kprobe_func et probe_offset ou alors utilisez kprobe_addr et laissez le champ kprobe_func à NULL. Pour uprobe , utilisez uprobe_path et probe_offset .

sample_period
sample_freq

Un compteur d’« échantillonnage » gĂ©nĂšre une notification de dĂ©passement tous les N évĂ©nements, oĂč N est donnĂ© par sample_period . Un compteur d’échantillonnage a sample_period > 0. Quand un dĂ©passement arrive, les donnĂ©es demandĂ©es sont enregistrĂ©es dans le tampon mmap. Le champ sample_type contrĂŽle les donnĂ©es qui sont enregistrĂ©es Ă  chaque dĂ©passement.

sample_freq permet d’utiliser la frĂ©quence au lieu de la pĂ©riode. Dans ce cas, l’attribut freq doit ĂȘtre dĂ©fini. Le noyau ajustera la pĂ©riode d’échantillonnage pour essayer d’atteindre le taux voulu. Le taux d’ajustement est un tic d’horloge.

sample_type

Les divers bits de ce champ indiquent les valeurs Ă  inclure dans l’échantillon. Elles seront enregistrĂ©es dans un tampon circulaire, disponible en espace utilisateur avec mmap (2). L’ordre de sauvegarde des valeurs dans l’échantillon est documentĂ© dans la sous-section Disposition MMAP ci-dessous ; ce n’est pas l’ordre enum perf_event_sample_format .
PERF_SAMPLE_IP

Enregistrement de pointeur d’instruction.

PERF_SAMPLE_TID

Enregistrement des identifiants de processus et de thread.

PERF_SAMPLE_TIME

Enregistrement d’un horodatage.

PERF_SAMPLE_ADDR

Enregistrement d’une adresse, si applicable.

PERF_SAMPLE_READ

Enregistrement des valeurs de dĂ©compte de tous les Ă©vĂ©nements d’un groupe, pas seulement du leader de groupe.

PERF_SAMPLE_CALLCHAIN

Enregistrement de l’appel en chaüne (backtrace de pile).

PERF_SAMPLE_ID

Enregistrement d’un identifiant unique pour le leader de groupe d’évĂ©nements ouvert.

PERF_SAMPLE_CPU

Enregistrement de numéro de processeur.

PERF_SAMPLE_PERIOD

Enregistrement de la pĂ©riode d’échantillonnage actuelle.

PERF_SAMPLE_STREAM_ID

Enregistrement d’un identifiant unique pour l’évĂ©nement ouvert. Contrairement Ă  PERF_SAMPLE_ID , le vĂ©ritable identifiant est renvoyĂ©, pas celui du leader de groupe. Cet identifiant est le mĂȘme que celui renvoyĂ© par PERF_FORMAT_ID .

PERF_SAMPLE_RAW

Enregistrement de données supplémentaires, si applicable. Normalement renvoyées par les événements de point de trace.

PERF_SAMPLE_BRANCH_STACK (depuis Linux 3.4)

Cela fournit un enregistrement des derniers branchements tels que fournis par le matĂ©riel d’échantillonnage de branchement processeur (comme le LBR – Last Branch Record – d’Intel). Les matĂ©riels ne prennent pas tous en charge cette fonctionnalitĂ©.

Consultez le champ branch_sample_type pour la façon de filtrer les branchements signalés.

PERF_SAMPLE_REGS_USER (depuis Linux 3.7)

Enregistrement de l’état actuel du registre processeur au niveau utilisateur (les valeurs dans le processus avant d’appeler le noyau).

PERF_SAMPLE_STACK_USER (depuis Linux 3.7)

Enregistrement de la pile au niveau utilisateur, permettant le défilement de la pile.

PERF_SAMPLE_WEIGHT (depuis Linux 3.10)

Enregistrement d’une valeur de poids fournie par le matĂ©riel qui exprime le coĂ»t de l’évĂ©nement d’échantillonnage. Cela permet au matĂ©riel de mettre en valeur les Ă©vĂ©nements coĂ»teux dans un profil.

PERF_SAMPLE_DATA_SRC (depuis Linux 3.10)

Enregistrement des sources de donnĂ©es : d’oĂč viennent, dans la hiĂ©rarchie de mĂ©moire, les donnĂ©es associĂ©es Ă  l’instruction d’échantillonnage. Ce n’est disponible que si le matĂ©riel sous-jacent prend en charge cette fonctionnalitĂ©.

PERF_SAMPLE_IDENTIFIER (depuis Linux 3.12)

Placement de la valeur SAMPLE_ID Ă  un endroit fixe de l’enregistrement, soit au dĂ©but (pour les Ă©vĂ©nements d’échantillonnage), soit Ă  la fin (si ce n’est pas un Ă©vĂ©nement d’échantillonnage).

C’était nĂ©cessaire parce qu’un flux d’échantillonnage pourrait avoir des enregistrements provenant de diffĂ©rentes sources d’évĂ©nements avec des rĂ©glages de sample_type diffĂ©rents. L’analyse correcte du flux d’évĂ©nements n’était pas possible parce que le format de l’enregistrement Ă©tait nĂ©cessaire pour trouver SAMPLE_ID , mais le format ne pouvait pas ĂȘtre trouvĂ© sans savoir Ă  quel Ă©vĂ©nement l’échantillonnage appartenait (provoquant une dĂ©pendance circulaire).

Ce nouveau rĂ©glage PERF_SAMPLE_IDENTIFIER rend le flux d’évĂ©nements toujours analysable en plaçant SAMPLE_ID Ă  une position fixe, mĂȘme si cela a pour consĂ©quence de dupliquer les valeurs SAMPLE_ID dans les enregistrements.

PERF_SAMPLE_TRANSACTION (depuis Linux 3.13)

Enregistrement des raisons pour les Ă©vĂ©nements d’abandon de mĂ©moire transactionnelle (venant par exemple de la prise en charge de mĂ©moire transactionnelle TSX Intel).

Le rĂ©glage precise_ip doit ĂȘtre positif et un Ă©vĂ©nement d’abandon de mĂ©moire transactionnelle doit ĂȘtre mesurĂ© sinon aucune valeur ne sera enregistrĂ©e. Remarquez Ă©galement que certaines mesures perf_event, comme le comptage de cycles d’échantillonnage, peuvent provoquer des abandons supplĂ©mentaires (en provoquant une interruption lors d’une transaction).

PERF_SAMPLE_REGS_INTR (depuis Linux 3.19)

Enregistrement d’un sous-ensemble de l’état actuel du registre du processeur comme indiquĂ© par sample_regs_intr . Contrairement Ă  PERF_SAMPLE_REGS_USER , les valeurs du registre renverront l’état du registre du noyau si le dĂ©passement s’est produit alors que le code du noyau est en cours d’exĂ©cution. Si le processeur gĂšre l’échantillonnage matĂ©riel de l’état du registre (Ă  savoir PEBS sur Intel x86) et si precise_ip est supĂ©rieur Ă  zĂ©ro, les valeurs du registre renvoyĂ©es sont celles rĂ©cupĂ©rĂ©es par le matĂ©riel au moment du retrait de l’instruction Ă©chantillonnĂ©e.

PERF_SAMPLE_PHYS_ADDR (depuis Linux 4.13)

Enregistrement de l’adresse physique des donnĂ©es comme avec PERF_SAMPLE_ADDR .

PERF_SAMPLE_CGROUP (depuis Linux 5.7)

Enregistrement de l’identifiant cgroup (perf_event) du processus. Cela correspond au champ id de l’évĂ©nement PERF_RECORD_CGROUP .

PERF_SAMPLE_DATA_PAGE_SIZE (depuis Linux 5.11)

Enregistrement de la taille de la page de données comme avec PERF_SAMPLE_ADDR .

PERF_SAMPLE_CODE_PAGE_SIZE (depuis Linux 5.11)

Enregistrement de la taille de la page de l’ip comme avec PERF_SAMPLE_ADDR .

PERF_SAMPLE_WEIGHT_STRUCT (depuis Linux 5.12)

Enregistrement d’une valeur de poids fournie par le matĂ©riel comme PERF_SAMPLE_WEIGHT , mais il peut reprĂ©senter plusieurs valeur dans un struct. Il partage le mĂȘme espace que PERF_SAMPLE_WEIGHT , aussi les utilisateurs peuvent appliquer l’un ou l’autre, mais pas les deux Ă  la fois. Il a le format suivant et la signification de chaque champ dĂ©pend de l’implĂ©mentation matĂ©rielle.

union perf_sample_weight {
u64 full; /* PERF_SAMPLE_WEIGHT */
struct { /* PERF_SAMPLE_WEIGHT_STRUCT */
u32 var1_dw;
u16 var2_w;
u16 var3_w;
};
};

read_format

Ce champ indique le format des données renvoyées par read (2) sur un descripteur de fichier perf_event_open ().
PERF_FORMAT_TOTAL_TIME_ENABLED

Ajout du champ time_enabled de 64 bits. Cela peut servir Ă  calculer les totaux estimĂ©s si la PMU est surutilisĂ©e et qu’il y a multiplexage.

PERF_FORMAT_TOTAL_TIME_RUNNING

Ajout du champ time_running de 64 bits. Cela peut servir pour calculer les totaux estimĂ©s si la PMU est surutilisĂ©e et qu’il y a multiplexage.

PERF_FORMAT_ID

Ajout d’une valeur unique de 64 bits qui correspond au groupe d’évĂ©nements.

PERF_FORMAT_GROUP

Permettre Ă  toutes les valeurs de dĂ©compte d’un groupe d’évĂ©nements d’ĂȘtre lues en une seule lecture.

PERF_FORMAT_LOST (depuis Linux 6.0)

Ajout d’une valeur 64 bits qui est le nombre d’échantillons perdus pour cet Ă©vĂ©nement. Ce ne devrait significatif uniquement quand sample_period ou sample_freq est dĂ©fini.

disabled

Le bit disabled indique si le compteur commence dĂ©sactivĂ© ou activĂ©. Si dĂ©sactivĂ©, l’évĂ©nement peut ĂȘtre activĂ© plus tard par ioctl (2), prctl (2) ou enable_on_exec .

Lors de la crĂ©ation d’un groupe d’évĂ©nements, le leader de groupe est gĂ©nĂ©ralement initialisĂ© avec disabled dĂ©fini Ă  1 et tous les Ă©vĂ©nements enfants sont initialisĂ©s avec disabled dĂ©fini Ă  0 . Bien que disabled soit 0 , les Ă©vĂ©nements enfants ne dĂ©marrent pas avant que le leader de groupe ne soit activĂ©.

inherit

Le bit inherit indique que le compteur devrait compter les Ă©vĂ©nements des tĂąches enfant comme les tĂąches indiquĂ©es. Cela ne s’applique qu’aux nouveaux enfants, pas Ă  ceux existants au moment oĂč le compteur est créé (ni aux nouveaux enfants des enfants existants).

L’hĂ©ritage ne fonctionne pas pour certaines combinaisons de read_format , comme PERF_FORMAT_GROUP .

pinned

Le bit pinned indique que le compteur devrait toujours ĂȘtre sur le processeur si c’est possible. Cela ne s’applique qu’aux compteurs matĂ©riels et seulement aux leaders de groupe. Si un compteur Ă©pinglĂ© ne peut pas ĂȘtre mis dans le processeur (par exemple s’il n’y a pas assez de compteurs matĂ©riels ou en cas de confit avec n’importe quel autre Ă©vĂ©nement), alors le compteur arrive en Ă©tat d’« erreur », oĂč les lectures renvoient une fin de fichier (c’est-Ă -dire que read (2) renvoie 0 ) jusqu’à ce que le compteur soit ensuite activĂ© ou dĂ©sactivĂ©.

exclusive

Le bit exclusive indique que si ce groupe du compteur est sur le processeur, il devrait ĂȘtre le seul groupe utilisant les compteurs du processeur. Cela pourrait permettre Ă  l’avenir de surveiller des programmes pour gĂ©rer les fonctionnalitĂ©s PMU qui doivent fonctionner seules, sans perturber d’autres compteurs matĂ©riels.

Remarquez que de nombreuses situations non attendues pourraient empĂȘcher de dĂ©marrer les Ă©vĂ©nements avec le bit exclusive dĂ©fini. Cela concerne tous les utilisateurs exĂ©cutant des mesures au niveau du systĂšme ainsi que toutes les utilisations par le noyau des compteurs de performance (y compris l’interface NMI Watchdog Timer habituellemen activĂ©e).

exclude_user

Si ce bit est dĂ©fini, le dĂ©compte exclut les Ă©vĂ©nements qui arrivent dans l’espace utilisateur.

exclude_kernel

Si ce bit est dĂ©fini, le dĂ©compte exclut les Ă©vĂ©nements qui arrivent dans l’espace du noyau.

exclude_hv

Si ce bit est dĂ©fini, le dĂ©compte exclut les Ă©vĂ©nements qui arrivent dans l’hyperviseur. C’est surtout pour les PMU avec prise en charge intĂ©grĂ©e de leur traitement (comme POWER). Une prise en charge supplĂ©mentaire est nĂ©cessaire pour traiter les mesures d’hyperviseur sur la plupart des machines.

exclude_idle

S’il est dĂ©fini, ne pas dĂ©compter quand le processeur exĂ©cute la tĂąche inactive. Si vous pouvez actuellement activer cela pour n’importe quel type d’évĂ©nement, il est ignorĂ© pour tous, sauf ceux de type logiciel.

mmap

Le bit mmap active la gĂ©nĂ©ration des Ă©chantillons PERF_RECORD_MMAP pour tous les appels mmap (2) qui ont PROT_EXEC dĂ©fini. Cela permet aux outils de remarquer le nouveau code exĂ©cutable en train d’ĂȘtre associĂ© dans un programme (les bibliothĂšques partagĂ©es dynamiques par exemple) de telle sorte que les adresses peuvent ĂȘtre rĂ©associĂ©es au code d’origine.

comm

Le bit comm active le suivi du nom de commande de processus tel que modifiĂ© par les appels systĂšme execve (2) et prctl (PR_SET_NAME) ainsi que l’écriture dans /proc/self/comm . Si l’attribut comm_exec est positionnĂ© avec succĂšs (ce qui est possible depuis Linux 3.16), l’attribut gĂ©nĂ©ral PERF_RECORD_MISC_COMM_EXEC peut ĂȘtre utilisĂ© pour diffĂ©rencier le cas execve (2) des autres.

freq

Si ce bit est activĂ©, alors sample_frequency est utilisĂ© au lieu de sample_period lors du rĂ©glage de l’intervalle d’échantillonnage.

inherit_stat

Ce bit active la sauvegarde des dĂ©comptes d’évĂ©nements lors du changement de contexte pour les tĂąches hĂ©ritĂ©es. Cela n’a de sens que si le champ inherit est dĂ©fini.

enable_on_exec

Si ce bit est dĂ©fini, un compteur est automatiquement activĂ© aprĂšs un appel d’ execve (2).

task

Si ce bit est dĂ©fini, alors les notifications de crĂ©ation d’enfant et de fin sont inclues au tampon circulaire.

watermark

Si défini, une notification de débordement arrive lors du passage de la frontiÚre wakeup_watermark . Sinon, les notifications arrivent aprÚs les échantillons wakeup_events .

precise_ip (depuis Linux 2.6.35)

Cela contrĂŽle la quantitĂ© de dĂ©rapage. Le dĂ©rapage est le nombre d’instructions qui s’exĂ©cutent entre l’arrivĂ©e d’un Ă©vĂ©nement d’intĂ©rĂȘt et la possibilitĂ© du noyau de s’arrĂȘter pour enregistrer l’évĂ©nement. Les plus petits dĂ©rapages sont meilleurs et permettent d’associer plus prĂ©cisĂ©ment les Ă©vĂ©nements correspondant aux instructions, mais le matĂ©riel est souvent limitĂ© par leur taille.

Les valeurs possibles du champ sont les suivantes :

0

SAMPLE_IP peut avoir un dérapage arbitraire ;

1

SAMPLE_IP doit avoir un dérapage constant ;

2

SAMPLE_IP a demandé un dérapage nul ;

3

SAMPLE_IP doit avoir un dérapage nul. Consultez aussi la description de PERF_RECORD_MISC_EXACT_IP .

mmap_data (depuis Linux 2.6.36)

L’opposĂ© du champ mmap . Cela active la gĂ©nĂ©ration des Ă©chantillons PERF_RECORD_MMAP pour les appels mmap (2) qui n’ont pas PROT_EXEC dĂ©fini (par exemple les donnĂ©es et la mĂ©moire partagĂ©e SysV).

sample_id_all (depuis Linux 2.6.38)

Si dĂ©fini, alors TID, TIME, ID, STREAM_ID et CPU peuvent de plus ĂȘtre inclus dans les non PERF_RECORD_SAMPLE si le sample_type correspondant est sĂ©lectionnĂ©.

Si PERF_SAMPLE_IDENTIFIER est indiquĂ©, alors une valeur d’identifiant supplĂ©mentaire est incluse en derniĂšre valeur pour faciliter l’analyse du flux d’enregistrement. Cela peut avoir pour consĂ©quence de voir apparaĂźtre la valeur id deux fois.

La disposition est décrite par cette pseudostructure :

struct sample_id {
{ u32 pid, tid; } /* si PERF_SAMPLE_TID est défini */
{ u64 time; } /* si PERF_SAMPLE_TIME est défini */
{ u64 id; } /* si PERF_SAMPLE_ID est défini */
{ u64 stream_id;} /* si PERF_SAMPLE_STREAM_ID est défini */
{ u32 cpu, res; } /* si PERF_SAMPLE_CPU est défini */
{ u64 id; } /* si PERF_SAMPLE_IDENTIFIER est défini */
};

exclude_host (depuis Linux 3.2)

Quand on prend des mesures comprenant les processus exĂ©cutant des instances de VM (Ă  savoir si on exĂ©cute ioctl (2) KVM_RUN ), ne mesurer que les Ă©vĂ©nements dans l’instance de l’invitĂ©. Cela n’a de sens qu’à l’extĂ©rieur de l’invité ; ce paramĂštre ne modifie pas les compteurs Ă  l’intĂ©rieur d’un invitĂ©. Actuellement, cette fonctionnalitĂ© n’existe que sur x86.

exclude_guest (depuis Linux 3.2)

Quand on prend des mesures comprenant les processus exĂ©cutant des instances de VM (Ă  savoir si on exĂ©cute ioctl (2) KVM_RUN ), ne pas mesurer les Ă©vĂ©nements dans l’instance de l’invitĂ©. Cela n’a de sens qu’à l’extĂ©rieur de l’invité ; ce paramĂštre ne modifie pas les compteurs Ă  l’intĂ©rieur d’un invitĂ©. Actuellement, cette fonctionnalitĂ© n’existe que sur x86.

exclude_callchain_kernel (depuis Linux 3.7)

Ne pas inclure les appels en chaĂźne du noyau.

exclude_callchain_user (depuis Linux 3.7)

Ne pas inclure les appels en chaüne d’utilisateur.

mmap2 (depuis Linux 3.16)

GĂ©nĂ©rer un enregistrement mmap exĂ©cutable Ă©tendu contenant assez d’informations supplĂ©mentaires pour n’identifier que les projections partagĂ©es. L’attribut mmap doit aussi ĂȘtre dĂ©fini pour que cela fonctionne.

comm_exec (depuis Linux 3.16)

Il s’agit d’un attribut de pure dĂ©tection de fonctionnalitĂ©, il ne modifie pas le comportement du noyau. Si cet attribut peut ĂȘtre positionnĂ© avec succĂšs, quand comm est activĂ©, l’attribut PERF_RECORD_MISC_COMM_EXEC sera positionnĂ© dans le champ misc de l’entĂȘte de l’enregistrement comm si l’évĂ©nement de renommage signalĂ© a Ă©tĂ© causĂ© par un appel Ă  execve (2). Cela permet aux outils de distinguer les types de renommage du processus.

use_clockid (depuis Linux 4.1)

Cela permet de sĂ©lectionner l’horloge interne du noyau Linux Ă  utiliser lors de la gĂ©nĂ©ration des horodatages Ă  l’aide du champ clockid . Cela peut faciliter la corrĂ©lation des durĂ©es d’échantillonnage des perf avec les horodatages gĂ©nĂ©rĂ©s par d’autres outils.

context_switch (depuis Linux 4.3)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_SWITCH lors d’un changement de contexte. Cela active aussi la gĂ©nĂ©ration d’enregistrements PERF_RECORD_SWITCH_CPU_WIDE lors d’un Ă©chantillonnage en mode processeur complet. Cette fonctionnalitĂ© s’ajoute aux points de trace existants et aux Ă©vĂ©nements logiciels de mesure des changements de contexte. L’avantage de cette mĂ©thode est qu’elle fournira toutes les informations mĂȘme avec des rĂ©glages perf_event_paranoid stricts.

write_backward (depuis Linux 4.6)

Cela fait Ă©crire le tampon circulaire de la fin vers le dĂ©but. Cela permet de gĂ©rer la lecture Ă  partir d’un tampon circulaire rĂ©inscriptible.

namespaces (depuis Linux 4.11)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_NAMESPACES lorsqu’une tĂąche entre dans un nouvel espace de noms. Chaque espace de noms a une combinaison de numĂ©ros de pĂ©riphĂ©rique et d’inƓud.

ksymbol (depuis Linux 5.0)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_KSYMBOL quand de nouveaux symboles du noyau sont enregistrĂ©s ou dĂ©senregistrĂ©s. Cela concerne les fonctions dynamiques d’analyse du noyau comme eBPF.

bpf_event (depuis Linux 5.0)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_BPF_EVENT lorsqu’un programme eBPF est chargĂ© ou dĂ©chargĂ©.

aux_output (depuis Linux 5.4)

Cela permet aux événements normaux (non-AUX) de générer des données pour des événements AUX si le matériel le prend en charge.

cgroup (depuis Linux 5.7)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_CGROUP quand un nouveau cgroup est créé (et activĂ©).

text_poke (depuis Linux 5.8)

Cela active la gĂ©nĂ©ration d’enregistrements PERF_RECORD_TEXT_POKE quand un changement se produit dans le texte du noyau (c’est-Ă -dire quand du code se modifie lui-mĂȘme).

build_id (depuis Linux 5.12)

Cela modifie le contenu de PERF_RECORD_MMAP2 pour avoir un build-id Ă  la place des numĂ©ros de pĂ©riphĂ©rique et d’inƓud.

inherit_thread (depuis Linux 5.13)

Cela dĂ©sactive l’hĂ©ritage de l’évĂ©nement vers un processus enfant. Seuls les nouveaux threads dans le mĂȘme processus (qui est clonĂ© avec CLONE_THREAD ) hĂ©riteront de l’évĂ©nement.

remove_on_exec (depuis Linux 5.13)

Cela clĂŽt l’évĂ©nement quand il dĂ©marre une nouvelle image de processus avec execve (2).

sigtrap (depuis Linux 5.13)

Cela permet l’envoi d’un signal synchrone de SIGTRAP quand un Ă©vĂ©nement dĂ©borde.

wakeup_events
wakeup_watermark

Cette union indique le nombre d’échantillons ( wakeup_events ) ou d’octets ( wakeup_watermark ) qui arrivent avant un signal de dĂ©passement. Celui utilisĂ© est sĂ©lectionnĂ© par l’attribut watermark .

wakeup_events ne compte que les types d’enregistrement PERF_RECORD_SAMPLE . Pour recevoir un signal pour tous les types PERF_RECORD arrivant, choisissez watermark et dĂ©finissez wakeup_watermark Ă  1 .

Avant Linux 3.0, positionner wakeup_events à 0 ne signalait aucun dépassement ; les noyaux plus récents traitent 0 comme 1 .

bp_type (depuis Linux 2.6.33)

Cela choisit le type de point d’arrĂȘt. Il s’agit d’un des suivants :
HW_BREAKPOINT_EMPTY

pas de point d’arrĂȘt ;

HW_BREAKPOINT_R

compte lors de la lecture de l’emplacement mĂ©moire ;

HW_BREAKPOINT_W

compte lors de l’écriture Ă  l’emplacement mĂ©moire ;

HW_BREAKPOINT_RW

compte lors de la lecture ou l’écriture Ă  l’emplacement mĂ©moire ;

HW_BREAKPOINT_X

compte lors de l’exĂ©cution de code Ă  l’emplacement mĂ©moire.

Les valeurs peuvent ĂȘtre combinĂ©es Ă  l’aide d’un OU binaire, mais les combinaisons de HW_BREAKPOINT_R ou HW_BREAKPOINT_W avec HW_BREAKPOINT_X ne sont pas permises.

bp_addr (depuis Linux 2.6.33)

Il s’agit de l’adresse du point d’arrĂȘt. Pour les points d’arrĂȘt d’exĂ©cution, c’est l’adresse mĂ©moire de l’instruction d’intĂ©rĂȘt ; pour les points d’arrĂȘt de lecture et Ă©criture, c’est l’adresse mĂ©moire de l’emplacement mĂ©moire d’intĂ©rĂȘt.

config1 (depuis Linux 2.6.39)

config1 est utilisĂ© pour dĂ©finir des Ă©vĂ©nements qui ont besoin d’un registre supplĂ©mentaire ou qui sinon ne rentrent pas dans le champ config normal. OFFCORE_EVENTS brut sur Nehalem/Westmere/SandyBridge utilise ce champ sur Linux 3.3 et les noyaux suivants.

bp_len (depuis Linux 2.6.33)

bp_len est la taille du point d’arrĂȘt mesurĂ© si type est PERF_TYPE_BREAKPOINT . Les options sont HW_BREAKPOINT_LEN_1 , HW_BREAKPOINT_LEN_2 , HW_BREAKPOINT_LEN_4 et HW_BREAKPOINT_LEN_8 . Pour un point d’arrĂȘt, dĂ©finissez-la Ă  sizeof(long) .

config2 (depuis Linux 2.6.39)

config2 est une extension supplémentaire du champ config1 .

branch_sample_type (depuis Linux 3.4)

Si PERF_SAMPLE_BRANCH_STACK est activĂ©, alors cela indique les branchements Ă  inclure dans l’enregistrement de branchements.

La premiĂšre partie de la valeur est le niveau de droits qui est une combinaison d’une des valeurs suivantes. Si l’utilisateur ne dĂ©finit pas explicitement le niveau de droits, le noyau utilisera celui de l’évĂ©nement. Les niveaux de droits de l’évĂ©nement et du branchement ne doivent pas nĂ©cessairement correspondre.
PERF_SAMPLE_BRANCH_USER

La cible de branchement est dans l’espace utilisateur.

PERF_SAMPLE_BRANCH_KERNEL

La cible de branchement est dans l’espace du noyau.

PERF_SAMPLE_BRANCH_HV

La cible de branchement est dans l’hyperviseur.

PERF_SAMPLE_BRANCH_PLM_ALL

Une valeur pratique qui correspond aux trois valeurs précédentes combinées avec un OU.

En plus de la valeur de droits, au moins un des bits suivants doit ĂȘtre dĂ©fini.
PERF_SAMPLE_BRANCH_ANY

N’importe quel type de branchement.

PERF_SAMPLE_BRANCH_ANY_CALL

N’importe quelle branche d’appel (y compris les appels directs, indirects et les grands sauts).

PERF_SAMPLE_BRANCH_IND_CALL

Appels indirects.

PERF_SAMPLE_BRANCH_CALL (depuis Linux 4.4)

Appels directs.

PERF_SAMPLE_BRANCH_ANY_RETURN

N’importe quel branchement de retour.

PERF_SAMPLE_BRANCH_IND_JUMP (depuis Linux 4.2)

Sauts indirects.

PERF_SAMPLE_BRANCH_COND (depuis Linux 3.16)

Branches conditionnelles.

PERF_SAMPLE_BRANCH_ABORT_TX (depuis Linux 3.11)

Abandons de mémoire transactionnelle.

PERF_SAMPLE_BRANCH_IN_TX (depuis Linux 3.11)

Branchement dans une transaction de mémoire transactionnelle.

PERF_SAMPLE_BRANCH_NO_TX (depuis Linux 3.11)

Branchement non dans la transaction de la mĂ©moire transactionnelle. PERF_SAMPLE_BRANCH_CALL_STACK (depuis Linux 4.1). Le branchement faitpartie d’une pile d’appel gĂ©nĂ©rĂ©e par le matĂ©riel. Cela implique la prise en charge par le matĂ©riel, qui n’existe actuellement que sur le x86 Haswell d’Intel ou plus rĂ©cent.

sample_regs_user (depuis Linux 3.7)

Ce masque binaire dĂ©finit l’ensemble des registres processeur utilisateur Ă  renvoyer dans les Ă©chantillons. La disposition du masque de registre est spĂ©cifique Ă  l’architecture et dĂ©finie dans l’en-tĂȘte du noyau arch/ARCH/include/uapi/asm/perf_regs.h .

sample_stack_user (depuis Linux 3.7)

Cela définit la taille de la pile utilisateur à renvoyer si PERF_SAMPLE_STACK_USER est indiqué.

clockid (depuis Linux 4.1)

Si use_clockid est positionnĂ©, ce champ sĂ©lectionne l’horloge interne de Linux Ă  utiliser pour les horodatages. Les horloges disponibles sont dĂ©finies dans linux/time.h , oĂč sont actuellement prises en charge CLOCK_MONOTONIC , CLOCK_MONOTONIC_RAW , CLOCK_REALTIME , CLOCK_BOOTTIME et CLOCK_TAI .

aux_watermark (depuis Linux 4.1)

Cela indique la quantité de données nécessaires pour récupérer un échantillonnage PERF_RECORD_AUX .

sample_max_stack (depuis Linux 4.8)

Quand sample_type comprend PERF_SAMPLE_CALLCHAIN , ce champ indique le nombre de trames de pile Ă  rendre compte lors de la gĂ©nĂ©ration de la chaĂźne d’appels.

aux_sample_size (depuis Linux 5.5)

Quand l’attribut PERF_SAMPLE_AUX est dĂ©fini, spĂ©cification de la taille souhaitĂ©e aux donnĂ©es AUX. Notez qu’il peut recevoir des donnĂ©es plus petites que la taille indiquĂ©e.

sig_data (depuis Linux 5.13)

Cette donnĂ©e sera copiĂ©e vers le gestionnaire de signal de l’utilisateur (au moyen de si_perf dans siginfo_t ) pour disambiguĂŻser l’évĂ©nement qui a dĂ©clenchĂ© le signal.

Lecture des résultats

Une fois qu’un descripteur de fichier perf_event_open () a Ă©tĂ© ouvert, les valeurs des Ă©vĂ©nements peuvent ĂȘtre lues depuis le descripteur de fichier. Les valeurs prĂ©sentes sont indiquĂ©es par le champ read_format de la structure attr au moment de l’ouverture.

Si vous essayez de lire un tampon utilisĂ© pour la lecture qui n’est pas assez grand pour contenir les donnĂ©es, ENOSPC est renvoyĂ©.

Voici la disposition des données renvoyées par une lecture :

-

Si PERF_FORMAT_GROUP a Ă©tĂ© indiquĂ© pour permettre de lire tous les Ă©vĂ©nements d’un groupe en une fois :

struct read_format {
u64 nr; /* Le nombre d’évĂ©nements */
u64 time_enabled; /* si PERF_FORMAT_TOTAL_TIME_ENABLED */
u64 time_running; /* si PERF_FORMAT_TOTAL_TIME_RUNNING */
struct
u64 value; /* La valeur de l’évĂ©nement */
u64 id; /* si PERF_FORMAT_ID */
u64 lost; /* si PERF_FORMAT_LOST */
} values[nr];
};

-

Si PERF_FORMAT_GROUP n’a pas Ă©tĂ© indiqué :

struct read_format {
u64 value; /* La valeur de l’évĂ©nement */
u64 time_enabled; /* si PERF_FORMAT_TOTAL_TIME_ENABLED */
u64 time_running; /* si PERF_FORMAT_TOTAL_TIME_RUNNING */
u64 id; /* si PERF_FORMAT_ID */
u64 lost; /* si PERF_FORMAT_LOST */
};

Les valeurs lues sont les suivantes.

nr

Le nombre d’évĂ©nements dans le descripteur de fichier. Seulement disponible si PERF_FORMAT_GROUP a Ă©tĂ© indiquĂ©.

time_enabled
time_running

Temps total pendant lequel l’évĂ©nement a Ă©tĂ© activĂ© et exĂ©cutĂ©. Normalement ce sont les mĂȘmes. Si plus d’évĂ©nements sont dĂ©marrĂ©s que d’emplacements de compteur disponibles sur la PMU, alors il y a multiplexage et les Ă©vĂ©nements ne sont pas exĂ©cutĂ©s tout le temps. Dans ce cas, les valeurs time_enabled et time running peuvent ĂȘtre utilisĂ©es pour estimer une valeur d’ordre de grandeur du dĂ©compte.

value

Une valeur positive sur 64 bits contenant le résultat du compteur.

id

Une valeur unique globale pour cet événement en particulier, seulement si PERF_FORMAT_ID a été indiqué dans read_format .

lost

Le nombre des échantillons perdus de cet événement ; seulement si PERF_FORMAT_LOST a été indiqué dans read_format .

Disposition MMAP

En utilisant perf_event_open () en mode d’échantillonnage, les Ă©vĂ©nements asynchrones (comme un dĂ©passement de compteur ou un suivi mmap PROT_EXEC ) sont journalisĂ©s dans un tampon circulaire. Ce tampon circulaire est créé et accĂ©dĂ© Ă  l’aide de mmap (2).

La taille de mmap devrait ĂȘtre 1+2^n pages, oĂč la premiĂšre page est une page de mĂ©tadonnĂ©es ( struct perf_event_mmap_page ) qui contient plusieurs informations comme l’emplacement de la tĂȘte du tampon circulaire.

Avant Linux 2.6.39, un bogue oblige Ă  allouer un tampon circulaire mmap lors de l’échantillonnage mĂȘme s’il n’est pas prĂ©vu de l’utiliser.

La structure de la premiÚre page mmap de métadonnées est la suivante :

struct perf_event_mmap_page {
__u32 version; /* numéro de version de la structure */
__u32 compat_version; /* plus petite version compatible */
__u32 lock; /* seqlock pour synchronisation */
__u32 index; /* identifiant de compteur matériel */
__s64 offset; /* ajouter au compteur matériel */
__u64 time_enabled; /* temps d’évĂ©nement actif */
__u64 time_running; /* temps d’évĂ©nement sur processeur */
union {
__u64 capabilities;
struct {
__u64 cap_usr_time / cap_usr_rdpmc / cap_bit0 : 1,
cap_bit0_is_deprecated : 1,
cap_user_rdpmc : 1,
cap_user_time : 1,
cap_user_time_zero : 1,
};
};
__u16 pmc_width;
__u16 time_shift;
__u32 time_mult;
__u64 time_offset;
__u64 __reserved[120]; /* remplissage Ă  1 k */
__u64 data_head; /* tĂȘte de la section de donnĂ©es */
__u64 data_tail; /* queue écrite en espace utilisateur */
__u64 data_offset; /* oĂč commence le tampon */
__u64 data_size; /* taille du tampon de données */
__u64 aux_head;
__u64 aux_tail;
__u64 aux_offset;
__u64 aux_size;
}

La liste suivante décrit les champs de la structure perf_event_mmap_page plus précisément.
version

Numéro de version de cette structure.

compat_version

La plus petite version avec laquelle elle est compatible.

lock

Un seqlock (sequence lock) pour la synchronisation.

index

Un identifiant unique de compteur matériel.

décalage

Quand l’instruction rdpmc est utilisĂ©e pour lire, cette valeur de position doit ĂȘtre ajoutĂ©e Ă  celle renvoyĂ©e par rdpmc pour obtenir le dĂ©compte total actuel d’évĂ©nements.

time_enabled

Temps d’activitĂ© de l’évĂ©nement.

time_running

Temps d’exĂ©cution de l’évĂ©nement.

cap_usr_time / cap_usr_rdpmc / cap_bit0 (depuis Linux 3.4)

Un bogue existait dans la dĂ©finition de cap_usr_time et cap_usr_rdpmc de Linux 3.4 Ă  Linux 3.11. Les deux bits Ă©taient dĂ©finis pour pointer vers le mĂȘme endroit, il Ă©tait donc impossible de savoir si cap_usr_time ou cap_usr_rdpmc Ă©taient vraiment dĂ©finis.

Depuis Linux 3.12, ils ont été renommés en cap_bit0 et vous devriez plutÎt utiliser les nouveaux champs cap_user_time et cap_user_rdpmc à la place.

cap_bit0_is_deprecated (depuis Linux 3.12)

Si défini, ce bit indique que le noyau est capable de gérer les bits cap_user_time et cap_user_rdpmc différenciés correctement.

Si non, cela indique qu’il s’agit d’un ancien noyau oĂč cap_usr_time et cap_usr_rdpmc pointent vers le mĂȘme bit et donc que ces deux fonctionnalitĂ©s devraient ĂȘtre utilisĂ©es avec prudence.

cap_usr_rdpmc (depuis Linux 3.12)

Si le matĂ©riel permet la lecture en espace utilisateur des compteurs de performance sans appel systĂšme (c’est l’instruction « rdpmc » sur x86), alors le code suivant peut ĂȘtre utilisĂ© pour faire une lecture :

u32 seq, time_mult, time_shift, idx, width;
u64 count, enabled, running;
u64 cyc, time_offset;
do {
seq = pc->lock;
barrier();
enabled = pc->time_enabled;
running = pc->time_running;
if (pc->cap_usr_time && enabled != running) {
cyc = rdtsc();
time_offset = pc->time_offset;
time_mult = pc->time_mult;
time_shift = pc->time_shift;
}
idx = pc->index;
count = pc->offset;
if (pc->cap_usr_rdpmc && idx) {
width = pc->pmc_width;
count += rdpmc(idx - 1);
}
barrier();
} while (pc->lock != seq);

cap_user_time (depuis Linux 3.12)

Ce bit indique que le matĂ©riel a un compteur temporel sans arrĂȘt, constant (TSC sur x86).

cap_usr_time_zero (depuis Linux 3.12)

Indique la prĂ©sence de time_zero qui permet d’associer les valeurs d’horodatage Ă  l’horloge matĂ©rielle.

pmc_width

Si cap_usr_rdpmc , ce champ fournit la taille en bit de la valeur lue en utilisant l’instruction rdpmc ou Ă©quivalente. Cela permet d’étendre avec signe le rĂ©sultat comme ceci :

pmc <<= 64 - pmc_width;
pmc >>= 64 - pmc_width; // déplacement du signe à droite
count += pmc;

time_shift
time_mult
time_offset

Si cap_usr_time , ces champs peuvent ĂȘtre utilisĂ©s pour calculer la diffĂ©rence de temps depuis time_enabled (en nanoseconde) en utilisant rdtsc ou similaire.

u64 quot, rem;
u64 delta;
quot = cyc >> time_shift;
rem = cyc & (((u64)1 << time_shift) - 1);
delta = time_offset + quot * time_mult +
((rem * time_mult) >> time_shift);

OĂč time_offset , time_mult , time_shift et cyc sont lus dans la boucle seqcount dĂ©crite ci-dessus. Cette diffĂ©rence peut ĂȘtre ajoutĂ©e Ă  enabled et Ă©ventuellement running (si idx), pour amĂ©liorer l’échelle :

enabled += delta;
if (idx)
running += delta;
quot = count / running;
rem = count % running;
count = quot * enabled + (rem * enabled) / running;

time_zero (depuis Linux 3.12)

Si cap_usr_time_zero est dĂ©fini, alors l’horloge matĂ©rielle (le compteur temporel TSC sur x86) peut ĂȘtre calculĂ©e Ă  partir des valeurs time_zero , time_mult et time_shift :

time = timestamp - time_zero;
quot = time / time_mult;
rem = time % time_mult;
cyc = (quot << time_shift) + (rem << time_shift) / time_mult;

et vice versa :

quot = cyc >> time_shift;
rem = cyc & (((u64)1 << time_shift) - 1);
timestamp = time_zero + quot * time_mult +
((rem * time_mult) >> time_shift);

data_head

Cela pointe vers la tĂȘte de la section de donnĂ©es. La valeur augmente continuellement, elle n’est pas coupĂ©e. Vous devrez couper vous-mĂȘme la valeur Ă  la taille du tampon mmap avant d’accĂ©der aux Ă©chantillons.

Sur les plateformes compatibles SMP, aprùs la lecture de la valeur data_head , l’espace utilisateur devrait renvoyer un rmb().

data_tail

Quand l’association est PROT_WRITE , la valeur data_tail devrait ĂȘtre Ă©crite par l’espace utilisateur pour reflĂ©ter les derniĂšres donnĂ©es lues. Dans ce cas, le noyau n’écrasera pas les donnĂ©es non lues.

data_offset (depuis Linux 4.1)

Contient la position de l’emplacement du tampon mmap oĂč les donnĂ©es de l’échantillon de perf commencent.

data_size (depuis Linux 4.1)

Contient la taille de la zone de l’échantillon de perf dans le tampon mmap.

aux_head
aux_tail
aux_offset
aux_size (depuis Linux 4.1)

La zone AUX permet d’appliquer Ă  un mmap (2) un tampon d’échantillonnage distinct pour les flux de donnĂ©es Ă  forte bande passante (sĂ©parĂ©ment du tampon d’échantillonnage de perf principal). Un exemple de flux Ă  forte bande passante est la prise en charge du traçage d’une instruction telle qu’elle se fait dans les nouveaux processeurs Intel.

Pour dĂ©finir une zone AUX, il faut d’abord positionner aux_offset Ă  une position supĂ©rieure Ă  data_offset + data_size puis positionner aux_size Ă  la taille de tampon dĂ©sirĂ©e. La position et la taille dĂ©sirĂ©e doivent ĂȘtre alignĂ©es sur la page et la taille doit ĂȘtre une puissance de deux. Ces valeurs sont alors passĂ©es Ă  mmap pour projeter le tampon AUX. Les pages du tampon AUX sont comprises dans la limite de ressource RLIMIT_MEMLOCK (voir setrlimit (2)) et dans la gestion des droits perf_event_mlock_kb .

Par dĂ©faut, le tampon AUX sera tronquĂ© s’il ne rentre pas dans l’espace disponible du tampon circulaire. Si le tampon AUX est projetĂ© en tant que tampon en lecture seule, il agira dans le mode du tampon circulaire lĂ  oĂč les donnĂ©es seront remplacĂ©es par de nouvelles. En mode remplacement, il se pourrait qu’il ne soit pas possible de prĂ©sumer l’endroit oĂč commencent les donnĂ©es et il appartient au consommateur de dĂ©sactiver la mesure pendant la lecture pour Ă©viter les possibles collisions de donnĂ©es.

Les pointeurs de tampon circulaire aux_head et aux_tail ont le mĂȘme comportement et les mĂȘmes rĂšgles d’organisation que celles dĂ©crites prĂ©cĂ©demment pour data_head et data_tail .

Les 2ˆn pages suivantes du tampon circulaire ont la disposition dĂ©crite ci-dessous.

Si perf_event_attr.sample_id_all est dĂ©fini, alors tous les types d’évĂ©nements auront les champs sample_type sĂ©lectionnĂ©s relatifs Ă  l’emplacement et Ă  la date (identitĂ©) oĂč un Ă©vĂ©nement a eu lieu (TID, TIME, ID, CPU, STREAM_ID) conformĂ©ment Ă  la description de PERF_RECORD_SAMPLE ci-dessous, il sera stockĂ© juste aprĂšs le perf_event_header et les champs dĂ©jĂ  prĂ©sents pour les champs existants, c’est-Ă -dire Ă  la fin de la charge utile. De cette façon, un nouveau perf.data sera pris en charge par les outils de performances plus anciens, avec ces nouveaux champs facultatifs ignorĂ©s.

Les valeurs mmap commencent par un en-tĂȘte :

struct perf_event_header {
__u32 type;
__u16 misc;
__u16 size;
};

Les champs perf_event_header sont dĂ©crits plus prĂ©cisĂ©ment ci-dessous. Par commoditĂ© de lecture, les champs avec les descriptions les plus courtes sont d’abord prĂ©sentĂ©s.

size

Cela indique la taille de l’enregistrement.

misc

Le champ misc contient des renseignements supplĂ©mentaires sur l’échantillon.

Le mode de processeur peut ĂȘtre dĂ©terminĂ© Ă  partir de cette valeur en la masquant avec PERF_RECORD_MISC_CPUMODE_MASK et en recherchant un des suivants (remarquez que ce ne sont pas des masques de bits, un seul peut ĂȘtre dĂ©fini Ă  la fois).
PERF_RECORD_MISC_CPUMODE_UNKNOWN

Mode de processeur inconnu.

PERF_RECORD_MISC_KERNEL

L’échantillon a eu lieu dans le noyau.

PERF_RECORD_MISC_USER

L’échantillon a eu lieu dans le code utilisateur.

PERF_RECORD_MISC_HYPERVISOR

L’échantillon a eu lieu dans l’hyperviseur.

PERF_RECORD_MISC_GUEST_KERNEL (depuis Linux 2.6.35)

L’échantillon a eu lieu dans le noyau client.

PERF_RECORD_MISC_GUEST_USER (depuis Linux 2.6.35)

L’échantillon a eu lieu dans le code utilisateur client.

Comme les trois Ă©tats suivants sont gĂ©nĂ©rĂ©s par diffĂ©rents types d’enregistrement, ils constituent des alias du mĂȘme bit :
PERF_RECORD_MISC_MMAP_DATA
(depuis Linux 3.10)

C’est dĂ©fini quand l’association n’est pas exĂ©cutable ; sinon l’association est exĂ©cutable.

PERF_RECORD_MISC_COMM_EXEC (depuis Linux 3.16)

Il est positionnĂ© pour un enregistrement PERF_RECORD_COMM sur les noyaux plus rĂ©cents que Linux 3.16 si le changement de nom d’un processus est causĂ© par un appel systĂšme execve (2).

PERF_RECORD_MISC_SWITCH_OUT (depuis Linux 4.3)

Quand un enregistrement PERF_RECORD_SWITCH ou PERF_RECORD_SWITCH_CPU_WIDE est gĂ©nĂ©rĂ©, ce bit indique que le changement de contexte est distinct du processus actuel (et n’en fait pas partie).

De plus, les bits suivants peuvent ĂȘtre dĂ©finis :
PERF_RECORD_MISC_EXACT_IP

Cela indique que le contenu de PERF_SAMPLE_IP pointe vers la vĂ©ritable instruction qui a dĂ©clenchĂ© l’évĂ©nement. Consultez aussi perf_event_attr.precise_ip .

PERF_RECORD_MISC_SWITCH_OUT_PREEMPT (depuis Linux 4.17)

Quand un enregistrement PERF_RECORD_SWITCH ou PERF_RECORD_SWITCH_CPU_WIDE est généré, cela indique que le changement de contexte était une préemption.

PERF_RECORD_MISC_MMAP_BUILD_ID (depuis Linux 5.12)

Cela indique que le contenu de PERF_SAMPLE_MMAP2 renferme les donnĂ©es de build-ID plutĂŽt que les numĂ©ros majeur et mineur du pĂ©riphĂ©rique ainsi que le numĂ©ro d’inƓud.

PERF_RECORD_MISC_EXT_RESERVED (depuis Linux 2.6.35)

Cela indique que des données étendues sont disponibles (actuellement pas utilisées).

PERF_RECORD_MISC_PROC_MAP_PARSE_TIMEOUT

Ce bit n’est pas dĂ©fini par le noyau. Il est rĂ©servĂ© Ă  l’outil perf dans l’espace utilisateur pour indiquer que l’analyse de /proc/ pid /maps a trop durĂ© et a Ă©tĂ© arrĂȘtĂ©e, ainsi les enregistrements mmap peuvent ĂȘtre tronquĂ©s.

type

La valeur type est une des suivantes. Les valeurs dans l’enregistrement correspondant (qui suit l’en-tĂȘte) dĂ©pendent du type sĂ©lectionnĂ© comme c’est montrĂ©.

PERF_RECORD_MMAP

Les Ă©vĂ©nements MMAP enregistrent les associations PROT_EXEC pour pouvoir mettre en corrĂ©lation les pointeurs d’instruction en espace utilisateur et le code. Ils ont la structure suivante :

struct {
struct perf_event_header header;
u32 pid, tid;
u64 addr;
u64 len;
u64 pgoff;
char filename[];
};

pid

est l’identifiant de processus.

tid

est l’identifiant de thread.

addr

est l’adresse de la mĂ©moire allouĂ©e. len est la taille de la mĂ©moire allouĂ©e. pgoff est la position de la page de la mĂ©moire allouĂ©e. filename est une chaĂźne dĂ©crivant la base de la mĂ©moire allouĂ©e.

PERF_RECORD_LOST

Cet enregistrement indique quand des événements sont perdus.

struct {
struct perf_event_header header;
u64 id;
u64 lost;
struct sample_id sample_id;
};

id

est l’identifiant unique d’évĂ©nement pour les Ă©chantillons perdus.

lost

est le nombre d’évĂ©nements perdus.

PERF_RECORD_COMM

Cet enregistrement indique une modification du nom de processus.

struct {
struct perf_event_header header;
u32 pid;
u32 tid;
char comm[];
struct sample_id sample_id;
};

pid

est l’identifiant de processus.

tid

est l’identifiant de thread.

comm

est une chaĂźne contenant le nouveau nom du processus.

PERF_RECORD_EXIT

Cet enregistrement indique un événement de fin de processus.

struct {
struct perf_event_header header;
u32 pid, ppid;
u32 tid, ptid;
u64 time;
struct sample_id sample_id;
};

PERF_RECORD_THROTTLE
PERF_RECORD_UNTHROTTLE

Cet enregistrement indique un événement de variation de fréquence du processeur.

struct {
struct perf_event_header header;
u64 time;
u64 id;
u64 stream_id;
struct sample_id sample_id;
};

PERF_RECORD_FORK

Cet enregistrement indique un Ă©vĂ©nement de crĂ©ation d’enfant.

struct {
struct perf_event_header header;
u32 pid, ppid;
u32 tid, ptid;
u64 time;
struct sample_id sample_id;
};

PERF_RECORD_READ

Cet enregistrement indique un événement de lecture.

struct {
struct perf_event_header header;
u32 pid, tid;
struct read_format values;
struct sample_id sample_id;
};

PERF_RECORD_SAMPLE

Cet enregistrement indique un échantillon.

struct {
struct perf_event_header header;
u64 sample_id; /* if PERF_SAMPLE_IDENTIFIER */
u64 ip; /* if PERF_SAMPLE_IP */
u32 pid, tid; /* if PERF_SAMPLE_TID */
u64 time; /* if PERF_SAMPLE_TIME */
u64 addr; /* if PERF_SAMPLE_ADDR */
u64 id; /* if PERF_SAMPLE_ID */
u64 stream_id; /* if PERF_SAMPLE_STREAM_ID */
u32 cpu, res; /* if PERF_SAMPLE_CPU */
u64 period; /* if PERF_SAMPLE_PERIOD */
struct read_format v;
/* if PERF_SAMPLE_READ */
u64 nr; /* if PERF_SAMPLE_CALLCHAIN */
u64 ips[nr]; /* if PERF_SAMPLE_CALLCHAIN */
u32 size; /* if PERF_SAMPLE_RAW */
char data[size]; /* if PERF_SAMPLE_RAW */
u64 bnr; /* if PERF_SAMPLE_BRANCH_STACK */
struct perf_branch_entry lbr[bnr];
/* if PERF_SAMPLE_BRANCH_STACK */
u64 abi; /* if PERF_SAMPLE_REGS_USER */
u64 regs[weight(mask)];
/* if PERF_SAMPLE_REGS_USER */
u64 size; /* if PERF_SAMPLE_STACK_USER */
char data[size]; /* if PERF_SAMPLE_STACK_USER */
u64 dyn_size; /* if PERF_SAMPLE_STACK_USER &&
size != 0 */
union perf_sample_weight weight;
/* if PERF_SAMPLE_WEIGHT */
/* || PERF_SAMPLE_WEIGHT_STRUCT */
u64 data_src; /* if PERF_SAMPLE_DATA_SRC */
u64 transaction; /* if PERF_SAMPLE_TRANSACTION */
u64 abi; /* if PERF_SAMPLE_REGS_INTR */
u64 regs[weight(mask)];
/* if PERF_SAMPLE_REGS_INTR */
u64 phys_addr; /* if PERF_SAMPLE_PHYS_ADDR */
u64 cgroup; /* if PERF_SAMPLE_CGROUP */
u64 data_page_size;
/* if PERF_SAMPLE_DATA_PAGE_SIZE */
u64 code_page_size;
/* if PERF_SAMPLE_CODE_PAGE_SIZE */
u64 size; /* if PERF_SAMPLE_AUX */
char data[size]; /* if PERF_SAMPLE_AUX */
};

sample_id

Si PERF_SAMPLE_IDENTIFIER est activĂ©, un identifiant unique sur 64 bits est inclus. C’est une copie de la valeur id de PERF_SAMPLE_ID , mais incluse au dĂ©but de l’échantillon pour permettre aux analyseurs d’obtenir facilement la valeur.

ip

Si PERF_SAMPLE_IP est activĂ©, alors une valeur de pointeur d’instruction sur 64 bits est incluse.

pid

tid

Si PERF_SAMPLE_TID est activé, alors un identifiant de processus sur 32 bits et un identifiant de thread sur 32 bits sont inclus.

time

Si PERF_SAMPLE_TIME est activĂ©, alors un horodatage sur 64 bits est inclus. C’est obtenu Ă  l’aide de local_clock() qui est un horodatage matĂ©riel si disponible et la valeur jiffy sinon.

addr

Si PERF_SAMPLE_ADDR est activĂ©, alors une adresse sur 64 bits est incluse. C’est gĂ©nĂ©ralement l’adresse d’un point de trace, point d’arrĂȘt ou Ă©vĂ©nement logiciel ; sinon la valeur est 0 .

id

Si PERF_SAMPLE_ID est activĂ©, un identifiant unique sur 64 bits est inclus. Si l’évĂ©nement est membre d’un groupe d’évĂ©nements, l’identifiant du leader de groupe est renvoyĂ©. Cet identifiant est le mĂȘme que celui renvoyĂ© par PERF_FORMAT_ID .

stream_id

Si PERF_SAMPLE_STREAM_ID est activĂ©, un identifiant unique sur 64 bits est inclus. Contrairement Ă  PERF_SAMPLE_ID , le vĂ©ritable identifiant est renvoyĂ©, pas celui du leader de groupe. Cet identifiant est le mĂȘme que celui renvoyĂ© par PERF_FORMAT_ID .

cpu

res

Si PERF_SAMPLE_CPU est activĂ©, c’est une valeur sur 32 bits indiquant le processeur qui a Ă©tĂ© utilisĂ©, en supplĂ©ment d’une valeur rĂ©servĂ©e (non utilisĂ©e) sur 32 bits.

period

Si PERF_SAMPLE_PERIOD est activĂ©, une valeur sur 64 bits indiquant la pĂ©riode d’échantillonnage actuelle est Ă©crite.

v

Si PERF_SAMPLE_READ est activĂ©, une structure de type read_format est incluse avec des valeurs pour tous les Ă©vĂ©nements du groupe d’évĂ©nements. Les valeurs incluses dĂ©pendent de la valeur read_format utilisĂ©e au moment de perf_event_open ().

nr

ips[nr]

Si PERF_SAMPLE_CALLCHAIN est activĂ©, alors un nombre sur 64 bits est inclus, indiquant le nombre de pointeurs d’instruction sur 64 bits qui suivent. C’est l’appel en chaĂźne actuel.

size
data[size
]

Si PERF_SAMPLE_RAW est activé, alors une valeur sur 32 bits indiquant la taille est incluse, suivie par un tableau de valeurs sur 8 bits de taille size . Les valeurs sont remplies avec des 0 pour avoir un alignement à 64 bits.

Ces donnĂ©es brutes d’enregistrement sont opaques du point de vue de l’ABI. L’ABI ne fait pas de promesses sur la stabilitĂ© de son contenu qui pourrait varier en fonction de l’évĂ©nement, du matĂ©riel ou de la version du noyau.

bnr

lbr[bnr]

Si PERF_SAMPLE_BRANCH_STACK est activĂ©, alors une valeur de 64 bits indiquant le nombre d’enregistrements est incluse, suivie des structures bnr perf_branch_entry qui chacune contient les champs suivants.

from

Cela indique l’instruction source (qui pourrait ne pas ĂȘtre un branchement).

to

La cible de branchement.

mispred

La cible de branchement a été mal prédite.

predicted

La cible de branchement a été prédite.

in_tx (depuis Linux 3.11)

Le branchement était dans une transaction de mémoire transactionnelle.

abort (depuis Linux 3.11)

Le branchement était dans une transaction abandonnée de mémoire transactionnelle.

cycles (depuis Linux 4.3)

Cela rend compte du nombre de cycles qui se sont déroulés depuis la derniÚre mise à jour de la pile de branchement.

Les entrĂ©es sont prĂ©sentĂ©es dans l’ordre chronologique, de telle sorte que la premiĂšre entrĂ©e a le branchement le plus rĂ©cent.

La prise en charge de mispred , predicted et cycles est facultative. En absence de prise en charge, les deux valeurs seront 0 .

Le type de branchements enregistrés est indiqué par le champ branch_sample_type .

abi

regs[weight(mask)]

Si PERF_SAMPLE_REGS_USER est activé, alors les registres processeur utilisateur sont enregistrés.

Le champ abi est parmi PERF_SAMPLE_REGS_ABI_NONE , PERF_SAMPLE_REGS_ABI_32 ou PERF_SAMPLE_REGS_ABI_64 .

Le champ regs est un tableau de registres processeur qui ont été indiqués par le champ attr sample_regs_user . Le nombre de valeurs est le nombre de bits définis dans le masque binaire sample_regs_user .

size
data[size
]
dyn_size

Si PERF_SAMPLE_STACK_USER est activĂ©, la pile utilisateur est enregistrĂ©e. Cela peut ĂȘtre utilisĂ© pour gĂ©nĂ©rer les backtraces de la pile. size est la taille demandĂ©e par l’utilisateur dans sample_stack_user ou autrement la taille maximale d’enregistrement. data contient les donnĂ©es de pile (un contenu brut de la mĂ©moire indiquĂ©e par le pointeur de pile au moment de l’échantillonnage). dyn_size est la quantitĂ© de donnĂ©es vraiment renvoyĂ©e (peut ĂȘtre infĂ©rieure Ă  size ). Remarquez que dyn_size est omis si size vaut 0 .

weight

Si PERF_SAMPLE_WEIGHT ou PERF_SAMPLE_WEIGHT_STRUCT sont activĂ©s, une valeur de 64 bits fournie par le matĂ©riel est enregistrĂ©e pour indiquer le coĂ»t de l’évĂ©nement. Cela permet aux Ă©vĂ©nements coĂ»teux de ressortir plus clairement dans les profils.

data_src

Si PERF_SAMPLE_DATA_SRC est activé, alors une valeur de 64 bits est enregistrée, constituée des champs suivants.
mem_op

Type de code opération (opcode), une combinaison bit à bit de :

PERF_MEM_OP_NA

Non disponible

PERF_MEM_OP_LOAD

Instruction de chargement

PERF_MEM_OP_STORE

Instruction de stockage

PERF_MEM_OP_PFETCH

Prélecture

PERF_MEM_OP_EXEC

Code exécutable

mem_lvl

Niveau de hiérarchie de mémoire atteint ou raté, une combinaison bit à bit de ce qui suit, envoyés à gauche par PERF_MEM_LVL_SHIFT :

PERF_MEM_LVL_NA

Non disponible

PERF_MEM_LVL_HIT

Atteint

PERF_MEM_LVL_MISS

Raté

PERF_MEM_LVL_L1

Cache de niveau 1

PERF_MEM_LVL_LFB

Tampon de capacité

PERF_MEM_LVL_L2

Cache de niveau 2

PERF_MEM_LVL_L3

Cache de niveau 3

PERF_MEM_LVL_LOC_RAM

DRAM local

PERF_MEM_LVL_REM_RAM1

DRAM distant 1 saut

PERF_MEM_LVL_REM_RAM2

DRAM distant 2 sauts

PERF_MEM_LVL_REM_CCE1

Cache distant 1 saut

PERF_MEM_LVL_REM_CCE2

Cache distant 2 sauts

PERF_MEM_LVL_IO

MĂ©moire d’entrĂ©e et sortie.

PERF_MEM_LVL_UNC

Mémoire sans cache

mem_snoop

Mode espionnage, une combinaison bit-à-bit de ce qui suit, décalé vers la gauche par PERF_MEM_SNOOP_SHIFT :

PERF_MEM_SNOOP_NA

Non disponible

PERF_MEM_SNOOP_NONE

Pas d’espionnage

PERF_MEM_SNOOP_HIT

Espionnage atteint

PERF_MEM_SNOOP_MISS

Espionnage raté

PERF_MEM_SNOOP_HITM

Espionnage atteint modifié

mem_lock

Instruction de verrouillage, une combinaison bit à bit de ce qui suit, renvoyée vers la gauche par PERF_MEM_LOCK_SHIFT :

PERF_MEM_LOCK_NA

Non disponible

PERF_MEM_LOCK_LOCKED

Transaction verrouillée

mem_dtlb

AccÚs TLB atteint ou raté, une combinaison bit à bit de ce qui suit, renvoyée vers la gauche par PERF_MEM_TLB_SHIFT :

PERF_MEM_TLB_NA

Non disponible

PERF_MEM_TLB_HIT

Atteint

PERF_MEM_TLB_MISS

Raté

PERF_MEM_TLB_L1

TLB de niveau 1

PERF_MEM_TLB_L2

TLB de niveau 2

PERF_MEM_TLB_WK

Parcours matériel

PERF_MEM_TLB_OS

Gestionnaire d’erreur du SE

transaction

Si l’attribut PERF_SAMPLE_TRANSACTION est dĂ©fini, alors un champ de 64 bits est enregistrĂ© pour dĂ©crire les sources de tous les abandons de mĂ©moire transactionnelle.

Le champ est une combinaison bit à bit des valeurs suivantes :
PERF_TXN_ELISION

Abandon d’une transaction de type Ă©lision (spĂ©cifique aux processeurs Intel).

PERF_TXN_TRANSACTION

Abandon d’une transaction gĂ©nĂ©rique.

PERF_TXN_SYNC

Abandon synchrone (relatif Ă  l’instruction signalĂ©e).

PERF_TXN_ASYNC

Abandon asynchrone (non relatif Ă  l’instruction signalĂ©e).

PERF_TXN_RETRY

Abandon réessayable (réessayer la transaction pourrait réussir).

PERF_TXN_CONFLICT

Abandon Ă  cause de conflits de mĂ©moire avec d’autres threads.

PERF_TXN_CAPACITY_WRITE

Abandon Ă  cause de dĂ©passement de la capacitĂ© d’écriture.

PERF_TXN_CAPACITY_READ

Abandon à cause de dépassement de la capacité de lecture.

De plus, un code d’abandon spĂ©cifique Ă  l’utilisateur peut ĂȘtre obtenu Ă  partir des premiers 32 bits du champ en dĂ©plaçant vers la droite avec PERF_TXN_ABORT_SHIFT et en masquant avec PERF_TXN_ABORT_MASK .

abi

regs[weight(mask)]

Si PERF_SAMPLE_REGS_INTR est activé, alors les registres processeur utilisateur sont enregistrés.

Le champ abi est parmi PERF_SAMPLE_REGS_ABI_NONE , PERF_SAMPLE_REGS_ABI_32 ou PERF_SAMPLE_REGS_ABI_64 .

Le champ regs est un tableau des registres processeur qui ont été indiqués par le champ attr sample_regs_intr . Le nombre de valeurs est le nombre de bits définis dans le masque binaire sample_regs_intr .

phys_addr

Si l’attribut PERF_SAMPLE_PHYS_ADDR est positionnĂ©, l’adresse physique en 64 bits est enregistrĂ©e.

cgroup

Si l’attribut PERF_SAMPLE_CGROUP est positionnĂ©, l’identifiant de cgroup 64 bits (pour le sous-systĂšme perf_event) est enregistrĂ©. Pour rĂ©cupĂ©rer le chemin du cgroup, l’identifiant doit correspondre Ă  un de ceux se trouvant dans PERF_RECORD_CGROUP .

data_page_size

Si l’attribut PERF_SAMPLE_DATA_PAGE_SIZE est positionnĂ©, la valeur en 64 bits de la taille de la page de l’adresse de data est enregistrĂ©e.

code_page_size

Si l’attribut PERF_SAMPLE_CODE_PAGE_SIZE est positionnĂ©, la valeur en 64 bits de la taille de la page de l’adresse ip est enregistrĂ©e.

size
data
[ size ]

Si PERF_SAMPLE_AUX est activé, alors un instantané du tampon aux est enregistré.

PERF_RECORD_MMAP2

Cet enregistrement inclut des informations Ă©tendues sur les appels mmap (2) renvoyant des projections exĂ©cutables. Le format est identique Ă  celui de l’enregistrement PERF_RECORD_MMAP mais il comprend des valeurs supplĂ©mentaires qui permettent uniquement d’identifier des projections partagĂ©es. Selon le bit PERF_RECORD_MISC_MMAP_BUILD_ID dans l’en-tĂȘte, les valeurs supplĂ©mentaires ont des prĂ©sentations et des significations diffĂ©rentes.

struct {
struct perf_event_header header;
u32 pid;
u32 tid;
u64 addr;
u64 len;
u64 pgoff;
union {
struct {
u32 maj;
u32 min;
u64 ino;
u64 ino_generation;
};
struct { /* if PERF_RECORD_MISC_MMAP_BUILD_ID */
u8 build_id_size;
u8 __reserved_1;
u16 __reserved_2;
u8 build_id[20];
};
};
u32 prot;
u32 flags;
char filename[];
struct sample_id sample_id;
};

pid

est l’identifiant de processus.

tid

est l’identifiant de thread.

addr

est l’adresse de la mĂ©moire allouĂ©e.

len

est la taille de la mémoire allouée.

pgoff

est la position de la page de la mémoire allouée.

maj

est l’identifiant majeur du pĂ©riphĂ©rique sous-jacent.

min

est l’identifiant mineur du pĂ©riphĂ©rique sous-jacent.

ino

est le numĂ©ro d’inƓud.

ino_generation

est la gĂ©nĂ©ration d’inƓud.

build_id_size

est la taille rĂ©elle du champ build_id (jusqu’à 20).

build_id

ce sont des données brutes pour identifier un binaire.

prot

sont les informations de protection.

flags

sont les informations d’attributs.

filename

est une chaßne décrivant la base de la mémoire allouée.

PERF_RECORD_AUX (depuis Linux 4.1)

Cet enregistrement rend compte des nouvelles données disponibles dans la zone séparée du tampon AUX.

struct {
struct perf_event_header header;
u64 aux_offset;
u64 aux_size;
u64 flags;
struct sample_id sample_id;
};

aux_offset

position dans la zone mmap AUX oĂč commencent les nouvelles donnĂ©es.

aux_size

taille des données disponibles.

flags

décrit la mise à jour AUX.

PERF_AUX_FLAG_TRUNCATED

s’il est positionnĂ©, les donnĂ©es renvoyĂ©es ont Ă©tĂ© tronquĂ©es pour rentrer dans la taille du tampon disponible.

PERF_AUX_FLAG_OVERWRITE

s’il est positionnĂ©, les donnĂ©es renvoyĂ©es ont Ă©crasĂ© des donnĂ©es prĂ©cĂ©dentes.

PERF_RECORD_ITRACE_START (depuis Linux 4.1)

Cet enregistrement indique le processus qui a initiĂ© un Ă©vĂ©nement de traçage d’instruction, permettant aux outils de corrĂ©ler correctement les adresses d’instruction du tampon AUX avec le bon exĂ©cutable.

struct {
struct perf_event_header header;
u32 pid;
u32 tid;
};

pid

identifiant de processus du thread ayant commencĂ© un traçage d’instruction.

tid

identifiant du thread ayant commencĂ© le traçage d’instruction.

PERF_RECORD_LOST_SAMPLES (depuis Linux 4.2)

Lors de l’utilisation de l’échantillonnage matĂ©riel (comme les PEBS d’Intel), cet enregistrement indique le nombre d’échantillons qui peuvent avoir Ă©tĂ© perdus.

struct {
struct perf_event_header header;
u64 lost;
struct sample_id sample_id;
};

lost

est le nombre d’échantillons potentiellement perdus.

PERF_RECORD_SWITCH (depuis Linux 4.3)

Cet enregistrement indique qu’un changement de contexte a eu lieu. Le bit PERF_RECORD_MISC_SWITCH_OUT du champ misc indique si ce changement s’est fait dans ou hors du processus.

struct {
struct perf_event_header header;
struct sample_id sample_id;
};

PERF_RECORD_SWITCH_CPU_WIDE (depuis Linux 4.3)

Comme avec PERF_RECORD_SWITCH , cet enregistrement indique qu’un changement de contexte a eu lieu mais il n’arrive que lors de l’échantillonnage en mode processeur complet et il fournit des informations supplĂ©mentaires sur le processus faisant l’objet du changement. Le bit PERF_RECORD_MISC_SWITCH_OUT du champ misc indique si le changement a eu lieu dans ou hors du processus actuel.

struct {
struct perf_event_header header;
u32 next_prev_pid;
u32 next_prev_tid;
struct sample_id sample_id;
};

next_prev_pid

L’identifiant du processus prĂ©cĂ©dent ou suivant (selon le sens du changement) sur le processeur.

next_prev_tid

L’identifiant du thread prĂ©cĂ©dent ou suivant (selon le sens du changement) sur le processeur.

PERF_RECORD_NAMESPACES (depuis Linux 4.11)

Cet enregistrement comprend diverses informations sur l’espace de noms d’un processus.

struct {
struct perf_event_header header;
u32 pid;
u32 tid;
u64 nr_namespaces;
struct { u64 dev, inode } [nr_namespaces];
struct sample_id sample_id;
};

pid

est l’identifiant de processus.

tid

est l’identifiant de thread.

nr_namespace

est le nombre d’espaces de noms de cet enregistrement.

Chaque espace de noms a des champs dev et inode et il est enregistré dans une position fixe comme celle ci-dessous :
NET_NS_INDEX
= 0

espace de noms réseau

UTS_NS_INDEX = 1

espace de noms UTS

IPC_NS_INDEX = 2

espace de noms IPC

PID_NS_INDEX = 3

espace de noms PID

USER_NS_INDEX = 4

espace de noms utilisateur

MNT_NS_INDEX = 5

Espace de noms de montage

CGROUP_NS_INDEX = 6

espace de noms de groupe de contrĂŽle

PERF_RECORD_KSYMBOL (depuis Linux 5.0)

Cet enregistrement indique un Ă©vĂ©nement d’enregistrement/dĂ©senregistrement des symboles du noyau.

struct {
struct perf_event_header header;
u64 addr;
u32 len;
u16 ksym_type;
u16 flags;
char name[];
struct sample_id sample_id;
};

addr

est l’adresse du symbole du noyau.

len

est la taille du symbole du noyau.

ksym_type

est le type de symbole du noyau. Actuellement, les types suivants sont disponibles :
PERF_RECORD_KSYMBOL_TYPE_BPF

Le symbole du noyau est une fonction BPF.

flags

Si PERF_RECORD_KSYMBOL_FLAGS_UNREGISTER est positionnĂ©, cet Ă©vĂ©nement se produit lors du dĂ©senregistrement d’un symbole du noyau.

PERF_RECORD_BPF_EVENT (depuis Linux 5.0)

Cet enregistrement indique si un programme BPF est chargé ou déchargé.

struct {
struct perf_event_header header;
u16 type;
u16 flags;
u32 id;
u8 tag[BPF_TAG_SIZE];
struct sample_id sample_id;
};

type

est une des valeurs suivantes :

PERF_BPF_EVENT_PROG_LOAD

Un programme BPF est chargé.

PERF_BPF_EVENT_PROG_UNLOAD

Un programme BPF est déchargé

id

est l’identifiant du programme BPF.

tag

est l’étiquette du programme BPF. Actuellement, BPF_TAG_SIZE est dĂ©fini Ă  8 .

PERF_RECORD_CGROUP (depuis Linux 5.7)

Cet enregistrement indique si un cgroup est créé et activé.

struct {
struct perf_event_header header;
u64 id;
char path[];
struct sample_id sample_id;
};

id

est l’identifiant du cgroup. Il peut aussi ĂȘtre rĂ©cupĂ©rĂ© Ă  l’aide de name_to_handle_at (2) sur le chemin du cgroup (en tant que gestion de fichier).

path

est le chemin du cgroup depuis la racine.

PERF_RECORD_TEXT_POKE (depuis Linux 5.8)

Cet enregistrement indique une modification dans le texte du noyau. Cela comprend les ajouts et les suppressions de texte et la taille correspondante est de zéro dans ce cas.

struct {
struct perf_event_header header;
u64 addr;
u16 old_len;
u16 new_len;
u8 bytes[];
struct sample_id sample_id;
};

addr

est l’adresse de la modification.

old_len

est l’ancienne taille.

new_len

est la nouvelle taille.

bytes

contient les anciens octets immédiatement suivis des nouveaux.

Gestion du dépassement

Des Ă©vĂ©nements peuvent ĂȘtre positionnĂ©s pour signaler quand on dĂ©passe une limite, indiquant un dĂ©passement. Les conditions d’un dĂ©passement peuvent ĂȘtre rĂ©cupĂ©rĂ©es avec poll (2), select (2) ou epoll (7). Alternativement, les Ă©vĂšnements de dĂ©passement peuvent ĂȘtre capturĂ©s Ă  l’aide d’un gestionnaire de signal en activant les signaux d’E/S sur le descripteur de fichier ; voir le point sur les opĂ©rations F_SETOWN et F_SETSIG dans fcntl (2).

Les dĂ©bordements ne sont gĂ©nĂ©rĂ©s que par les Ă©vĂ©nements d’échantillonnage ( sample_period doit avoir une valeur non nulle).

Deux façons permettent de générer des notifications de débordement.

La premiĂšre est de paramĂ©trer une valeur wakeup_events ou wakeup_watermark qui gĂ©nĂ©rera un signal si un certain nombre d’échantillons ou d’octets ont Ă©tĂ© Ă©crits dans le tampon circulaire mmap. Dans ce cas, un signal de type POLL_IN est envoyĂ©.

L’autre façon est d’utiliser l’ioctl PERF_EVENT_IOC_REFRESH . Cet ioctl ajoute Ă  un compteur qui dĂ©crĂ©mente Ă  chaque fois que l’évĂ©nement dĂ©passe. Quand il est non nul, un signal POLL_IN est envoyĂ© en cas de dĂ©passement, mais une fois que la valeur a atteint 0 , un signal de type POLL_HUP est envoyĂ© et l’évĂ©nement sous-jacent est dĂ©sactivĂ©.

Le rafraĂźchissement d’un leader de groupe d’évĂ©nements rafraĂźchit toute la fratrie, et un rafraĂźchissement avec un paramĂštre de 0 active un rafraĂźchissement infini. Ces comportements ne sont pas gĂ©rĂ©s et ne devraient pas ĂȘtre utilisĂ©s.

À partir de Linux 3.18, POLL_HUP est initiĂ© si l’évĂ©nement Ă  surveiller est rattachĂ© Ă  un processus diffĂ©rent et que celui-ci se termine.

Instruction rdpmc

À partir de Linux 3.4 sur x86, l’instruction rdpmc permet d’obtenir des lectures Ă  faible latence sans avoir Ă  entrer dans le noyau. Remarquez que l’utilisation de rdpmc n’est pas nĂ©cessairement plus rapide que d’autres mĂ©thodes pour lire des valeurs d’évĂ©nement.

Cette prise en charge peut ĂȘtre dĂ©tectĂ©e avec le champ cap_usr_rdpmc dans la page mmap ; de la documentation pour calculer les valeurs d’évĂ©nement est disponible dans cette section.

À l’origine, quand la prise en charge de rdpmc a Ă©tĂ© activĂ©e, tout processus (pas seulement ceux ayant un Ă©vĂ©nement perf actif) pouvait utiliser l’instruction rdpmc pour accĂ©der aux compteurs. À partir de Linux 4.0, la prise en charge de rdpmc n’est autorisĂ©e que si un Ă©vĂ©nement est actuellement activĂ© dans le contexte d’un processus. Pour restaurer l’ancien comportement, inscrivez la valeur 2 dans /sys/devices/cpu/rdpmc .

Appels ioctl perf_event

Plusieurs ioctls agissent sur les descripteurs de fichier de perf_event_open ().
PERF_EVENT_IOC_ENABLE

Cela active l’évĂ©nement individuel ou le groupe d’évĂ©nements indiquĂ© par l’argument de descripteur de fichier.

Si le bit PERF_IOC_FLAG_GROUP est dĂ©fini dans l’argument ioctl, alors tous les Ă©vĂ©nements d’un groupe sont activĂ©s, mĂȘme si l’évĂ©nement indiquĂ© n’est pas le leader de groupe (mais consultez la section BOGUES).

PERF_EVENT_IOC_DISABLE

Cela dĂ©sactive le compteur individuel ou le groupe d’évĂ©nements indiquĂ© par l’argument de descripteur de fichier.

L’activation ou la dĂ©sactivation du leader d’un groupe active ou dĂ©sactive la totalitĂ© du groupe. Autrement dit pendant que le leader de groupe est dĂ©sactivĂ©, aucun des compteurs du groupe ne compte. L’activation ou la dĂ©sactivation d’un membre du groupe qui n’est pas le leader arrĂȘte ce son compteur, mais n’affecte aucun des autres compteurs.

Si le bit PERF_IOC_FLAG_GROUP est dĂ©fini dans l’argument ioctl, alors tous les Ă©vĂ©nements d’un groupe sont dĂ©sactivĂ©s, mĂȘme si l’évĂ©nement indiquĂ© n’est pas le leader de groupe (mais consultez la section BOGUES).

PERF_EVENT_IOC_REFRESH

Les compteurs de dĂ©passements non hĂ©ritĂ©s peuvent utiliser cela pour activer un compteur pour un nombre de dĂ©passements indiquĂ© par l’argument, aprĂšs lequel il est dĂ©sactivĂ©. Les appels suivants de cet ioctl ajoutent la valeur de l’argument au dĂ©compte actuel. Un signal avec POLL_IN dĂ©fini est envoyĂ© Ă  chaque dĂ©passement jusqu’à ce que ce compte atteigne 0 ; quand cela arrive, un signal avec POLL_HUP dĂ©fini est envoyĂ© et l’évĂ©nement est dĂ©sactivĂ©. L’utilisation de 0 comme argument est considĂ©rĂ© comme un comportement indĂ©fini.

PERF_EVENT_IOC_RESET

RedĂ©finir le compte d’évĂ©nements indiquĂ© par l’argument Ă  zĂ©ro. Cela ne rĂ©initialise que les dĂ©comptes ; rĂ©initialiser les valeurs de multiplexage time_enabled et time_running est impossible.

Si le bit PERF_IOC_FLAG_GROUP est dĂ©fini dans l’argument ioctl, alors tous les Ă©vĂ©nements d’un groupe sont rĂ©initialisĂ©s, mĂȘme si l’évĂ©nement indiquĂ© n’est pas le leader de groupe (mais consultez la section BOGUES).

PERF_EVENT_IOC_PERIOD

Cela met Ă  jour la pĂ©riode de dĂ©passement pour l’évĂ©nement.

Depuis Linux 3.7 (sur ARM) et Linux 3.14 (toutes les autres architectures), la nouvelle pĂ©riode est effective immĂ©diatement. Sur les noyaux prĂ©cĂ©dents, la nouvelle pĂ©riode n’était effective qu’aprĂšs le dĂ©passement suivant.

L’argument est un pointeur vers une valeur sur 64 bits contenant la nouvelle pĂ©riode voulue.

Avant Linux 2.6.36, cet ioctl Ă©chouait toujours Ă  cause d’un bogue dans le noyau.

PERF_EVENT_IOC_SET_OUTPUT

Cela indique au noyau de signaler les notifications d’évĂ©nement dans le descripteur de fichier indiquĂ© plutĂŽt que dans celui par dĂ©faut. Les descripteurs de fichier doivent tous ĂȘtre sur le mĂȘme processeur.

L’argument indique le descripteur de fichier dĂ©sirĂ© ou -1 si la sortie devrait ĂȘtre ignorĂ©e.

PERF_EVENT_IOC_SET_FILTER (depuis Linux 2.6.33)

Cela ajoute un filtre ftrace à cet événement.

L’argument est un pointeur vers le filtre ftrace voulu.

PERF_EVENT_IOC_ID (depuis Linux 3.12)

Cela renvoie la valeur d’identifiant de l’évĂ©nement pour le descripteur de fichier d’évĂ©nement donnĂ©.

L’argument est un pointeur vers un entier non signĂ© de 64 bits pour garder le rĂ©sultat.

PERF_EVENT_IOC_SET_BPF (depuis Linux 4.1)

Cela permet de rattacher un programme Berkeley Packet Filter (BPF) Ă  un Ă©vĂ©nement de traçage d’un kprobe existant. Vous avez besoin des privilĂšges CAP_PERFMON (depuis Linux 5.8) ou CAP_SYS_ADMIN pour utiliser cet ioctl.

Le paramÚtre est un descripteur de fichier de programme BPF créé par un appel systÚme bpf (2) précédent.

PERF_EVENT_IOC_PAUSE_OUTPUT (depuis Linux 4.7)

Cela permet de mettre en pause et de relancer le tampon circulaire d’un Ă©vĂ©nement. Un tampon mis en pause n’empĂȘche pas la gĂ©nĂ©ration d’échantillons mais il les dĂ©sactive. Les Ă©chantillons dĂ©sactivĂ©s sont considĂ©rĂ©s comme perdus et provoquent la gĂ©nĂ©ration d’un PERF_RECORD_LOST si possible. Un signal de dĂ©passement peut toujours ĂȘtre rĂ©cupĂ©rĂ© par l’échantillon dĂ©sactivĂ© bien que le tampon circulaire reste vide.

Le paramĂštre est un entier 32 bits non signĂ©. Une valeur autre que zĂ©ro met en pause le tampon circulaire alors qu’une valeur de zĂ©ro rĂ©active le tampon circulaire.

PERF_EVENT_MODIFY_ATTRIBUTES (depuis Linux 4.17)

Cela permet de modifier un Ă©vĂ©nement existant sans le gaspillage de fermeture et rĂ©ouverture d’un nouvel Ă©vĂ©nement. Actuellement, cela n’est pris en charge que pour les Ă©vĂ©nements de points d’arrĂȘt.

L’argument est un pointeur vers une structure perf_event_attr contenant les paramĂštres de l’évĂ©nement mis Ă  jour.

PERF_EVENT_IOC_QUERY_BPF (depuis Linux 4.16)

Cela permet de chercher les programmes Berkeley Packet Filter (BPF) rattachĂ©s Ă  un point de traçage kprobe existant. Vous ne pouvez rattacher qu’un programme BPF par Ă©vĂ©nement mais vous pouvez avoir plusieurs Ă©vĂ©nements rattachĂ©s Ă  un point de traçage. Rechercher cette valeur sur un Ă©vĂ©nement de point de traçage renvoie l’identifiant de tous les programmes BPF dans tous les Ă©vĂ©nements rattachĂ©s au point de traçage. Il vous faut les privilĂšges CAP_PERFMON (depuis Linux 5.8) ou CAP_SYS_ADMIN pour utiliser cet ioctl.

L’argument est un pointeur vers une structure

struct perf_event_query_bpf {
__u32 ids_len;
__u32 prog_cnt;
__u32 ids[0];
};

Le champ ids_len indique le nombre d’identifiants pouvant entrer dans le tableau ids fourni. La valeur prog_cnt est remplie par le noyau avec le nombre de programmes BPF rattachĂ©s. Le tableau ids est rempli par l’identifiant de chaque programme BPF rattachĂ©. S’il y a plus de programmes que de place dans le tableau, le noyau renverra ENOSPC et ids_len indiquera le nombre d’identifiants de programme copiĂ©s avec succĂšs.

Utilisation de prctl(2)

Un processus peut activer ou dĂ©sactiver tous les groupes d’évĂ©nements actuellement ouverts en utilisant les opĂ©rations PR_TASK_PERF_EVENTS_ENABLE et PR_TASK_PERF_EVENTS_DISABLE de prctl (2). Cela ne s’applique qu’aux Ă©vĂ©nements créés localement par le processus appelant. Cela ne s’applique pas aux Ă©vĂ©nements créés par d’autres processus rattachĂ©s au processus appelant ou aux Ă©vĂ©nements d’un processus parent. Cela n’active et dĂ©sactive que les leaders de groupe, aucun autre des membres des groupes.

Fichiers de configuration relatifs Ă  perf_event

Fichiers de /proc/sys/kernel/

/proc/sys/kernel/perf_event_paranoid

Le fichier perf_event_paranoid peut ĂȘtre dĂ©fini pour restreindre l’accĂšs aux compteurs de performance :

2

ne permettre que les mesures en espace utilisateur (par défaut depuis Linux 4.6).

1

permettre à la fois les mesures noyau et utilisateur (par défaut avant Linux 4.6).

0

permettre l’accĂšs aux donnĂ©es spĂ©cifiques au processeur sauf les Ă©chantillons de point de trace bruts ;

-1

pas de restriction.

L’existence du fichier perf_event_paranoid est la mĂ©thode officielle pour dĂ©terminer si un noyau gĂšre perf_event_open ().

/proc/sys/kernel/perf_event_max_sample_rate

Cela dĂ©finit le taux d’échantillonnage maximal. Un rĂ©glage trop haut peut permettre aux utilisateurs d’échantillonner Ă  un taux ayant un impact sur les performances de la machine et Ă©ventuellement planter la machine. La valeur par dĂ©faut est 100 000 (Ă©chantillons par seconde).

/proc/sys/kernel/perf_event_max_stack

Ce fichier dĂ©finit la profondeur maximale des entrĂ©es de trame de pile signalĂ©es lors de la gĂ©nĂ©ration d’une trace.

/proc/sys/kernel/perf_event_mlock_kb

Le nombre maximal de pages qu’un utilisateur sans droit peut verrouiller avec mlock (2). La valeur par dĂ©faut est 516 (ko).

Fichiers de /sys/bus/event_source/devices/

Depuis Linux 2.6.34, le noyau permet d’avoir plusieurs PMU disponibles pour la surveillance. Les informations sur la façon de programmer ces PMU sont disponibles dans /sys/bus/event_source/devices/ . Tous les sous-rĂ©pertoires correspondent Ă  une PMU diffĂ©rente.
/sys/bus/event_source/devices/*/type
(depuis Linux 2.6.38)

Cela contient un entier qui peut ĂȘtre utilisĂ© dans le champ type de perf_event_attr pour indiquer la volontĂ© d’utiliser cette PMU.

/sys/bus/event_source/devices/cpu/rdpmc (depuis Linux 3.4)

Si ce fichier est 1 , alors l’accĂšs direct de l’espace utilisateur aux registres de compteurs de performance est permis Ă  l’aide de l’instruction rdpmc. Cela peut ĂȘtre dĂ©sactivĂ© en Ă©crivant 0 dans le fichier.

À partir de Linux 4.0, le comportement a changĂ© pour que 1 n’autorise dĂ©sormais que l’accĂšs aux processus ayant des Ă©vĂ©nements perf actifs et que 2 indique l’ancien comportement autorisant l’accĂšs Ă  n’importe quoi.

/sys/bus/event_source/devices/*/format/ (depuis Linux 3.4)

Ce sous-rĂ©pertoire contient des renseignements sur les sous-champs spĂ©cifiques Ă  l’architecture disponibles pour la programmation des divers champs config de la structure perf_event_attr .

Le contenu de chaque fichier est le nom du champ de configuration, suivi d’un deux-points, suivi d’une suite d’intervalles d’entiers sĂ©parĂ©s par des virgules. Par exemple, le fichier event pourrait contenir la valeur config1:1,6-10,44 qui indique que l’évĂ©nement est un attribut qui occupe les bits 1, 6 à 10 et 44 de perf_event_attr::config1 .

/sys/bus/event_source/devices/*/events/ (depuis Linux 3.4)

Ce sous-rĂ©pertoire contient des fichiers avec des Ă©vĂ©nements prĂ©dĂ©finis. Les contenus sont des chaĂźnes dĂ©crivant les rĂ©glages d’évĂ©nements exprimĂ©s en termes des champs trouvĂ©s dans le rĂ©pertoire ./format/ mentionnĂ© prĂ©cĂ©demment. Ce ne sont pas nĂ©cessairement des listes complĂštes de tous les Ă©vĂšnements pris en charge par une PMU, mais gĂ©nĂ©ralement un sous-ensemble d’évĂ©nements jugĂ©s utiles ou intĂ©ressants.

Le contenu de chaque fichier est une liste de noms d’attribut sĂ©parĂ©s par des virgules. Chaque entrĂ©e a une valeur facultative (soit hexadĂ©cimale, soit dĂ©cimale). Si aucune valeur n’est indiquĂ©e, alors un champ d’un seul bit de valeur 1 est supposĂ©. Un exemple d’entrĂ©e pourrait ressembler Ă  event=0x2,inv,ldlat=3 .

/sys/bus/event_source/devices/*/uevent

Ce fichier est l’interface standard de pĂ©riphĂ©rique du noyau pour l’injection d’évĂ©nements de branchement Ă  chaud.

/sys/bus/event_source/devices/*/cpumask (depuis Linux 3.7)

Le fichier cpumask contient une liste d’entiers sĂ©parĂ©s par des virgules indiquant un numĂ©ro reprĂ©sentatif de processeur pour chaque socket (boĂźtier) de la carte mĂšre. C’est nĂ©cessaire lors de la dĂ©finition d’évĂ©nements uncore ou northbridge, puisque ces PMU prĂ©sentent des Ă©vĂ©nements Ă  travers tous les sockets.

VALEUR RENVOYÉE

En cas de succĂšs, perf_event_open () renvoie le nouveau descripteur de fichier. En cas d’échec, -1 est renvoyĂ© et errno est dĂ©fini pour indiquer l’erreur.

ERREURS

Les erreurs renvoyĂ©es par perf_event_open () peuvent ĂȘtre incohĂ©rentes et peuvent varier suivant les architectures de processeur et les unitĂ©s de surveillance des performances.

E2BIG

Renvoyé si la valeur size de perf_event_attr est trop petite (plus petite que PERF_ATTR_SIZE_VER0 ), trop grande (plus grande que la taille de page) ou plus grande que ce que le noyau peut gérer et que les octets supplémentaires ne sont pas zéro. Lorsque E2BIG est renvoyé, le champ size de perf_event_attr est remplacé, par le noyau, par la taille attendue de la structure.

EACCES

RenvoyĂ© quand l’évĂ©nement demandĂ© nĂ©cessite les droits CAP_PERFMON (depuis Linux 5.8) ou CAP_SYS_ADMIN (ou un rĂ©glage paranoĂŻaque de perf_event plus permissif). Quelques cas habituels oĂč un processus non privilĂ©giĂ© pourrait tomber sur cette erreur : l’attachement Ă  un processus appartenant Ă  un autre utilisateur, la surveillance de tous les processus sur un processeur donnĂ© (c’est-Ă -dire en indiquant -1 pour l’argument pid ) et l’absence de rĂ©glage exclude_kernel quand le rĂ©glage paranoĂŻaque le nĂ©cessite.

EBADF

RenvoyĂ© si le descripteur de fichier group_fd n’est pas valable, ou, si PERF_FLAG_PID_CGROUP est dĂ©fini, si le descripteur de fichier cgroup dans pid n’est pas valable.

EBUSY (depuis Linux 4.1)

Renvoyé si un événement a déjà un accÚs exclusif à la PMU.

EFAULT

Renvoyé si le pointeur attr pointe vers un adresse de mémoire non valable.

EINTR

Renvoyé si on essaie de mélanger la gestion de perf et de ftrace pour un uprobe.

EINVAL

RenvoyĂ© si l’évĂ©nement indiquĂ© n’est pas valable. De nombreuse raisons sont possibles pour cela. Une liste non exhaustive : sample_freq est plus grand que le rĂ©glage maximal ; le cpu Ă  surveiller n’existe pas ; read_format est hors intervalle ; sample_type est hors intervalle ; la valeur flags est hors intervalle ; exclusive ou pinned sont dĂ©finis et l’évĂ©nement n’est pas un leader de groupe ; les valeurs config de l’évĂ©nement sont hors de l’intervalle ou des bits rĂ©servĂ©s dĂ©finis ; l’évĂ©nement gĂ©nĂ©rique sĂ©lectionnĂ© n’est pas pris en charge ; la place est insuffisante pour ajouter l’évĂ©nement sĂ©lectionnĂ©.

EMFILE

Chaque Ă©vĂ©nement ouvert utilise un descripteur de fichier. Si un grand nombre d’évĂ©nements est ouvert, la limite de descripteurs de fichier par processus sera atteinte et aucun Ă©vĂ©nement supplĂ©mentaire ne pourra ĂȘtre créé.

ENODEV

RenvoyĂ© quand l’évĂ©nement implique une fonctionnalitĂ© non prise en charge par le processeur actuel.

ENOENT

RenvoyĂ© si le rĂ©glage type n’est pas valable. Cette erreur est Ă©galement renvoyĂ©e pour certains Ă©vĂ©nements gĂ©nĂ©riques non pris en charge.

ENOSPC

Avant Linux 3.3, s’il manquait de la place pour l’évĂ©nement, ENOSPC Ă©tait renvoyĂ©. Dans Linux 3.3, cela a Ă©tĂ© modifiĂ© en EINVAL . ENOSPC est toujours renvoyĂ© en cas de tentative d’ajout de plus d’évĂ©nements de point d’arrĂȘt que permis par le matĂ©riel.

ENOSYS

RenvoyĂ© si PERF_SAMPLE_STACK_USER est dĂ©fini dans sample_type et que ce n’est pas pris en charge par le matĂ©riel.

EOPNOTSUPP

RenvoyĂ© si un Ă©vĂ©nement nĂ©cessitant une fonctionnalitĂ© spĂ©cifique du matĂ©riel est demandĂ© alors qu’il n’y a pas de prise en charge matĂ©rielle. Cela comprend la demande d’évĂ©nement Ă  faible dĂ©rapage si ce n’est pas pris en charge, le suivi de branchement s’il n’est pas pris en charge, l’échantillonnage si aucune interruption PMU n’est disponible et les piles de branchement pour les Ă©vĂ©nements logiciels.

EOVERFLOW (depuis Linux 4.8)

Renvoyé si PERF_SAMPLE_CALLCHAIN est demandé et si sample_max_stack est plus grand que le maximum indiqué dans /proc/sys/kernel/perf_event_max_stack .

EPERM

RenvoyĂ© sur beaucoup d’architectures (mais pas toutes) quand un des rĂ©glages exclude_hv , exclude_idle , exclude_user ou exclude_kernel non pris en charge est indiquĂ©.

Cela peut aussi arriver, comme avec EACCES , quand l’évĂ©nement demandĂ© nĂ©cessite les droits CAP_PERFMON (depuis Linux 5.8) ou CAP_SYS_ADMIN (ou un rĂ©glage paranoĂŻaque de perf_event plus permissif). Cela comprend le rĂ©glage d’un point d’arrĂȘt sur une adresse du noyau et (depuis Linux 3.13) le rĂ©glage d’un point de trace de fonction du noyau.

ESRCH

RenvoyĂ© en cas de tentative d’attachement Ă  un processus qui n’existe pas.

STANDARDS

Linux.

HISTORIQUE

perf_event_open () a été introduite dans Linux 2.6.31 mais était appelée perf_counter_open (). Elle a été renommée dans Linux 2.6.32.

NOTES

Le moyen officiel pour savoir si la prise en charge de perf_event_open () est activée est de vérifier si le fichier /proc/sys/kernel/perf_event_paranoid existe.

La capacitĂ© CAP_PERFMON (depuis Linux 5.58) fournit une approche sĂ©curisĂ©e de la surveillance des performances et des opĂ©rations de visibilitĂ© d’un systĂšme suivant un principe du moindre privilĂšge (POSIX IEEE 1003.1e). Ces modalitĂ©s d’accĂšs qui utilisent CAP_PERFMON au lieu du beaucoup plus puissant CAP_SYS_ADMIN enlĂšve des chances d’une mauvaise utilisation des droits et rend les opĂ©rations plus sĂ©curisĂ©es. L’utilisation de CAP_SYS_ADMIN pour la surveillance sĂ©curisĂ©e des performances du systĂšme et une meilleure visibilitĂ© est dĂ©conseillĂ©e et vous devriez prĂ©fĂ©rer la capacitĂ© CAP_PERFMON .

BOGUES

L’option F_SETOWN_EX de fcntl (2) est nĂ©cessaire pour obtenir correctement les signaux de dĂ©passement dans les threads. Cela a Ă©tĂ© introduit dans Linux 2.6.32.

Avant Linux 3.3 (en tout cas pour x86), le noyau ne vĂ©rifiait pas si les Ă©vĂ©nements pouvaient ĂȘtre programmĂ©s ensemble avant le moment de la lecture. La mĂȘme chose arrive sur tous les noyaux connus si le watchdog NMI est activĂ©. Cela signifie que pour voir si un ensemble donnĂ© d’évĂ©nements fonctionne, il faut appeler perf_event_open (), dĂ©marrer, puis lire avant d’ĂȘtre sĂ»r de pouvoir obtenir des mesures valables.

Avant Linux 2.6.34, les contraintes d’évĂ©nements n’étaient pas renforcĂ©es par le noyau. Dans ce cas, certains Ă©vĂ©nements renverraient « 0 » silencieusement si le noyau les avait programmĂ©s dans un emplacement de compteur incorrect.

Avant Linux 2.6.34, Ă  cause d’un bogue lors du multiplexage, de mauvais rĂ©sultats pouvaient ĂȘtre renvoyĂ©s.

Les noyaux de Linux 2.6.35 à Linux 2.6.39 peuvent planter rapidement si inherit est activé et que de nombreux threads sont démarrés.

Avant Linux 2.6.35, PERF_FORMAT_GROUP ne fonctionnait pas avec les processus attachés.

À cause d’un bogue dans le code du noyau entre Linux 2.6.36 et Linux 3.0, le champ watermark Ă©tait ignorĂ© et agissait comme si wakeup_event avait Ă©tĂ© choisi si l’union contenait une valeur non nulle.

De Linux 2.6.31 Ă  Linux 3.4, l’argument ioctl PERF_IOC_FLAG_GROUP Ă©tait cassĂ© et opĂ©rait Ă  rĂ©pĂ©tition sur l’évĂ©nement indiquĂ© au lieu d’itĂ©rer parmi tous les Ă©vĂ©nements d’une fratrie d’un groupe.

De Linux 3.4 Ă  Linux 3.11, les bits mmap cap_usr_rdpmc et cap_usr_time Ă©taient associĂ©s au mĂȘme emplacement. Le code devrait plutĂŽt ĂȘtre modifiĂ© pour utiliser les nouveaux champs cap_user_rdpmc et cap_user_time Ă  la place.

VĂ©rifiez toujours deux fois les rĂ©sultats. Plusieurs Ă©vĂ©nements gĂ©nĂ©ralisĂ©s ont eu de fausses valeurs. Par exemple, les branchements retirĂ©s ne mesuraient pas la bonne chose sur les machines AMD jusqu’au noyau 2.6.35.

EXEMPLES

Ce qui suit est un court exemple qui mesure le dĂ©compte total d’instructions d’un appel Ă  printf (3).

#include <linux/perf_event.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/ioctl.h>
#include <sys/syscall.h>
#include <sys/types.h>
#include <unistd.h>
static long
perf_event_open(struct perf_event_attr *hw_event, pid_t pid,
int cpu, int group_fd, unsigned long flags)
{
int ret;
ret = syscall(SYS_perf_event_open, hw_event, pid, cpu,
group_fd, flags);
return ret;
}
int
main(void)
{
int fd;
long long count;
struct perf_event_attr pe;
memset(&pe, 0, sizeof(pe));
pe.type = PERF_TYPE_HARDWARE;
pe.size = sizeof(pe);
pe.config = PERF_COUNT_HW_INSTRUCTIONS;
pe.disabled = 1;
pe.exclude_kernel = 1;
pe.exclude_hv = 1;
fd = perf_event_open(&pe, 0, -1, -1, 0);
if (fd == -1) {
fprintf(stderr, "Erreur d’ouverture du leader %llx\n", pe.config);
exit(EXIT_FAILURE);
}
ioctl(fd, PERF_EVENT_IOC_RESET, 0);
ioctl(fd, PERF_EVENT_IOC_ENABLE, 0);
printf("Mesure du dĂ©compte d’instructions pour ce printf\n");
ioctl(fd, PERF_EVENT_IOC_DISABLE, 0);
read(fd, &count, sizeof(count));
printf("%lld instructions utilisées\n", count);
close(fd);
}

VOIR AUSSI

perf (1), fcntl (2), mmap (2), open (2), prctl (2), read (2)

Documentation/admin-guide/perf-security.rst dans l’arborescence des sources du noyau

TRADUCTION

La traduction française de cette page de manuel a été créée par Christophe Blaess <https://www.blaess.fr/christophe/>, Stéphan Rafin <stephan.rafin@laposte.net>, Thierry Vignaud <tvignaud@mandriva.com>, François Micaux, Alain Portal <aportal@univ-montp2.fr>, Jean-Philippe Guérard <fevrier@tigreraye.org>, Jean-Luc Coulon (f5ibh) <jean-luc.coulon@wanadoo.fr>, Julien Cristau <jcristau@debian.org>, Thomas Huriaux <thomas.huriaux@gmail.com>, Nicolas François <nicolas.francois@centraliens.net>, Florentin Duneau <fduneau@gmail.com>, Simon Paillard <simon.paillard@resel.enst-bretagne.fr>, Denis Barbier <barbier@debian.org>, David Prévot <david@tilapin.org> et Jean-Philippe MENGUAL <jpmengual@debian.org>

Cette traduction est une documentation libre ; veuillez vous reporter à la GNU General Public License version 3 concernant les conditions de copie et de distribution. Il n’y a aucune RESPONSABILITÉ LÉGALE.

Si vous découvrez un bogue dans la traduction de cette page de manuel, veuillez envoyer un message à debian-l10n-french@lists.debian.org .