Proxmoxien(ne)s,
J’ai 2 Proxmox en cluster (7.1.11, Coro 3.1.5-pve2) qui me font régulièrement (au moins une fois par jour) ceci:
Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] link: host: 2 link: 0 is down Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 has no active links Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] rx: host: 2 link: 0 is up Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:43 prox1-1 corosync[4379]: [TOTEM ] Token has not been received in 2250 ms
Soit l’un, soit l’autre.
Je continue de chercher mais difficile d'isoler ce cas de figure précis en cherchant sur Google, étant donné le flou artistique des logs. Evidemment, aucune perte de lien, ils sont connectés en 10G sur des Nexus, c’est l’unique uplink 10G qui sert pour Coro aussi pour le moment mais il est largement sous-utilisé. Je me demandais donc si je dois quand même chercher du côté d’un problème de transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut avoir un petit bug dans ma version actuelle.
Note: j’ai la même chose sur un autre cluster en 6.2.12 qui passe par les mêmes switch, sauf que sur ceux-là, j’ai aussi un message: Jun 3 09:24:07 vh2-1 corosync[3385]: [TOTEM ] A processor failed, forming new configuration.
Aucun impact opérationnel à priori.
Si quelqu’un a un pointeur sur une bonne doc de debug de Corosync….
Merci
Le Sun, Jun 12, 2022 at 07:28:59PM +0200, David Ponzone [david.ponzone@gmail.com] a écrit:
Proxmoxien(ne)s,
J???ai 2 Proxmox en cluster (7.1.11, Coro 3.1.5-pve2) qui me font régulièrement (au moins une fois par jour) ceci:
Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] link: host: 2 link: 0 is down Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 has no active links Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] rx: host: 2 link: 0 is up Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:43 prox1-1 corosync[4379]: [TOTEM ] Token has not been received in 2250 ms
Soit l???un, soit l???autre.
Et, donc, c'est chaque fois un seul des 2 corsync qui le dit ?
Quand sur le 1er j’ai ça:
Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] link: host: 2 link: 0 is down Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 has no active links Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] rx: host: 2 link: 0 is up Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:43 prox1-1 corosync[4379]: [TOTEM ] Token has not been received in 2250 ms
J’ai ça sur le second:
Jun 12 03:04:43 prox1-2 corosync[4027]: [TOTEM ] Token has not been received in 2250 ms
Sur le second, j’ai surtout des:
Jun 11 01:48:34 prox1-2 corosync[4027]: [KNET ] link: host: 1 link: 0 is down Jun 11 01:48:34 prox1-2 corosync[4027]: [KNET ] host: host: 1 (passive) best link: 0 (pri: 1) Jun 11 01:48:34 prox1-2 corosync[4027]: [KNET ] host: host: 1 has no active links Jun 11 01:48:35 prox1-2 corosync[4027]: [KNET ] rx: host: 1 link: 0 is up Jun 11 01:48:35 prox1-2 corosync[4027]: [KNET ] host: host: 1 (passive) best link: 0 (pri: 1)
Mais aucun message au même moment sur le premier.
Et aussi, toujours sur le second, des:
Jun 9 11:59:04 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 20eab0 Jun 9 12:12:04 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 20f1fe Jun 9 14:37:00 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 214456 Jun 9 15:04:36 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 21543f Jun 9 15:29:33 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 2162b1 Jun 9 17:26:44 prox1-2 corosync[4027]: [TOTEM ] Retransmit List: 21a5ca
Avec rien au même moment sur le premier.
Je vais commencer par prendre une trace comme suggéré par Francois R.
Le 13 juin 2022 à 10:12, Dominique Rousseau d.rousseau@nnx.com a écrit :
Le Sun, Jun 12, 2022 at 07:28:59PM +0200, David Ponzone [david.ponzone@gmail.com] a écrit:
Proxmoxien(ne)s,
J???ai 2 Proxmox en cluster (7.1.11, Coro 3.1.5-pve2) qui me font régulièrement (au moins une fois par jour) ceci:
Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] link: host: 2 link: 0 is down Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:41 prox1-1 corosync[4379]: [KNET ] host: host: 2 has no active links Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] rx: host: 2 link: 0 is up Jun 12 03:04:43 prox1-1 corosync[4379]: [KNET ] host: host: 2 (passive) best link: 0 (pri: 1) Jun 12 03:04:43 prox1-1 corosync[4379]: [TOTEM ] Token has not been received in 2250 ms
Soit l???un, soit l???autre.
Et, donc, c'est chaque fois un seul des 2 corsync qui le dit ?
-- Dominique Rousseau Neuronnexion, Prestataire Internet & Intranet 6 rue des Hautes cornes - 80000 Amiens tel: 03 22 71 61 90 - fax: 03 22 71 61 99 - http://www.neuronnexion.coop _______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/
Bonjour,
David Ponzone david.ponzone@gmail.com : [...]
Je me demandais donc si je dois quand même chercher du côté d’un problème de transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut avoir un petit bug dans ma version actuelle.
Perte, retard, fluctuation de la synchro horaire ou latence de traitement.
Je n'ai rien remarqué de ressemblant dans l'historique git disponible via https://github.com/corosync/corosync.git que ce soit entre la v3.1.5 et la v3.1.6 ou entre la v3.1.5 et la branche courante.
Je n'ai pas assez examiné les sources pour te dire si la log d'état de lien reflète effectivement un changement de lien tel qu'il pourrait être observé via netlink ou bien s'il traduit l'absence de retour de communication dans les temps avec une entité distante mais la log totem indique quand même un peu un hors-temps.
Ca ne me choquerait pas de commencer par un 'timeout 86400 tcpdump -w blah' dans les hôtes impliqués pour voir si le traffic (udp ?) est effectivement perturbé lorsque l'incident est signalé.
J’explore plusieurs possibilités.
Mes clusters sont bien time-synced (un avec timesyncd, l’autre avec chrony), donc je suis enclin à écarter cette piste.
Je prends une trace du traffic corosync (port 5405) pour tenter de détecter un raté.
Merci
Le 13 juin 2022 à 12:52, Francois Romieu romieu@fr.zoreil.com a écrit :
Bonjour,
David Ponzone david.ponzone@gmail.com : [...]
Je me demandais donc si je dois quand même chercher du côté d’un problème de transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut avoir un petit bug dans ma version actuelle.
Perte, retard, fluctuation de la synchro horaire ou latence de traitement.
Je n'ai rien remarqué de ressemblant dans l'historique git disponible via https://github.com/corosync/corosync.git que ce soit entre la v3.1.5 et la v3.1.6 ou entre la v3.1.5 et la branche courante.
Je n'ai pas assez examiné les sources pour te dire si la log d'état de lien reflète effectivement un changement de lien tel qu'il pourrait être observé via netlink ou bien s'il traduit l'absence de retour de communication dans les temps avec une entité distante mais la log totem indique quand même un peu un hors-temps.
Ca ne me choquerait pas de commencer par un 'timeout 86400 tcpdump -w blah' dans les hôtes impliqués pour voir si le traffic (udp ?) est effectivement perturbé lorsque l'incident est signalé.
-- Ueimor