J’explore plusieurs possibilités.
Mes clusters sont bien time-synced (un avec timesyncd, l’autre avec chrony), donc je suis enclin à écarter cette piste.
Je prends une trace du traffic corosync (port 5405) pour tenter de détecter un raté.
Merci
Le 13 juin 2022 à 12:52, Francois Romieu romieu@fr.zoreil.com a écrit :
Bonjour,
David Ponzone david.ponzone@gmail.com : [...]
Je me demandais donc si je dois quand même chercher du côté d’un problème de transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut avoir un petit bug dans ma version actuelle.
Perte, retard, fluctuation de la synchro horaire ou latence de traitement.
Je n'ai rien remarqué de ressemblant dans l'historique git disponible via https://github.com/corosync/corosync.git que ce soit entre la v3.1.5 et la v3.1.6 ou entre la v3.1.5 et la branche courante.
Je n'ai pas assez examiné les sources pour te dire si la log d'état de lien reflète effectivement un changement de lien tel qu'il pourrait être observé via netlink ou bien s'il traduit l'absence de retour de communication dans les temps avec une entité distante mais la log totem indique quand même un peu un hors-temps.
Ca ne me choquerait pas de commencer par un 'timeout 86400 tcpdump -w blah' dans les hôtes impliqués pour voir si le traffic (udp ?) est effectivement perturbé lorsque l'incident est signalé.
-- Ueimor