Logs étranges de Corosync - FRsAG

12 Jun 2022


      Proxmoxien(ne)s,
J’ai 2 Proxmox en cluster (7.1.11, Coro 3.1.5-pve2) qui me font régulièrement (au moins une fois par jour) ceci:
Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] link: host: 2 link: 0 is down
Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 (passive) best link: 0 (pri: 1)
Jun 12 03:04:41 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 has no active links
Jun 12 03:04:43 prox1-1 corosync[4379]:   [KNET  ] rx: host: 2 link: 0 is up
Jun 12 03:04:43 prox1-1 corosync[4379]:   [KNET  ] host: host: 2 (passive) best link: 0 (pri: 1)
Jun 12 03:04:43 prox1-1 corosync[4379]:   [TOTEM ] Token has not been received in 2250 ms
Soit l’un, soit l’autre.
Je continue de chercher mais difficile d'isoler ce cas de figure précis en cherchant sur Google, étant donné le flou artistique des logs.
Evidemment, aucune perte de lien, ils sont connectés en 10G sur des Nexus, c’est l’unique uplink 10G qui sert pour Coro aussi pour le moment mais il est largement sous-utilisé.
Je me demandais donc si je dois quand même chercher du côté d’un problème de transmission (donc perte d’un keepalive de temps en temps), ou si Coro peut avoir un petit bug dans ma version actuelle.
Note: j’ai la même chose sur un autre cluster en 6.2.12 qui passe par les mêmes switch, sauf que sur ceux-là, j’ai aussi un message:
Jun  3 09:24:07 vh2-1 corosync[3385]:   [TOTEM ] A processor failed, forming new configuration.
Aucun impact opérationnel à priori.
Si quelqu’un a un pointeur sur une bonne doc de debug de Corosync….
Merci