[FRsAG] [TECH] Cluster proxmox hyper convergé

Dernat Rémy remy.dernat at umontpellier.fr
Mar 30 Juin 11:37:39 CEST 2020


Bonjour,

A noter qu'avec un backend Ceph, il se peut que l'algo attende qu'un OSD 
soit réellement HS (pas juste une (micro-)coupure) pour commencer à 
rebalancer les données sur les noeuds restant. Il se peut donc que ça 
soit la cause de ce délais, en particulier si vous avez beaucoup de 
contenu à rebalancer, avec des grosses VMs en terme de stockage.

Rémy.

Le 29/06/2020 à 03:44, Clément Gineste a écrit :
> Il me semble que Xen supporte depuis longtemp le live migration d'une 
> VM avec sa mémoire
>
> Le mer. 17 juin 2020 à 20:02, Benoit MOREAU via FRsAG <frsag at frsag.org 
> <mailto:frsag at frsag.org>> a écrit :
>
>     Salut,
>
>     Je ne comprends pas trop le problème. Normalement, au moment où tu
>     isoles le nœud en débranchant ses rings, il faut compter environ 2
>     minutes avant que le cluster lance sa procédure de failover.
>     Le nœud isolé va stopper les VM pour éviter le "split-brain", et
>     le reste du cluster va relancer les VM qui ont été configuré en HA
>     sur les nœuds ayant été configuré pour recevoir les VM.
>
>     A priori, le temps de bascule est hard-codé. Selon moi, ce temps
>     est raisonnable, pour éviter de relancer inutilement les VM en cas
>     de coupure réseau passagère.
>
>     A noter que sans configuration manuelle, il faut que plus de 50%
>     des nœuds du cluster soit vivant pour que celui-ci lance la
>     procédure de failover.
>
>     Je ne sais pas si j'ai répondu a ta question, mais je reste
>     disponible si tu as d'autres questions sur Proxmox.
>
>     Cordialement,
>     Benoit MOREAU
>
>     On 16/06/2020 22:55, Racamier Stéphane wrote:
>>     Bonsoir le groupe,
>>
>>     Je test actuellement un cluster Proxmox 6.4 avec un stockage
>>     hyper convergé ceph composé de 3x6 osd (HDD) avec deux carte
>>     gigabit en protocole LACP actif, 1 carte sur le ring0 et 1 sur le
>>     ring1.
>>
>>     La plateforme de test utilisé des HP proliant dl380 g7.
>>
>>     Ma préoccupation principale est de réussir à migrer mes VMs sans
>>     interruption de service si le nœuds qui exécute se voit
>>     brutalement stoppé. Pour simuler cette panne je débranche
>>     l'interface ring0 et 1.
>>
>>     Petit problème mes VMs se voient stoppé brutalement au décompte
>>     du watchdog, l'interruption est bien trop longue pour des
>>     services en production.
>>
>>     Existe il un moyen de palier ce problème ?
>>
>>     Cdlt.
>>
>>     _______________________________________________
>>     Liste de diffusion du FRsAG
>>     http://www.frsag.org/
>
>     _______________________________________________
>     Liste de diffusion du FRsAG
>     http://www.frsag.org/
>
>
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org/

-- 
Dernat Rémy
IT Infrastructure Engineer, CNRS
MBB Platform - ISEM Montpellier

-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://www.frsag.org/pipermail/frsag/attachments/20200630/cb3661c1/attachment.htm>
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: smime.p7s
Type: application/pkcs7-signature
Taille: 3334 octets
Desc: Signature cryptographique S/MIME
URL: <http://www.frsag.org/pipermail/frsag/attachments/20200630/cb3661c1/attachment.bin>


Plus d'informations sur la liste de diffusion FRsAG