[FRsAG] [TECH] Cluster proxmox hyper convergé

Alexandre DERUMIER aderumier at odiso.com
Mer 17 Juin 13:32:52 CEST 2020


Hello, 

>>Je test actuellement un cluster Proxmox 6.4 

6.4 ? 6.2 plutot ? ou 5.4 ? 

>>Ma préoccupation principale est de réussir à migrer mes VMs sans interruption de service si le nœuds qui exécute se voit brutalement stoppé. 

quand tu dit, le noeud est brutalement stoppé, tu veux dire crash,poweroff ? Parce que dans ce cas, les vms sont coupées également. (et la HA les redémarre sur un autre noeud, au bout de 1 à 2min). 

il n'y a pas de fault-tolerence dans proxmox. (où la vm mémoire de la vm est repliquée en permanence sur un autre noeud, et permet de basculer sans coupure). 
Ca existe dans qemu en beta-alpha (projet COLO: [ https://wiki.qemu.org/Features/COLO | https://wiki.qemu.org/Features/COLO ] ), mais pas encore implémenté dans proxmox. (et même dans qemu, je ne sais pas si c'est déjà stable) 

>>Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, l'interruption est bien trop longue pour des services en production. 
>>Existe il un moyen de palier ce problème ? 

Pas moyen de baisser le timeout, principalement pour de stabilité du cluster, pour ne pas killer les noeuds trop vite en cas de flap réseau. 



De: "Racamier Stéphane" <racamier.steph at gmail.com> 
À: "French SysAdmin Group" <frsag at frsag.org> 
Envoyé: Mardi 16 Juin 2020 22:55:11 
Objet: [FRsAG] [TECH] Cluster proxmox hyper convergé 

Bonsoir le groupe, 

Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper convergé ceph composé de 3x6 osd (HDD) avec deux carte gigabit en protocole LACP actif, 1 carte sur le ring0 et 1 sur le ring1. 

La plateforme de test utilisé des HP proliant dl380 g7. 

Ma préoccupation principale est de réussir à migrer mes VMs sans interruption de service si le nœuds qui exécute se voit brutalement stoppé. Pour simuler cette panne je débranche l'interface ring0 et 1. 

Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, l'interruption est bien trop longue pour des services en production. 

Existe il un moyen de palier ce problème ? 

Cdlt. 

_______________________________________________ 
Liste de diffusion du FRsAG 
http://www.frsag.org/ 
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://www.frsag.org/pipermail/frsag/attachments/20200617/ee71d871/attachment.htm>


Plus d'informations sur la liste de diffusion FRsAG