Je n'utilise pas CEPH. Voilà le notes que j'avais pris à l'époque.Aucune idée de la pertinence. Ces colistiers ont du vécu :) Leurs messages m'ont semblé assez clairs. 3 Incident wallace@morkitu.org : Ceph sur trois noeuds dans le moule Proxmox, ça marche quand tout est ok. Si tu perds un nœud le quorum en prend un coup comme pour Proxmox mais ça passe. On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui démarre à froid (coupure courant de nuit dans une entreprise malgré l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort (l'équipe sur place faisait une maintenance sur les disques la veille) refuse de démarrer et donc tu ne peux pas faire repartir.
Comme pour le lvm-thin, ce retour d'expérience est précieux pour
construire et faire évoluer les infrastructures Proxmox et Ceph.
Sur le lvm-thin, on va mettre une supervision sur ce point précis
:-)
J'ai testé le même type d'incident (coupure de courant) avec 5
serveurs Proxmox (6.3) dont 3 noeuds Ceph (15.2).
J'ai cassé un serveur Proxmox et un noeud Ceph avant de couper
brutalement le courant.
Au redémarrage, J'ai allumé 2 serveurs Proxmox ayant 2 noeuds
Ceph:
-> J'ai eu droit un beau message du contrôleur RAID du genre
"flushing cache", car il y avait des données dans la mémoire du
contrôleur lors de l'arrêt brutal, et donc il a écrit les données
sur les disques au rallumage.
-> Le Ceph a un peu rallé avec "Health Warning"
(active+undersized), mais il était accessible
-> Le Proxmox a refusé de démarrer les VMs car le quorum
n'était pas là.
J'ai rallumé un Proxmox supplémentaire (pour arriver à 3):
-> Les VMs sont reparties.
J'ai rallumé le reste : dernier noeud Ceph et 2 derniers proxmox:
-> Après quelques minutes, le Ceph est repassé en Health OK
-> Le proxmox cassé ne s'est pas réintégré (différence de
numéro de version dans corosync)