Bonjour,

Le 02/12/2020 à 16:05, Stéphane Rivière a écrit :
Je n'utilise pas CEPH. Voilà le notes que j'avais pris à l'époque.
Aucune idée de la pertinence. Ces colistiers ont du vécu :) Leurs
messages m'ont semblé assez clairs.

3        Incident

wallace@morkitu.org : Ceph sur trois noeuds dans le moule Proxmox, ça
marche quand tout est ok. Si tu perds un nœud le quorum en prend un coup
comme pour Proxmox mais ça passe.

On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui
démarre à froid (coupure courant de nuit dans une entreprise malgré
l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort
(l'équipe sur place faisait une maintenance sur les disques la veille)
refuse de démarrer et donc tu ne peux pas faire repartir.


Comme pour le lvm-thin, ce retour d'expérience est précieux pour construire et faire évoluer les infrastructures Proxmox et Ceph.

Sur le lvm-thin, on va mettre une supervision sur ce point précis :-)

J'ai testé le même type d'incident (coupure de courant) avec 5 serveurs Proxmox (6.3) dont 3 noeuds Ceph (15.2).
J'ai cassé un serveur Proxmox et un noeud Ceph avant de couper brutalement le courant.

Au redémarrage, J'ai allumé 2 serveurs Proxmox ayant 2 noeuds Ceph:

-> J'ai eu droit un beau message du contrôleur RAID du genre "flushing cache", car il y avait des données dans la mémoire du contrôleur lors de l'arrêt brutal, et donc il a écrit les données sur les disques au rallumage.
-> Le Ceph a un peu rallé avec "Health Warning" (active+undersized), mais il était accessible
-> Le Proxmox a  refusé de démarrer les VMs car le quorum n'était pas là.

J'ai rallumé un Proxmox supplémentaire (pour arriver à 3):
 -> Les VMs sont reparties.

J'ai rallumé le reste : dernier noeud Ceph et 2 derniers proxmox:
 -> Après quelques minutes, le Ceph est repassé en Health OK
 -> Le proxmox cassé ne s'est pas réintégré (différence de numéro de version dans corosync)

Je vais essayer d'être un peu plus pénible avec Ceph en provoquant des coupures brutales à des moments différents.

--
Emmanuel DECAEN