Au passage, je ne vois pas pourquoi 4 serveurs seraient forcément nécessaires, ni une bonne idée.
Je n'utilise pas CEPH. Voilà le notes que j'avais pris à l'époque. Aucune idée de la pertinence. Ces colistiers ont du vécu :) Leurs messages m'ont semblé assez clairs.
J'en avais conclu que c'était super mais nécessitait une certaine "aisance" et, qu'en attendant, on continuerai avec DRBD...
Laissé les emails : les archives sont publiques et ça permet de les contacter pour des précisions...
1 Architecture
richard@demongeot.biz : CEPH étant (massivement) distribué, il devient de plus en plus performant avec le volume de disques que tu lui affectes. Selon la documentation, le minimum préconisé est de faire "3 copies", sur "3 machines différentes".
CEPH préfère par ailleurs un accès direct au disque, et ne pas avoir de raid sur les disques.
Setup standard CEPH :
+--------------+ +--------------+ +--------------+ | Hôte1 | | Hôte2 | | Hôte3 | | HDD1 HDD2 | | HDD3 HDD4 | | HDD5 HDD6 | +--------------+ +--------------+ +--------------+
Ton premier bloc sera sur les disques 1, 3 et 5; Ton second sur les disques 2, 4 et 5; Etc. CEPH s’amusera à les placer différemment à chaque fois.
Du coup, si tu n'as que 3 disques, les 3 seront "identiques", mais la fragmentation va te faire perdre en performance vis à vis de DRBD.
Si tu as 12 disques ou plus, réparti dans plusieurs châssis, tu va pouvoir tirer parti de l'ensemble des axes / ports disques. Et plus tu rajoutes de disque, plus ta performance s'améliore :).
2 Algorithme
frsag@frsag.org : Question de précision de l'algorithme de répartition des blocs de données (PG en langage ceph). Le manque de précision est du a une optimisation pour trouver plus rapidement le lieu ou est stocké le PG, du coup il y a une variation de quelques pourcents (voir dizaine) entre la quantité de données sur chaque disque.
Les paramètres recommandés sont : 3 replicas, 2 nécessaires pour activer les écritures.
Si on n'a que 3 noeuds et qu'on en perd un, on n'a pas *exactement* 33% des PG hors ligne, mais un peu plus ou un peu moins, ce qui fait qu’on se retrouve potentiellement avec des écritures bloquées sur une partie du cluster.
D’où le 4 pour avoir une marge de manœuvre.
3 Incident
wallace@morkitu.org : Ceph sur trois noeuds dans le moule Proxmox, ça marche quand tout est ok. Si tu perds un nœud le quorum en prend un coup comme pour Proxmox mais ça passe.
On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui démarre à froid (coupure courant de nuit dans une entreprise malgré l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort (l'équipe sur place faisait une maintenance sur les disques la veille) refuse de démarrer et donc tu ne peux pas faire repartir.
Proxmox dans ce cas on peut toujours dire tel host a un point plus grand pour le quorum et/ou baisser le nombre de voix de chaque membre ça passe.
Ceph on a pas trouvé et la seule façon a été de reconfigurer le cluster pour demander une réplication sur 2 noeuds au lieu de 3. Du coup gros travail de Ceph qui a bien saturé ses liens pendant 3 jours mettant des perfs assez faibles pour les vms.