Si on n'a que 3 noeuds et qu'on en perd un, on n'a pas exactement 33% des PG hors ligne, mais un peu plus ou un peu moins, ce qui fait qu’on se retrouve potentiellement avec des écritures bloquées sur une partie du cluster.
Il y a peut être des cas particuliers avec la configuration, mais je n'ai jamais vu cette situation. Que ce soit en coupant 1 osd d'un cluster de 3 osd, ou un rack d'un cluster de trois racks.
En effet un serveur aura plus ou moins d'un tiers des PG, mais tous les PG auront 2 copies donc le cluster acceptera les lectures/écritures.
On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui démarre à froid (coupure courant de nuit dans une entreprise malgré l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort (l'équipe sur place faisait une maintenance sur les disques la veille) refuse de démarrer et donc tu ne peux pas faire repartir.
Difficile à analyser sans avoir les logs, mais si le cluster était en bonne santé au moment de l'arrêt ce n'est pas normal.
Mais il arrive que Ceph fasse des choses surprenantes.
Étienne
‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐
On Wednesday, December 2nd, 2020 at 4:05 PM, Stéphane Rivière stef@genesix.org wrote:
Au passage, je ne vois pas pourquoi 4 serveurs seraient forcément nécessaires, ni une bonne idée.
Je n'utilise pas CEPH. Voilà le notes que j'avais pris à l'époque.
Aucune idée de la pertinence. Ces colistiers ont du vécu :) Leurs
messages m'ont semblé assez clairs.
J'en avais conclu que c'était super mais nécessitait une certaine
"aisance" et, qu'en attendant, on continuerai avec DRBD...
Laissé les emails : les archives sont publiques et ça permet de les
contacter pour des précisions...
1 Architecture
richard@demongeot.biz : CEPH étant (massivement) distribué, il devient
de plus en plus performant avec le volume de disques que tu lui
affectes. Selon la documentation, le minimum préconisé est de faire "3
copies", sur "3 machines différentes".
CEPH préfère par ailleurs un accès direct au disque, et ne pas avoir de
raid sur les disques.
Setup standard CEPH :
+--------------+ +--------------+ +--------------+
| Hôte1 | | Hôte2 | | Hôte3 |
| HDD1 HDD2 | | HDD3 HDD4 | | HDD5 HDD6 |
+--------------+ +--------------+ +--------------+
Ton premier bloc sera sur les disques 1, 3 et 5;
Ton second sur les disques 2, 4 et 5;
Etc. CEPH s’amusera à les placer différemment à chaque fois.
Du coup, si tu n'as que 3 disques, les 3 seront "identiques", mais la
fragmentation va te faire perdre en performance vis à vis de DRBD.
Si tu as 12 disques ou plus, réparti dans plusieurs châssis, tu va
pouvoir tirer parti de l'ensemble des axes / ports disques. Et plus tu
rajoutes de disque, plus ta performance s'améliore :).
2 Algorithme
frsag@frsag.org : Question de précision de l'algorithme de répartition
des blocs de données (PG en langage ceph). Le manque de précision est du
a une optimisation pour trouver plus rapidement le lieu ou est stocké le
PG, du coup il y a une variation de quelques pourcents (voir dizaine)
entre la quantité de données sur chaque disque.
Les paramètres recommandés sont : 3 replicas, 2 nécessaires pour activer
les écritures.
Si on n'a que 3 noeuds et qu'on en perd un, on n'a pas exactement 33%
des PG hors ligne, mais un peu plus ou un peu moins, ce qui fait qu’on
se retrouve potentiellement avec des écritures bloquées sur une partie
du cluster.
D’où le 4 pour avoir une marge de manœuvre.
3 Incident
wallace@morkitu.org : Ceph sur trois noeuds dans le moule Proxmox, ça
marche quand tout est ok. Si tu perds un nœud le quorum en prend un coup
comme pour Proxmox mais ça passe.
On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui
démarre à froid (coupure courant de nuit dans une entreprise malgré
l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort
(l'équipe sur place faisait une maintenance sur les disques la veille)
refuse de démarrer et donc tu ne peux pas faire repartir.
Proxmox dans ce cas on peut toujours dire tel host a un point plus grand
pour le quorum et/ou baisser le nombre de voix de chaque membre ça passe.
Ceph on a pas trouvé et la seule façon a été de reconfigurer le cluster
pour demander une réplication sur 2 noeuds au lieu de 3. Du coup gros
travail de Ceph qui a bien saturé ses liens pendant 3 jours mettant des
perfs assez faibles pour les vms.
Be Seeing You
Number Six
Liste de diffusion du FRsAG