samedi 16 décembre 2017, 14:08:53 CET Eric Joseph-Alexandre wrote:
Par contre je peux expliquer comment planter une infra Ceph puisque je l'ai fait. Cela va juste confirmer ce qui a déjà été écrit par d'autre.
Le premier truc à faire: garder la configuration par défaut. Comme ça il n'y a pas de priorisation entre les I/O client et les tâches de maintenance. Et le jour où tu change un OSD de 3To tu attends une demi-journée avant que ton un cluster Ceph retrouve un fonctionnement normal.
Deuxième truc: ne pas respecter la règle de 2/3 et laisser une bonne partie des OSDs se remplir à plus de 90%. Du coup au moindre problème il n'y a plus rien qui fonctionne, les VMs sont deviennent inexploitables.
Troisième truc: utiliser les mauvais outils pour monitorer le cluster et sous estimer les messages d'alertes et ne pas résoudre les problèmes de pg dégradés.
En dehors de ça le Cluster fonctionnait parfaitement bien et encaissait toutes sortes de manipulations sans impactes les performances des VM. Mon seul gros problèmes était sur les temps de sauvegardes (vzdump) qui étaient franchement calamiteux. Du coup je faisais des snapshot avec rbd que j'exportais, mais je n'étais pas satisfait de la solution.
D'ailleurs je serai curieux d'avoir un retour d'expérience de quelques uns sur les sauvegades.
Je veux bien que tu expliques 2/3 trucs là. Ça, c'est la recette pour faire tomber un cluster Ceph ?
Donc pour avoir un cluster Ceph, il faudrait : - changer la conf par défaut pour prioriser les I/O clients - ne pas remplir les OSDs au-delà de 2/3 de leur capacité - utiliser les bons outils pour monitorer le cluster. C'est à dire ? J'utilise des sondes nagios, dont une qui checke le ceph health, une pour le taux de remplissage des OSDs et une pour surveiller les monitors. Est-ce suffisant ?
C'est bien ce que tu voulais dire ?