Bonjour à tous,
je me permets de vous partager une mésaventure, cela permettra peut-être à certain de ne pas faire la même erreur que nous.
Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une opération programmée par EMC pour une mise à jour, le service à été interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les détails. Conclusion, après ouverture d'un ticket chez EMC, le service n'a pu être rétabli que 9H plus tard.
L'origine du dysfonctionnement viendrait d'un groupe de disques qui hébergeraient le "soft" des control station (CS), l'un des disques aurait fait des problèmes d'écriture.
J'ai plusieurs problème avec ce discourt :
- comment une baie blindée de disque puisse avoir ce type de problème ? - comment ce type de problème n'a pas pu être détecté avant (s'il y en avait un) ?
- comment un procédure de mise à jour n'a pas détectée ce type de problème (si la mise à jour est à l'origine du problème) ?
Côté EMC c'est très vague. Il y a deux affirmations :
1. La personne en charge du ticket incident, aurait du nous prévenir que l'opération serait longue, nous aurions pu basculer sur une autre infra.
2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon point de vu désengage EMC de toutes responsabilité.
Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement que nous pourrons rien y faire.
Mes questions :
- Qu'aurions-nous du faire pour que EMC s'engage sur un taux de disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?
- Il n'y a t'il pas des engagements sur le délais de rétablissement d'un service ?
- Avez-vous eu un problème similaire dernièrement ?
Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. Je partage juste un message officiel.
Merci par avance pour vos retours.
Alexandre.