Les engagements sur la fiabilité du matériel

14 Apr 2016

      Bonjour à tous,

je me permets de vous partager une mésaventure, cela permettra peut-être 
à certain de ne pas faire la même erreur que nous.

Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à 
une opération programmée par EMC pour une mise à jour, le service à été 
interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans 
les détails. Conclusion, après ouverture d'un ticket chez EMC, le 
service n'a pu être rétabli que 9H plus tard.

L'origine du dysfonctionnement viendrait d'un groupe de disques qui 
hébergeraient le "soft" des control station (CS), l'un des disques 
aurait fait des problèmes d'écriture.

J'ai plusieurs problème avec ce discourt :

   - comment une baie blindée de disque puisse avoir ce type de problème ?
   - comment ce type de problème n'a pas pu être détecté avant (s'il y 
en avait un) ?

   - comment un procédure de mise à jour n'a pas détectée ce type de 
problème (si la mise à jour est à l'origine du problème) ?

Côté EMC c'est très vague. Il y a deux affirmations :

1. La personne en charge du ticket incident, aurait du nous prévenir que 
l'opération serait longue, nous aurions pu basculer sur une autre infra.

2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de 
mon point de vu désengage EMC de toutes responsabilité.

Pour finir, nous avons perdu beaucoup d'argent, et je pense 
malheureusement que nous pourrons rien y faire.

Mes questions :

   - Qu'aurions-nous du faire pour que EMC s'engage sur un taux de 
disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?

   - Il n'y a t'il pas des engagements sur le délais de rétablissement 
d'un service ?

   - Avez-vous eu un problème similaire dernièrement ?

Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. Je 
partage juste un message officiel.

Merci par avance pour vos retours.

Alexandre.

Alexandre

Benoît DEVIJVER

Alexandre

tags

participants (2)