Bonjour à tous,
je me permets de vous partager une mésaventure, cela permettra peut-être à certain de ne pas faire la même erreur que nous.
Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une opération programmée par EMC pour une mise à jour, le service à été interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les détails. Conclusion, après ouverture d'un ticket chez EMC, le service n'a pu être rétabli que 9H plus tard.
L'origine du dysfonctionnement viendrait d'un groupe de disques qui hébergeraient le "soft" des control station (CS), l'un des disques aurait fait des problèmes d'écriture.
J'ai plusieurs problème avec ce discourt :
- comment une baie blindée de disque puisse avoir ce type de problème ? - comment ce type de problème n'a pas pu être détecté avant (s'il y en avait un) ?
- comment un procédure de mise à jour n'a pas détectée ce type de problème (si la mise à jour est à l'origine du problème) ?
Côté EMC c'est très vague. Il y a deux affirmations :
1. La personne en charge du ticket incident, aurait du nous prévenir que l'opération serait longue, nous aurions pu basculer sur une autre infra.
2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon point de vu désengage EMC de toutes responsabilité.
Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement que nous pourrons rien y faire.
Mes questions :
- Qu'aurions-nous du faire pour que EMC s'engage sur un taux de disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?
- Il n'y a t'il pas des engagements sur le délais de rétablissement d'un service ?
- Avez-vous eu un problème similaire dernièrement ?
Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. Je partage juste un message officiel.
Merci par avance pour vos retours.
Alexandre.
Bonjour Alexandre,
[ Disclaimer: ex-employé EMC, ~expert~ Avant-Vente puis R&D sur les produits Celerra-VNX de 2008 à 2014 ]
La control station du VNX est en effet un élément sensible, qui n'offre aucune redondance interne (1 seule disque, 1 seule alim); mais qui peut elle-même être redondée pour améliorer justement la disponibilité... Je doute que le problème provienne d'un des disques protégé en Raid comme tu le dis...
La procédure de mise-à-jour dont tu parles contient un pre-check script, mais il ne check pas forcément tout, et si tu n'as vraiment vraiment pas de chance tout allait bien 10 minutes avant le problème (mais j'en doute vraiment)
En général, la panne de la control station n'a pas d'effet sur la production... mais le processus de boot des datamovers peuvent être perturbé par l'absence de la control station... Il convient donc de ne pas provoquer des bascules des datamovers (X-Blades) tant que la control station n'est pas revenu en état...
Normalement la personne en charge de l'opération (salarié EMC ?) a dû faire le nécessaire pour que le support EMC soit informé aussitôt que possible du problème. L'opération aura du être mise en pause jusqu'à la remise en état de la control station déféctueuse... (pendant ce temps là, vous êtes néanmoins dans une situation à risque puisque c'est la control station qui s'occupe de gérer la redondance des datamovers...)
1/ La personne en charge du ticket aurait du en effet vous informer que la remise en état prendrait 9h, mais ca ne peut pas être vrai, car une restauration de control station doit durer 1h maximum... donc le temps de recevoir la nouvelle control-station + de la restaurer...
2/ Je pense que la plupart des constructeurs proposent le même genre d'engagement qu'EMC propose en standard... mais qui ne correspond pas exactement à votre demande... il y a 2 solutions alors:
a/ soit faire signer à EMC un contrat spécifique pour vous, avec les engagements que vous souhaitez (par exemple lors d'un RFP....) mais bon, a part le CAC40 je ne connais pas beaucoup de client qui ont le pouvoir d'obtenir ce genre d'engagement d'EMC... (ni des autres constructeurs du secteur)
b/ Si EMC ne s'engage pas comme souhaité, vous pouvez vous appuyer sur des partenaires qui savent faire ça, et qui sont plus souple pour vous proposer des contrats et des engagement de maintenance sur-mesure...
Vu la parc installé EMC VNX, je te rassure: presques tous les problèmes sont déjà connus, et la bonne personnes chez EMC connait les ficelles pour régler ton problème de façon très efficace, le plus difficile étant de trouver la KB applicable à ton problèmre... Je doute que ton problème ai été inconnu d'EMC avant qu'il ne se produise...
Bon courage,Benoît
-----Message d'origine----- De : FRsAG [mailto:frsag-bounces@frsag.org] De la part de Alexandre Envoyé : jeudi 14 avril 2016 13:53 À : French SysAdmin Group Objet : [FRsAG] Les engagements sur la fiabilité du matériel
Bonjour à tous,
je me permets de vous partager une mésaventure, cela permettra peut-être à certain de ne pas faire la même erreur que nous.
Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une opération programmée par EMC pour une mise à jour, le service à été interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les détails. Conclusion, après ouverture d'un ticket chez EMC, le service n'a pu être rétabli que 9H plus tard.
L'origine du dysfonctionnement viendrait d'un groupe de disques qui hébergeraient le "soft" des control station (CS), l'un des disques aurait fait des problèmes d'écriture.
J'ai plusieurs problème avec ce discourt :
- comment une baie blindée de disque puisse avoir ce type de problème ? - comment ce type de problème n'a pas pu être détecté avant (s'il y en avait un) ?
- comment un procédure de mise à jour n'a pas détectée ce type de problème (si la mise à jour est à l'origine du problème) ?
Côté EMC c'est très vague. Il y a deux affirmations :
1. La personne en charge du ticket incident, aurait du nous prévenir que l'opération serait longue, nous aurions pu basculer sur une autre infra.
2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon point de vu désengage EMC de toutes responsabilité.
Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement que nous pourrons rien y faire.
Mes questions :
- Qu'aurions-nous du faire pour que EMC s'engage sur un taux de disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?
- Il n'y a t'il pas des engagements sur le délais de rétablissement d'un service ?
- Avez-vous eu un problème similaire dernièrement ?
Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. Je partage juste un message officiel.
Merci par avance pour vos retours.
Alexandre. _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/
Bonjour Benoît et merci pour ton retour,
On 14/04/16 23:37, Benoît DEVIJVER wrote:
Bonjour Alexandre,
[ Disclaimer: ex-employé EMC, ~expert~ Avant-Vente puis R&D sur les produits Celerra-VNX de 2008 à 2014 ]
La control station du VNX est en effet un élément sensible, qui n'offre aucune redondance interne (1 seule disque, 1 seule alim); mais qui peut elle-même être redondée pour améliorer justement la disponibilité... Je doute que le problème provienne d'un des disques protégé en Raid comme tu le dis...
Je précise que nous avions 2 CS.
La procédure de mise-à-jour dont tu parles contient un pre-check script, mais il ne check pas forcément tout, et si tu n'as vraiment vraiment pas de chance tout allait bien 10 minutes avant le problème (mais j'en doute vraiment)
En général, la panne de la control station n'a pas d'effet sur la production... mais le processus de boot des datamovers peuvent être perturbé par l'absence de la control station... Il convient donc de ne pas provoquer des bascules des datamovers (X-Blades) tant que la control station n'est pas revenu en état...
Normalement la personne en charge de l'opération (salarié EMC ?) a dû faire le nécessaire pour que le support EMC soit informé aussitôt que possible du problème. L'opération aura du être mise en pause jusqu'à la remise en état de la control station déféctueuse... (pendant ce temps là, vous êtes néanmoins dans une situation à risque puisque c'est la control station qui s'occupe de gérer la redondance des datamovers...)
La baie EMC est hébergé chez nous, dans nos locaux. Nous avons ouvert un ticket chez EMC pour la prise en charge de l’incident.
1/ La personne en charge du ticket aurait du en effet vous informer que la remise en état prendrait 9h, mais ca ne peut pas être vrai, car une restauration de control station doit durer 1h maximum... donc le temps de recevoir la nouvelle control-station + de la restaurer...
2/ Je pense que la plupart des constructeurs proposent le même genre d'engagement qu'EMC propose en standard... mais qui ne correspond pas exactement à votre demande... il y a 2 solutions alors:
a/ soit faire signer à EMC un contrat spécifique pour vous, avec les engagements que vous souhaitez (par exemple lors d'un RFP....) mais bon, a part le CAC40 je ne connais pas beaucoup de client qui ont le pouvoir d'obtenir ce genre d'engagement d'EMC... (ni des autres constructeurs du secteur)
b/ Si EMC ne s'engage pas comme souhaité, vous pouvez vous appuyer sur des partenaires qui savent faire ça, et qui sont plus souple pour vous proposer des contrats et des engagement de maintenance sur-mesure...
Vu la parc installé EMC VNX, je te rassure: presques tous les problèmes sont déjà connus, et la bonne personnes chez EMC connait les ficelles pour régler ton problème de façon très efficace, le plus difficile étant de trouver la KB applicable à ton problèmre... Je doute que ton problème ai été inconnu d'EMC avant qu'il ne se produise...
Bien qu'EMC ne soit pas d'accord, une grand partie du problème a été géré en Inde. Ensuite nous sommes passé sur le support Américain, et étrangement le problème s'est corrigé assez vite.
Bon courage,Benoît
-----Message d'origine----- De : FRsAG [mailto:frsag-bounces@frsag.org] De la part de Alexandre Envoyé : jeudi 14 avril 2016 13:53 À : French SysAdmin Group Objet : [FRsAG] Les engagements sur la fiabilité du matériel
Bonjour à tous,
je me permets de vous partager une mésaventure, cela permettra peut-être à certain de ne pas faire la même erreur que nous.
Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une opération programmée par EMC pour une mise à jour, le service à été interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les détails. Conclusion, après ouverture d'un ticket chez EMC, le service n'a pu être rétabli que 9H plus tard.
L'origine du dysfonctionnement viendrait d'un groupe de disques qui hébergeraient le "soft" des control station (CS), l'un des disques aurait fait des problèmes d'écriture.
J'ai plusieurs problème avec ce discourt :
- comment une baie blindée de disque puisse avoir ce type de problème ? - comment ce type de problème n'a pas pu être détecté avant (s'il y en avait un) ? - comment un procédure de mise à jour n'a pas détectée ce type de problème (si la mise à jour est à l'origine du problème) ?
Côté EMC c'est très vague. Il y a deux affirmations :
La personne en charge du ticket incident, aurait du nous prévenir que l'opération serait longue, nous aurions pu basculer sur une autre infra.
EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon point de vu désengage EMC de toutes responsabilité.
Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement que nous pourrons rien y faire.
Mes questions :
- Qu'aurions-nous du faire pour que EMC s'engage sur un taux de
disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?
- Il n'y a t'il pas des engagements sur le délais de rétablissement
d'un service ?
- Avez-vous eu un problème similaire dernièrement ?
Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. Je partage juste un message officiel.
Merci par avance pour vos retours.
Alexandre. _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/