Bonjour,
Je n'ai pas encore reçu de RFO sur cette panne électrique donc je ne
donnerai pas de détails sur ce qui s'est passé. C'est la 2ème panne majeure
sur ce DC en 14 mois: en octobre 2013 c'est la clim qui avait arrêtée de
fonctionner...
Petite récap des conséquences physiques :
- 2 PDU APC ont cramé
- l'ensemble de mes équipements a redémarré au moins une fois
- une bonne dizaine de serveurs ont redémarrés électriquement et aucun
d'entre eux n'a causé de problèmes
- un voisin, je ne sais pas qui, a perdu 12 serveurs qui ne redémarreront
jamais ...
Au final, j'aurais perdu peu de matériel, et heureusement parce que je
n'avais pas assez de spares.
Ce n'est pas ma première panne datacenter, mais c'est aussi dans ce cas
qu'on peut juger de la qualité des constructeurs :
- Serveurs Dell, rien à dire à partir des R320. Les vieux 1950 et 2950
tiennent toujours la route comme au début. La gamme des R200 est
insuffisante en terme de qualité physique.
- Brocade : il faut du haut de gamme. Le milieu de gamme ne tient pas les
montées de température. Par exemple, mes vieux FESX de 8 ans sont monté à
105° et fonctionnent toujours contrairement aux FCX de 3 ans qui ont tous
arrêter de fonctionner. Mais un FESX coute le double d'un FCX ...
- APC : c'est sensé être du haut de gamme et pourtant ... ils sont trop
sensible à la température et arrêtent de fonctionner les un après les
autres, à la moindre hausse de T° ... (Je n'ai que du switched)
- KVM Dell (en réalité du Advocent) : RAS.
Maintenant au niveau business :
- on a perdu 3h d'activité, perte sèche de CA
- l'activité est revenue complètement à la normale en ~8h
Ce qui ramène aux conclusions stratégiques et managériales :
- on est en plein dans le "nobody known what I do until I don't do it", du
coup quand tout fonctionne l'équipe ops se retrouve à faire de plus en plus
autre chose que son métier, comme du développement
- les Ops sont tout de même responsables car ... c'est dans leur
responsabilité
- les économies faites sur le matériel coûtent finalement bien plus cher ...
Tout ça ce sont des évidences auxquelles nous avons été et nous sommes
confrontés régulièrement. Cette panne m'aura fait prendre quelques cheveux
blancs supplémentaires, et m'aura donné l'occasion de croiser le regard
déçu de mon patron ... mais aussi de redéfinir les priorités.
Même quand tout fonctionne, les sysadmin doivent faire évoluer une archi,
et pas que pour des raisons de sécu ou de perfs.
Donc la question du trolldi est: est-ce qu'il est nécessaire d'avoir de
temps en temps une grosse panne à gérer ? C'est paradoxale ...
Greg