Re: [FRsAG] Retour d'expérience: panne du DC Level3

28 Nov 2014


      Salut Grégory,
Les incidents en datacentre arrivent, j'aurais tendance à dire qu'ils
arrivent à présent moins souvent avec les derniers modèles de design 2N
voir plus mais comme ces datacentres sont tout neuf et qu'ils n'ont pas
encore essuyé les plâtres il faudra attendre pour voir arriver les
premiers problèmes.
Concernant le matériel je te rejoins sans soucis, il y a presque 10 ans
nous avons eu dans un datacentre privé une grosse panne de clim en plein
été caniculaire. Nous avons eu beau mettre des blocs de clim mobiles
louées, des ventilos de pompiers la chaleur était intenable humainement
et pourtant lorsqu'on a craint un départ d'incendie tellement les
serveurs et rack étaient brulant on nous a dit noway.
Pourtant ce risque était sérieux mais ça a tenu, 10h sans clim et les
serveurs qui étaient en vie à la fin c'était tous les IBM et HP UX
attention je parle des monstres d'y il y a 10 ans donc 4U mini et donc
pas mal de place à l'intérieur pour un gros dissipateur thermique.
Ce qui n'avait pas résisté à l'époque c'était tous les serveurs entrée /
moyen de gamme y compris chez les constructeurs sérieux. Mais bon passer
10h dans une pièce à 70° au niveau de l'air et sans doute dépasser la
centaine en interne sur les cpu / disque ce n'est pas donné à tout matériel.
Encore plus en arrière y a 14 ans pour un opérateur vert de l'époque,
nous avions une salle à CBV Ldcom où nous avions demandé à avoir du 14°
en température sortie de grille au sol pour qu'en haut des racks on ne
dépasse pas les 19° à l'entrée des serveurs. Pourquoi? Parce que c'était
que des serveurs low cost et si ils dépassaient les 25° en entrée des
serveurs on perdait des composants aléatoirement. Mais par contre on
avait pour 200 serveurs en pièce détachée l'équivalent d'une quinzaine.
Quand on rackait on avait tellement froid qu'on allai se réchauffer
derrière les serveurs Prost Grand Prix qui chauffaient fort, souvenirs :D
Après pour parler revenues, si une activité ne peut supporter quelques
heures de coupures c'est qu'il est temps en effet de rallonger le budget
pour mettre une redondance en place sur 2 DC et faire le développement
nécessaire pour que les applications suivent.
Ou alors faire comme un client il y a 10 ans où Google était tombé en
panne un dimanche après midi pendant 5h soit on accédait pas à leurs
sites, soit les résultats renvoyés étaient loufoques. Le client
dépendait tellement du référencement que plus de 90% de ses visites ont
disparus pendant ce temps. Le manque a gagné en pub était autour de 25K€.
Le lendemain ils s'assuraient en perte de CA ce qui leur a coûté 10% de
leur CA annuel.
Je sais pas si avec le recul et la chute des revenus publicitaires cela
leur a servi à nouveau mais c'est aussi une solution pour lisser la
perte sans trop sortir de moyens techniques.
Et pour ta question, oui une architecture ça s'entretient, si tu passes
sur autre chose en interne c'est que l'infra n'est pas critique ou alors
qu'il est temps de sous traiter la gestion quotidienne en infogérance.
++

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

Re: [FRsAG] Retour d'expérience: panne du DC Level3