Salut Grégory,
Les incidents en datacentre arrivent, j'aurais tendance à dire qu'ils arrivent à présent moins souvent avec les derniers modèles de design 2N voir plus mais comme ces datacentres sont tout neuf et qu'ils n'ont pas encore essuyé les plâtres il faudra attendre pour voir arriver les premiers problèmes.
Concernant le matériel je te rejoins sans soucis, il y a presque 10 ans nous avons eu dans un datacentre privé une grosse panne de clim en plein été caniculaire. Nous avons eu beau mettre des blocs de clim mobiles louées, des ventilos de pompiers la chaleur était intenable humainement et pourtant lorsqu'on a craint un départ d'incendie tellement les serveurs et rack étaient brulant on nous a dit noway. Pourtant ce risque était sérieux mais ça a tenu, 10h sans clim et les serveurs qui étaient en vie à la fin c'était tous les IBM et HP UX attention je parle des monstres d'y il y a 10 ans donc 4U mini et donc pas mal de place à l'intérieur pour un gros dissipateur thermique. Ce qui n'avait pas résisté à l'époque c'était tous les serveurs entrée / moyen de gamme y compris chez les constructeurs sérieux. Mais bon passer 10h dans une pièce à 70° au niveau de l'air et sans doute dépasser la centaine en interne sur les cpu / disque ce n'est pas donné à tout matériel.
Encore plus en arrière y a 14 ans pour un opérateur vert de l'époque, nous avions une salle à CBV Ldcom où nous avions demandé à avoir du 14° en température sortie de grille au sol pour qu'en haut des racks on ne dépasse pas les 19° à l'entrée des serveurs. Pourquoi? Parce que c'était que des serveurs low cost et si ils dépassaient les 25° en entrée des serveurs on perdait des composants aléatoirement. Mais par contre on avait pour 200 serveurs en pièce détachée l'équivalent d'une quinzaine. Quand on rackait on avait tellement froid qu'on allai se réchauffer derrière les serveurs Prost Grand Prix qui chauffaient fort, souvenirs :D
Après pour parler revenues, si une activité ne peut supporter quelques heures de coupures c'est qu'il est temps en effet de rallonger le budget pour mettre une redondance en place sur 2 DC et faire le développement nécessaire pour que les applications suivent. Ou alors faire comme un client il y a 10 ans où Google était tombé en panne un dimanche après midi pendant 5h soit on accédait pas à leurs sites, soit les résultats renvoyés étaient loufoques. Le client dépendait tellement du référencement que plus de 90% de ses visites ont disparus pendant ce temps. Le manque a gagné en pub était autour de 25K€. Le lendemain ils s'assuraient en perte de CA ce qui leur a coûté 10% de leur CA annuel. Je sais pas si avec le recul et la chute des revenus publicitaires cela leur a servi à nouveau mais c'est aussi une solution pour lisser la perte sans trop sortir de moyens techniques.
Et pour ta question, oui une architecture ça s'entretient, si tu passes sur autre chose en interne c'est que l'infra n'est pas critique ou alors qu'il est temps de sous traiter la gestion quotidienne en infogérance.
++