Bonjour,
Le lun. 24 avr. 2023 à 09:14, Michaël Costa via FRsAG <frsag(a)frsag.org> a
écrit :
> Nous utilisons également NFS de manière intensive. Est-ce que tu peux
> donner des détails sur l'incident que vous avez rencontré (réponse en
> privé si tu ne veux pas exposer tout ça sur la liste) ?
> Une autre de tes remarques nous a également interrogé: "ils n'ont pas la
> même pression du downtime", est-ce que tu parles ici du support
> PureStorage ou du prestataire a qui vous aviez extarnalisé ?
>
Nous avons eu un souci en décembre 2020. PureStorage nous annonce qu'une
mise à jour urgente doit être faite en raison de l'expiration d'un
certificat interne au 1er janvier ...
On teste la mise à jour sur une baie hors prod, tout se passe bien, et on
donne notre feu vert.
La mise à jour est faite avec succès un soir à 22h, fin vers 1h30 du matin
(oui c'est assez long, maintenant c'est environ une heure. Dans tous les
cas, la coupure réelle est d'environ 30s lors de la bascule de contrôleur).
Vers 5h du matin, nos sondes de monitoring nous alertent d'une forte
dégradation des perfs. RAS de notre côté, on suspecte rapidement la maj
d'être à l'origine du problème.
L'escalade au téléphone est "rapide" et on a quelqu'un sur le dossier en
moins de 15 minutes, mais tu as d'abord le niveau 1 qui te prend pour Mme
Michu.
Au bout de 3h environ, et après plusieurs escalades chez eux, ils trouvent
enfin l'origine du problème : un chown trop fréquent sur un même fichier
(plusieurs fois par seconde) via NFS.
Ils déploient un "quickfix" sur la baie qui corrige le problème, mais
celui-ci revient à deux reprises dans les 48h suivantes. Ils trouvent alors
le problème de base, un snapshot de janvier "corrompu". On le supprime, ils
relancent une vérification intégrale d'intégrité et tout fonctionne bien.
Depuis, plusieurs mises à jour sont venues corriger le problème de base, et
la baie supporte sans souci des mises à jour fréquentes de metadata via NFS.
Pour le "pas la même pression du downtime", je veux dire par là que quand
tu achètes ce genre de matos, le jour où t'as un incident de prod, tu dois
juste attendre, c'est très frustrant. Là en 3h pour corriger le souci, j'ai
quand même l'impression que l'escalade a mis presque 2h avant de solliciter
un ingé pointu sur le sujet. Dans l'intervalle tu as des gens qui viennent
récupérer les logs de la baie, vérifier les trucs de base (l'équivalent de
"votre ordi est bien allumé ?"), etc.
Il n'y a aucun intermédiaire chez nous, on est en direct avec pureStorage.
>
> Dernière question, hormis la doc succincte, quelles limites as-tu
> rencontrées avec l'API REST ?
>
Les premières implémentations ne gèrent pas le multi user, donc tous tes
scripts doivent embarquer le root login/password. C'est très très moche.
Depuis quelques versions il y a de l'oauth, c'est déjà plus complet.
Ce qui est appréciable c'est que la GUI utilise elle-même l'API, donc si tu
cherches comment faire un truc, tu peux juste ouvrir la developer toolbar :)
A noter par contre que toutes les mises à jour passent par eux, tu n'as pas
la main là dessus. Un créneau horaire est planifié et le suivi est fait par
email. Le temps de coupure réel d'une mise à jour est de 30 secondes
environ. C'est préférable de faire ça en HNO car ça fait quand même de
petits bagots et hausses de latences sur le process.
Pour le prix du renouvellement du support, je ne peux pas répondre : à
l'origine on avait négocié 5 ans de support d'un coup pour avoir un bon
prix, donc je pourrais vous dire ça l'année prochaine :p
Olivier