Bonjour,

Le lun. 24 avr. 2023 à 09:14, Michaël Costa via FRsAG <frsag@frsag.org> a écrit :

Nous utilisons également NFS de manière intensive. Est-ce que tu peux
donner des détails sur l'incident que vous avez rencontré (réponse en
privé si tu ne veux pas exposer tout ça sur la liste) ?

Une autre de tes remarques nous a également interrogé: "ils n'ont pas la
même pression du downtime", est-ce que tu parles ici du support
PureStorage ou du prestataire a qui vous aviez extarnalisé ?

Nous avons eu un souci en décembre 2020. PureStorage nous annonce qu'une mise à jour urgente doit être faite en raison de l'expiration d'un certificat interne au 1er janvier ...

On teste la mise à jour sur une baie hors prod, tout se passe bien, et on donne notre feu vert.

La mise à jour est faite avec succès un soir à 22h, fin vers 1h30 du matin (oui c'est assez long, maintenant c'est environ une heure. Dans tous les cas, la coupure réelle est d'environ 30s lors de la bascule de contrôleur).

Vers 5h du matin, nos sondes de monitoring nous alertent d'une forte dégradation des perfs. RAS de notre côté, on suspecte rapidement la maj d'être à l'origine du problème.

L'escalade au téléphone est "rapide" et on a quelqu'un sur le dossier en moins de 15 minutes, mais tu as d'abord le niveau 1 qui te prend pour Mme Michu.

Au bout de 3h environ, et après plusieurs escalades chez eux, ils trouvent enfin l'origine du problème : un chown trop fréquent sur un même fichier (plusieurs fois par seconde) via NFS.

Ils déploient un "quickfix" sur la baie qui corrige le problème, mais celui-ci revient à deux reprises dans les 48h suivantes. Ils trouvent alors le problème de base, un snapshot de janvier "corrompu". On le supprime, ils relancent une vérification intégrale d'intégrité et tout fonctionne bien.

Depuis, plusieurs mises à jour sont venues corriger le problème de base, et la baie supporte sans souci des mises à jour fréquentes de metadata via NFS.

Pour le "pas la même pression du downtime", je veux dire par là que quand tu achètes ce genre de matos, le jour où t'as un incident de prod, tu dois juste attendre, c'est très frustrant. Là en 3h pour corriger le souci, j'ai quand même l'impression que l'escalade a mis presque 2h avant de solliciter un ingé pointu sur le sujet. Dans l'intervalle tu as des gens qui viennent récupérer les logs de la baie, vérifier les trucs de base (l'équivalent de "votre ordi est bien allumé ?"), etc.

Il n'y a aucun intermédiaire chez nous, on est en direct avec pureStorage.

Dernière question, hormis la doc succincte, quelles limites as-tu
rencontrées avec l'API REST ?

Les premières implémentations ne gèrent pas le multi user, donc tous tes scripts doivent embarquer le root login/password. C'est très très moche. Depuis quelques versions il y a de l'oauth, c'est déjà plus complet.

Ce qui est appréciable c'est que la GUI utilise elle-même l'API, donc si tu cherches comment faire un truc, tu peux juste ouvrir la developer toolbar :)

A noter par contre que toutes les mises à jour passent par eux, tu n'as pas la main là dessus. Un créneau horaire est planifié et le suivi est fait par email. Le temps de coupure réel d'une mise à jour est de 30 secondes environ. C'est préférable de faire ça en HNO car ça fait quand même de petits bagots et hausses de latences sur le process.

Pour le prix du renouvellement du support, je ne peux pas répondre : à l'origine on avait négocié 5 ans de support d'un coup pour avoir un bon prix, donc je pourrais vous dire ça l'année prochaine :p

Olivier