Bonjour,
je fais passer l'info ici car je pense qu'elle peut vous intéresser.
L'appel à conférence pour Open Source Experience 2023 est ouvert :
https://sessionize.com/open-source-experience-2023
L'événement a lieu les 6 et 7 décembre à Paris. Le CFP sera clos le 25 juin.
Clément.
alut, le soucis d'après ce que tu dis c'est que tu est dans un mode SCRUM, pas adapté du tout à de la prod/exploit/MCO .C'est très hype de faire le l'agile et du SCRUM mais passe plutot dans un mode kanban voir scrumban si le client y tien, mais adopte aussi une approche ITIL, certes moins souple et moins "agile" mais plus efficace dans ce type d'environnement. C'est essentiellement des process a adopter (CR après un incident en prod, mise en place d'une équipe de réponse lors de l'incident, comité de validation des changements, ...) et non un outil. Si tu ne maitrises pas fait appel à un spécialiste ou forme toi.Pour les outils type confluence je sais d'expérience que si personne ne se dévoues pour maintenir et créer une norme/process de mise à jour/intégration des informations, ce truc c'est juste un trou noir ou disparaissent les infos ...Olivier.
Le mercredi 19 avril 2023 à 23:55:30 UTC+2, Ludovic Scotti <tontonlud(a)gmail.com> a écrit :
@job on est certifié SMSI (ISO 27001). Donc toutes les actions de prod sont tracées dans notre outil ITSM.Pour faire un changement en prod (hors incident), c'est ticket obligatoire, comité d'approvisionnement de changement et une fois que tu as l'autorisation, tu peux faire le changement.
Sur incident c'est un peut plus guinguette, mais c'est tracé tout de même, au bon vouloir de ce celui qui traite l'incident.Derrière on a des incident managers qui vérifient ce qui est fait sur incident.
Ludovic
Le mer. 19 avr. 2023, 15:38, Etienne Magro via FRsAG <frsag(a)frsag.org> a écrit :
Bonjour à tous,
Vous utilisez quoi, pour historisez vos actions en prod ?
Aujourd'hui, on utilise du jira pour les actions futures à faire et ce que les clients nous demande, on a aussi un tableau dans un confluence pour y inscrire les actions (manuelles ou manuellement déclenchées) qu'on fait sur les serveurs, sans compter le chat interne et notre supervision. C'est pas génial pour s'y retrouver et faire le lien entre Toto qui a modifié une conf nginx à la main la semaine dernière en douce, suite à une alerte supervision ou une demande des chefs et Bibi qui cherche pourquoi son /var/log explose depuis. Surtout si le ticket jira n'existe pas/plus et qu'on a oublié de compléter le tableau à what-mille-lignes.
Donc avec l'équipe, on est en pleine réflexion sur comment on peut standardiser ça, et "enforcer" une procédure (avec éventuellement un nouvel outil pour les remplacer tous). Vous faites comment, vous ?
Etienne
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
FRsAG
|
|
| |
FRsAG
|
|
|
Bonjour,
Le lun. 24 avr. 2023 à 09:14, Michaël Costa via FRsAG <frsag(a)frsag.org> a
écrit :
> Nous utilisons également NFS de manière intensive. Est-ce que tu peux
> donner des détails sur l'incident que vous avez rencontré (réponse en
> privé si tu ne veux pas exposer tout ça sur la liste) ?
> Une autre de tes remarques nous a également interrogé: "ils n'ont pas la
> même pression du downtime", est-ce que tu parles ici du support
> PureStorage ou du prestataire a qui vous aviez extarnalisé ?
>
Nous avons eu un souci en décembre 2020. PureStorage nous annonce qu'une
mise à jour urgente doit être faite en raison de l'expiration d'un
certificat interne au 1er janvier ...
On teste la mise à jour sur une baie hors prod, tout se passe bien, et on
donne notre feu vert.
La mise à jour est faite avec succès un soir à 22h, fin vers 1h30 du matin
(oui c'est assez long, maintenant c'est environ une heure. Dans tous les
cas, la coupure réelle est d'environ 30s lors de la bascule de contrôleur).
Vers 5h du matin, nos sondes de monitoring nous alertent d'une forte
dégradation des perfs. RAS de notre côté, on suspecte rapidement la maj
d'être à l'origine du problème.
L'escalade au téléphone est "rapide" et on a quelqu'un sur le dossier en
moins de 15 minutes, mais tu as d'abord le niveau 1 qui te prend pour Mme
Michu.
Au bout de 3h environ, et après plusieurs escalades chez eux, ils trouvent
enfin l'origine du problème : un chown trop fréquent sur un même fichier
(plusieurs fois par seconde) via NFS.
Ils déploient un "quickfix" sur la baie qui corrige le problème, mais
celui-ci revient à deux reprises dans les 48h suivantes. Ils trouvent alors
le problème de base, un snapshot de janvier "corrompu". On le supprime, ils
relancent une vérification intégrale d'intégrité et tout fonctionne bien.
Depuis, plusieurs mises à jour sont venues corriger le problème de base, et
la baie supporte sans souci des mises à jour fréquentes de metadata via NFS.
Pour le "pas la même pression du downtime", je veux dire par là que quand
tu achètes ce genre de matos, le jour où t'as un incident de prod, tu dois
juste attendre, c'est très frustrant. Là en 3h pour corriger le souci, j'ai
quand même l'impression que l'escalade a mis presque 2h avant de solliciter
un ingé pointu sur le sujet. Dans l'intervalle tu as des gens qui viennent
récupérer les logs de la baie, vérifier les trucs de base (l'équivalent de
"votre ordi est bien allumé ?"), etc.
Il n'y a aucun intermédiaire chez nous, on est en direct avec pureStorage.
>
> Dernière question, hormis la doc succincte, quelles limites as-tu
> rencontrées avec l'API REST ?
>
Les premières implémentations ne gèrent pas le multi user, donc tous tes
scripts doivent embarquer le root login/password. C'est très très moche.
Depuis quelques versions il y a de l'oauth, c'est déjà plus complet.
Ce qui est appréciable c'est que la GUI utilise elle-même l'API, donc si tu
cherches comment faire un truc, tu peux juste ouvrir la developer toolbar :)
A noter par contre que toutes les mises à jour passent par eux, tu n'as pas
la main là dessus. Un créneau horaire est planifié et le suivi est fait par
email. Le temps de coupure réel d'une mise à jour est de 30 secondes
environ. C'est préférable de faire ça en HNO car ça fait quand même de
petits bagots et hausses de latences sur le process.
Pour le prix du renouvellement du support, je ne peux pas répondre : à
l'origine on avait négocié 5 ans de support d'un coup pour avoir un bon
prix, donc je pourrais vous dire ça l'année prochaine :p
Olivier
Bonjour à tous,
Vous utilisez quoi, pour historisez vos actions en prod ?
Aujourd'hui, on utilise du jira pour les actions futures à faire et ce que les clients nous demande, on a aussi un tableau dans un confluence pour y inscrire les actions (manuelles ou manuellement déclenchées) qu'on fait sur les serveurs, sans compter le chat interne et notre supervision. C'est pas génial pour s'y retrouver et faire le lien entre Toto qui a modifié une conf nginx à la main la semaine dernière en douce, suite à une alerte supervision ou une demande des chefs et Bibi qui cherche pourquoi son /var/log explose depuis. Surtout si le ticket jira n'existe pas/plus et qu'on a oublié de compléter le tableau à what-mille-lignes.
Donc avec l'équipe, on est en pleine réflexion sur comment on peut standardiser ça, et "enforcer" une procédure (avec éventuellement un nouvel outil pour les remplacer tous). Vous faites comment, vous ?
Etienne
Bonjour @ tous,
Je cherche une société pouvant faire une formation sur Azure Kubernetes
Service (AKS) + Réseau Azure ?
Merci d'avance, bien à vous
Hugo