Aperçu
La plateforme avait dépassé son infrastructure on‑premise, mais un “lift and hope” était impossible. Le traitement des paiements impose des exigences fortes de disponibilité et d’audit : la migration vers AWS devait être sans interruption, observable de bout en bout, et réversible à chaque étape.
Point de départ
Une partie de la connaissance infra vivait dans des scripts et dans quelques têtes. Les dépendances entre services étaient partiellement documentées, et le modèle d’exploitation (monitoring, astreinte, approbations) n’était plus aligné avec la croissance. Il fallait une migration qui réduit le risque, pas une migration qui crée une nouvelle classe d’incidents.
Objectifs & critères de succès
- Maintenir zéro interruption pour le paiement pendant les bascules
- Rendre chaque vague répétable (playbooks + checklists)
- Assurer l’auditabilité : changements traçables, accès maîtrisés, preuves
- Améliorer la confiance via une observabilité centrée sur l’impact client
- Réduire coûts et charge d’exploitation sans sacrifier la fiabilité
Ce que nous avons fait
Nous avons traité la migration comme une série de changements de production contrôlés.
- Découverte & cartographie : vue applicative et des flux de données, identification du state partagé, clarification de l’ownership.
- Fondations cloud & IaC : baseline sécurisée dans AWS (réseau, IAM, logs) et standardisation via Terraform.
- Baselines d’observabilité : dashboards et alertes alignés sur le parcours client (succès paiement, latence, erreurs).
- Vagues de migration : répétitions, gates de validation, rollbacks prêts, bascule progressive du trafic.
- Optimisation : right‑sizing, réglages stockage/BD, engagements de capacité une fois les usages stabilisés.
Décisions techniques clés
- Standardiser les changements infra via Terraform pour limiter le drift
- Prioriser une observabilité orientée SLO plutôt que des métriques internes isolées
- Concevoir des playbooks idempotents avec vérifications explicites
- Utiliser une bascule progressive du trafic pour réduire le blast radius
- Produire des runbooks en même temps que les changements (exploitation + astreinte)
Gestion des risques
- Gates de validation : checks techniques + métriques business avant chaque étape
- Rollback répété : le retour arrière est testé avant d’être “nécessaire”
- Fenêtres de changement : bascules alignées sur trafic, disponibilité des parties prenantes
- Traçabilité : changements et accès cohérents pour répondre aux attentes d’audit
Résultats
La migration s’est faite avec zéro interruption. Le nouveau modèle d’exploitation a rendu les changements plus sûrs et a réduit les coûts d’infrastructure de 35%, tout en améliorant la capacité de détection et de réponse aux incidents ayant un impact client.
Transmission & modèle d’exploitation
- Playbooks/checklists de migration réutilisables
- Runbooks et périmètres d’ownership
- Baseline monitoring/alerting centrée sur l’impact client
- Processus de changement répétable adapté à un contexte audité
Si vous vivez une situation similaire
Si vous envisagez une migration cloud et souhaitez un plan pragmatique, commencez par Audit d’infrastructure.