Gestion d’incident pour startups
Un processus de gestion d’incident léger et efficace : rôles, niveaux de sévérité, communication, runbooks et postmortems actionnables.
Les incidents ne signifient pas que vous “échouez”. Ils signifient que vous opérez un système réel en production. Pour une startup, le danger est de créer un process trop lourd… et donc jamais utilisé. Le but est la répétabilité : les mêmes étapes simples, à chaque incident, pour récupérer plus vite et apprendre davantage.
Garder le process petit (et constant)
Une bonne gestion d’incident early-stage vise :
- Identifier, contenir, rétablir
- Communiquer clairement
- Apprendre et réduire la récurrence
Playbook minimal (celui que votre équipe utilisera vraiment)
Étape 0 : définir ce qu’est un incident
Si vous ne “déclarez” un incident que lors d’une catastrophe, vous perdez la boucle d’apprentissage. Déclarez un incident quand :
- une fonctionnalité critique est impactée au-delà de X minutes,
- l’intégrité des données, la sécurité, ou la facturation est à risque,
- un service est dégradé au-delà d’un seuil accepté.
Étape 1 : définir des rôles (même si une personne cumule)
- Incident Commander (IC) : pilote, arbitre, maintient le focus
- Comms : mises à jour internes/externes, statut client
- Scribe : chronologie, décisions, actions
- SMEs : exécution technique (diagnostic, mitigation, fix)
Sur une petite équipe, IC et scribe peuvent être la même personne. L’essentiel est d’avoir un pilote et une trace.
Étape 2 : niveaux de sévérité simples
Définissez la sévérité par impact, pas par stress :
- Sev 0 : outage large, risque data majeur, incident sécurité actif
- Sev 1 : impact client important, fonction critique indisponible
- Sev 2 : impact limité, contournement (workaround) disponible, récupération rapide probable
- Sev 3 : mineur / near-miss, mais utile à analyser
Étape 3 : un canal, un doc, une timeline
Chaque incident doit avoir :
- un canal dédié (ex.
#inc-YYYYMMDD-titre), - un document (impact, chronologie, décisions, actions),
- une chronologie (détection, mitigation, résolution).
La cohérence réduit la charge cognitive sous pression.
Communication : la différence entre chaos et confiance
Cadence interne (par défaut)
Exemple de cadence selon sévérité :
- Sev 0 : mise à jour toutes les 15 min
- Sev 1 : toutes les 30 min
- Sev 2 : toutes les 60 min
Template externe (réutilisable)
Structure courte :
- Ce qui se passe (langage client)
- Impact (qui/quoi est affecté)
- Ce qu’on fait (mitigation en cours)
- Prochaine update (heure)
Évitez la spéculation. Si vous ne savez pas encore, dites que vous investiguez et quand vous revenez.
Pendant l’incident : checklist opérationnelle
Identifier & contenir
- Confirmer scope et impact
- Stopper l’hémorragie (flag off, rollback, isolation d’un fournisseur)
- Réduire le blast radius (rate limit, circuit breaker, dégradation contrôlée)
Rétablir
- Restaurer un niveau de service acceptable
- Valider côté utilisateur (pas uniquement via dashboards)
- Surveiller la régression
Clore
- Confirmer stabilité (métriques OK)
- Poster une mise à jour finale
- Planifier le postmortem rapidement
Runbooks : accélérer les “known fixes”
Un runbook n’a pas besoin d’être long. Un bon runbook startup :
- tient en 1–2 pages,
- est écrit en “faites ceci, puis vérifiez cela”,
- inclut rollback et avertissements.
Commencez par vos 3 types d’incident les plus fréquents.
Postmortems qui changent vraiment quelque chose
“Blameless” ne veut pas dire “pas de responsabilité”. Cela veut dire analyse système.
Structure simple
- Résumé et impact
- Timeline (faits + décisions)
- Causes racines / facteurs contributifs
- Ce qui a bien marché / moins bien marché
- Actions : propriétaires, dates, priorités
Actions efficaces
Bonnes actions = ownership clair + réduction d’impact futur :
- alerting manquant sur un signal critique,
- garde-fou CI/CD pour empêcher une régression,
- amélioration du rollback / feature flags,
- documentation et automatisation d’un runbook.
Mesures qui indiquent une amélioration
Choisissez quelques métriques et revoyez-les mensuellement :
- MTTD (temps moyen de détection)
- MTTR (temps moyen de rétablissement)
- Nombre d’incidents par sévérité
- Taux de récidive (mêmes causes)
Le but n’est pas “zéro incident”, mais des incidents moins graves, détectés plus vite, résolus plus vite.
Si vous ne savez pas par quoi commencer
Souvent, le point de départ est un audit d’infrastructure : il identifie les lacunes majeures (observabilité, runbooks, accès, déploiement) et les transforme en plan priorisé.
Besoin d’aide sur ce sujet ?
Nous aidons les équipes à mettre en place ces pratiques en production—sans complexité inutile.
Aucune préparation requise. Nous partageons un plan sous 48 heures.
Réserver un appel découverte de 20 minutes