Astreinte Informatique 24/7 : Comment Ça Marche ?

PagerDuty, escalades, équipe mutualisée : transparence totale sur nos process

Publié le 21 janvier 2025 Temps de lecture : 8 min

Quand vous confiez votre infrastructure à RDEM Systems, vous voulez savoir exactement ce qui se passe quand un incident survient à 3h du matin. Cet article vous explique en détail notre organisation, nos outils et nos procédures d'astreinte. Transparence totale.

1. Notre philosophie de l'astreinte

Une astreinte efficace repose sur trois piliers :

Réactivité

80% des alertes traitées en moins de 45 minutes

Fiabilité

Escalades automatiques, jamais d'alerte ignorée

Documentation

Runbooks clients accessibles à tout moment

Nous adaptons nos horaires de couverture à vos besoins : 24/7 complet pour les infrastructures critiques, ou heures non ouvrées (HNO) uniquement si vous avez déjà une équipe en journée. Chaque contrat est calibré selon votre réalité opérationnelle.

2. PagerDuty : notre centre névralgique

Nous avons choisi PagerDuty comme plateforme centrale de gestion d'incidents. C'est l'outil de référence utilisé par les plus grandes entreprises tech (Netflix, Salesforce, IBM...) pour orchestrer leurs astreintes.

Pourquoi PagerDuty ?

  • Centralisation

    Toutes les alertes (monitoring + emails clients) arrivent au même endroit

  • Multi-canal

    Notification simultanée par appel téléphonique, SMS et push mobile

  • Escalades automatiques

    Si personne ne répond, l'alerte monte automatiquement au niveau supérieur

  • Traçabilité complète

    Horodatage de chaque action : alerte, acknowledgement, résolution

Notification triple canal

Quand une alerte est déclenchée, le technicien d'astreinte reçoit simultanément : un appel téléphonique, un SMS et une notification push sur l'application PagerDuty. Impossible de rater une alerte.

3. Comment déclencher une alerte

Deux canaux permettent de déclencher notre astreinte :

Monitoring automatique

Notre supervision détecte automatiquement les anomalies : serveur down, CPU saturé, espace disque critique, service arrêté, certificat expirant...

→ Déclenchement instantané, sans action de votre part

Email client

Vous constatez un problème non détecté par le monitoring ? Envoyez un email à votre adresse d'astreinte dédiée. L'alerte est créée instantanément dans PagerDuty.

→ Adresse email fournie à la signature du contrat

En plus de notre matrice

Les notifications PagerDuty s'ajoutent à votre propre matrice d'alerting si vous en avez une. Nous ne remplaçons pas vos alertes internes, nous les complétons avec notre couverture d'astreinte.

4. Procédure d'escalade GTI 4h

La GTI 4h est notre offre standard, adaptée aux infrastructures importantes mais non critiques. Voici le déroulement exact :

Timeline GTI 4h

M+0

Alerte déclenchée

Le technicien d'astreinte reçoit appel + SMS + push

M+30

1ère renotification

Si pas d'acknowledgement, nouvelle notification au même technicien

M+60

Escalade manager

Après 2 notifications sans réponse, le responsable d'équipe est alerté

≤ 4h

Prise en charge garantie

Un technicien travaille activement sur l'incident

En pratique

60% des alertes sont traitées dans la demi-heure, 80% dans les 45 minutes. L'escalade manager reste rare, mais elle garantit qu'aucune alerte ne passe entre les mailles du filet.

5. Procédure d'escalade GTI 1h

La GTI 1h est notre offre premium pour les infrastructures critiques (e-commerce, SaaS, applications métiers vitales). La différence majeure : deux techniciens sont d'astreinte simultanément.

Timeline GTI 1h - Double astreinte

M+0

Technicien #1 alerté

Premier technicien d'astreinte notifié immédiatement (appel + SMS + push)

M+30

Technicien #2 alerté

Si pas d'acknowledgement du #1, le second technicien est notifié en parallèle

≤ 1h

Prise en charge garantie

L'un des deux techniciens travaille activement sur l'incident

Pourquoi deux techniciens ?

La double astreinte élimine le risque humain : téléphone en silencieux, zone blanche, problème technique... Avec deux personnes en parallèle, la probabilité qu'aucune ne réponde devient quasi nulle.

Critère GTI 4h GTI 1h
Techniciens d'astreinte 1 2
Renotification Toutes les 30 min Tech #2 à M+30
Escalade manager Après ~1h Après ~1h
Usage recommandé Infra standard Infra critique

6. Déroulement d'une intervention

Une fois l'alerte prise en charge, voici comment se déroule l'intervention :

1

Acknowledgement

Le technicien confirme la prise en charge dans PagerDuty. Vous êtes notifié que quelqu'un travaille sur le problème.

2

Connexion à distance

Accès sécurisé à votre infrastructure selon les modalités définies : SSH direct, VPN client, ou bastion selon votre architecture.

3

Diagnostic

Investigation de l'incident : logs, métriques, état des services. Consultation des runbooks client si disponibles.

4

Résolution ou escalade

Action corrective si dans notre périmètre (infra, services de base, diagnostic applicatif). Sinon, documentation du problème et escalade vers vos équipes applicatives.

5

Clôture et rapport

L'incident est marqué résolu dans PagerDuty avec un résumé des actions. Post-mortem détaillé fourni sur demande.

Périmètre d'intervention

Notre astreinte couvre :

✓ Inclus dans l'astreinte

  • • Infrastructure : serveurs, VMs, stockage, réseau
  • • Services de base : web, BDD, mail, DNS
  • • Sécurité : firewall, certificats, accès
  • • Diagnostic applicatif (dans la mesure de nos capacités)
  • • Conseil et orientation si hors périmètre

→ Escalade vers vos équipes

  • • Bugs applicatifs métiers
  • • Développement / correctifs de code
  • • Problèmes fonctionnels utilisateurs
  • • Configuration applicative spécifique

Documentation et runbooks

Chaque client dispose d'un espace documentaire dans notre CRM interne. Vous pouvez également nous donner accès à votre propre wiki pour y rédiger des runbooks spécifiques. Pendant l'astreinte, nos techniciens consultent systématiquement cette documentation avant d'intervenir.

7. Notre équipe mutualisée

Notre astreinte fonctionne sur un modèle mutualisé : un pool de techniciens couvre l'ensemble de nos clients. Ce modèle présente plusieurs avantages :

Pour vous

  • Coût optimisé : vous ne payez pas un technicien dédié 24/7
  • Expertise variée : nos techniciens voient des environnements très différents
  • Pas de SPOF humain : si un technicien est indisponible, un autre prend le relais

Pour nos techniciens

  • Charge répartie : rotations qui permettent une vraie récupération
  • Moins de fatigue : moins d'alertes par personne = meilleure réactivité
  • Montée en compétences : exposition à des technologies variées

Confidentialité garantie

Chaque technicien est soumis à des clauses de confidentialité strictes. L'accès aux environnements clients est tracé et auditable. Nous pouvons fournir des rapports d'accès sur demande.

8. FAQ

Besoin d'une astreinte pour votre infrastructure ?

Contactez-nous pour discuter de vos besoins. Nous calibrerons une offre adaptée : GTI 4h ou 1h, couverture 24/7 ou HNO, avec ou sans monitoring inclus.

Articles connexes