Quand vous confiez votre infrastructure à RDEM Systems, vous voulez savoir exactement ce qui se passe quand un incident survient à 3h du matin. Cet article vous explique en détail notre organisation, nos outils et nos procédures d'astreinte. Transparence totale.
1. Notre philosophie de l'astreinte
Une astreinte efficace repose sur trois piliers :
Réactivité
80% des alertes traitées en moins de 45 minutes
Fiabilité
Escalades automatiques, jamais d'alerte ignorée
Documentation
Runbooks clients accessibles à tout moment
Nous adaptons nos horaires de couverture à vos besoins : 24/7 complet pour les infrastructures critiques, ou heures non ouvrées (HNO) uniquement si vous avez déjà une équipe en journée. Chaque contrat est calibré selon votre réalité opérationnelle.
2. PagerDuty : notre centre névralgique
Nous avons choisi PagerDuty comme plateforme centrale de gestion d'incidents. C'est l'outil de référence utilisé par les plus grandes entreprises tech (Netflix, Salesforce, IBM...) pour orchestrer leurs astreintes.
Pourquoi PagerDuty ?
-
Centralisation
Toutes les alertes (monitoring + emails clients) arrivent au même endroit
-
Multi-canal
Notification simultanée par appel téléphonique, SMS et push mobile
-
Escalades automatiques
Si personne ne répond, l'alerte monte automatiquement au niveau supérieur
-
Traçabilité complète
Horodatage de chaque action : alerte, acknowledgement, résolution
Notification triple canal
Quand une alerte est déclenchée, le technicien d'astreinte reçoit simultanément : un appel téléphonique, un SMS et une notification push sur l'application PagerDuty. Impossible de rater une alerte.
3. Comment déclencher une alerte
Deux canaux permettent de déclencher notre astreinte :
Monitoring automatique
Notre supervision détecte automatiquement les anomalies : serveur down, CPU saturé, espace disque critique, service arrêté, certificat expirant...
→ Déclenchement instantané, sans action de votre part
Email client
Vous constatez un problème non détecté par le monitoring ? Envoyez un email à votre adresse d'astreinte dédiée. L'alerte est créée instantanément dans PagerDuty.
→ Adresse email fournie à la signature du contrat
En plus de notre matrice
Les notifications PagerDuty s'ajoutent à votre propre matrice d'alerting si vous en avez une. Nous ne remplaçons pas vos alertes internes, nous les complétons avec notre couverture d'astreinte.
4. Procédure d'escalade GTI 4h
La GTI 4h est notre offre standard, adaptée aux infrastructures importantes mais non critiques. Voici le déroulement exact :
Timeline GTI 4h
Alerte déclenchée
Le technicien d'astreinte reçoit appel + SMS + push
1ère renotification
Si pas d'acknowledgement, nouvelle notification au même technicien
Escalade manager
Après 2 notifications sans réponse, le responsable d'équipe est alerté
Prise en charge garantie
Un technicien travaille activement sur l'incident
En pratique
60% des alertes sont traitées dans la demi-heure, 80% dans les 45 minutes. L'escalade manager reste rare, mais elle garantit qu'aucune alerte ne passe entre les mailles du filet.
5. Procédure d'escalade GTI 1h
La GTI 1h est notre offre premium pour les infrastructures critiques (e-commerce, SaaS, applications métiers vitales). La différence majeure : deux techniciens sont d'astreinte simultanément.
Timeline GTI 1h - Double astreinte
Technicien #1 alerté
Premier technicien d'astreinte notifié immédiatement (appel + SMS + push)
Technicien #2 alerté
Si pas d'acknowledgement du #1, le second technicien est notifié en parallèle
Prise en charge garantie
L'un des deux techniciens travaille activement sur l'incident
Pourquoi deux techniciens ?
La double astreinte élimine le risque humain : téléphone en silencieux, zone blanche, problème technique... Avec deux personnes en parallèle, la probabilité qu'aucune ne réponde devient quasi nulle.
| Critère | GTI 4h | GTI 1h |
|---|---|---|
| Techniciens d'astreinte | 1 | 2 |
| Renotification | Toutes les 30 min | Tech #2 à M+30 |
| Escalade manager | Après ~1h | Après ~1h |
| Usage recommandé | Infra standard | Infra critique |
6. Déroulement d'une intervention
Une fois l'alerte prise en charge, voici comment se déroule l'intervention :
Acknowledgement
Le technicien confirme la prise en charge dans PagerDuty. Vous êtes notifié que quelqu'un travaille sur le problème.
Connexion à distance
Accès sécurisé à votre infrastructure selon les modalités définies : SSH direct, VPN client, ou bastion selon votre architecture.
Diagnostic
Investigation de l'incident : logs, métriques, état des services. Consultation des runbooks client si disponibles.
Résolution ou escalade
Action corrective si dans notre périmètre (infra, services de base, diagnostic applicatif). Sinon, documentation du problème et escalade vers vos équipes applicatives.
Clôture et rapport
L'incident est marqué résolu dans PagerDuty avec un résumé des actions. Post-mortem détaillé fourni sur demande.
Périmètre d'intervention
Notre astreinte couvre :
✓ Inclus dans l'astreinte
- • Infrastructure : serveurs, VMs, stockage, réseau
- • Services de base : web, BDD, mail, DNS
- • Sécurité : firewall, certificats, accès
- • Diagnostic applicatif (dans la mesure de nos capacités)
- • Conseil et orientation si hors périmètre
→ Escalade vers vos équipes
- • Bugs applicatifs métiers
- • Développement / correctifs de code
- • Problèmes fonctionnels utilisateurs
- • Configuration applicative spécifique
Documentation et runbooks
Chaque client dispose d'un espace documentaire dans notre CRM interne. Vous pouvez également nous donner accès à votre propre wiki pour y rédiger des runbooks spécifiques. Pendant l'astreinte, nos techniciens consultent systématiquement cette documentation avant d'intervenir.
7. Notre équipe mutualisée
Notre astreinte fonctionne sur un modèle mutualisé : un pool de techniciens couvre l'ensemble de nos clients. Ce modèle présente plusieurs avantages :
Pour vous
- Coût optimisé : vous ne payez pas un technicien dédié 24/7
- Expertise variée : nos techniciens voient des environnements très différents
- Pas de SPOF humain : si un technicien est indisponible, un autre prend le relais
Pour nos techniciens
- Charge répartie : rotations qui permettent une vraie récupération
- Moins de fatigue : moins d'alertes par personne = meilleure réactivité
- Montée en compétences : exposition à des technologies variées
Confidentialité garantie
Chaque technicien est soumis à des clauses de confidentialité strictes. L'accès aux environnements clients est tracé et auditable. Nous pouvons fournir des rapports d'accès sur demande.
8. FAQ
Besoin d'une astreinte pour votre infrastructure ?
Contactez-nous pour discuter de vos besoins. Nous calibrerons une offre adaptée : GTI 4h ou 1h, couverture 24/7 ou HNO, avec ou sans monitoring inclus.
Articles connexes
Combien coûte une astreinte informatique ?
Tarifs, modèles de facturation et comparatifs
GTI, GTR, SLA : guide complet
Comprendre et négocier vos engagements de service
Externaliser son astreinte 24/7
Avantages, organisation et critères de choix
Réglementation de l'astreinte en France
Code du travail et obligations légales