Guide Technique

Monitoring Serveur :
Les KPIs Essentiels

Surveiller les bons indicateurs permet de détecter les problèmes avant qu'ils n'impactent vos utilisateurs. Voici les KPIs indispensables et comment les configurer.

Les 8 KPIs essentiels à monitorer

1. Utilisation CPU

Le processeur est souvent le premier goulot d'étranglement. Une utilisation CPU trop élevée ralentit toutes les opérations.

Normal

< 70%

Attention

70-85%

Critique

> 85%

À surveiller aussi : Load average (1, 5, 15 min), I/O wait, steal time (VM)

2. Mémoire RAM

Le manque de RAM force le système à utiliser le swap (disque), ce qui dégrade fortement les performances.

Normal

< 80%

Attention

80-90%

Critique

> 90% ou swap actif

À surveiller aussi : Swap usage, OOM killer events, cache/buffers

3. Espace disque

Un disque plein peut bloquer complètement un serveur. Les bases de données et les logs sont les premiers coupables.

Normal

< 70%

Attention

70-85%

Critique

> 85%

À surveiller aussi : Inodes, I/O latency, SMART status (disques physiques)

4. Réseau

La bande passante et la latence réseau impactent directement l'expérience utilisateur.

Throughput : débit entrant/sortant (Mbps)
Latence : temps de réponse (ms)
Packet loss : paquets perdus (%)
Connexions : nombre de connexions TCP actives

5. Disponibilité (Uptime)

La métrique la plus importante : votre serveur répond-il aux requêtes ?

Checks à configurer :

• Ping ICMP (disponibilité réseau)
• Check HTTP (code 200, temps de réponse)
• Check ports critiques (SSH, base de données)
• Check applicatif (endpoint /health)

6. Services applicatifs

Vérifiez que vos services critiques tournent et répondent correctement.

Serveur web

Apache/Nginx : processus, workers, connexions

Base de données

MySQL/PostgreSQL : connexions, queries/s, slow queries

PHP-FPM

Workers actifs, queue, temps de traitement

Cache

Redis/Memcached : hit ratio, mémoire utilisée

7. Sauvegardes

Une sauvegarde qui n'est pas vérifiée n'existe pas. Monitorez vos backups — et surtout le résultat du verify-job, pas seulement le succès apparent du backup-job.

Statut du dernier backup (succès/échec)
Date du dernier backup réussi
Taille du backup (détection d'anomalies)
Espace de stockage disponible

8. Sécurité

Détectez les tentatives d'intrusion et les comportements anormaux.

Échecs d'authentification SSH
Connexions depuis des IP inconnues
Modifications de fichiers critiques
Certificats SSL proches de l'expiration

Bonnes pratiques d'alerting

Évitez l'alert fatigue

Trop d'alertes tue l'alerte. Si votre équipe reçoit 100 notifications par jour, elle ne regardera plus. Configurez des seuils réalistes et regroupez les alertes similaires.

Utilisez des temporisations

Un pic de CPU de 3 secondes n'est pas un problème. Configurez des alertes qui se déclenchent uniquement si le seuil est dépassé pendant X minutes.

Priorisez les alertes

Distinguez les alertes critiques (SMS/appel) des alertes informatives (email). Le serveur web down = appel immédiat. Disque à 75% = email pour action sous 24h.

Surveillez aussi la dérive d'horloge

KPI silencieux mais critique : si vos serveurs ne sont plus synchronisés (NTP en panne, source perdue), vos logs deviennent incohérents et certaines authentifications cassent — voir le REX d'un audit passant de 4,2 s à <50 ms de dérive. Ajoutez un check sur l'offset NTP.

Guide PDF : L'Astreinte Sereine

Organisation, coûts réels, cadre légal français

Télécharger

Monitoring inclus dans notre infogérance

Nos forfaits dès 70€/mois (heures ouvrées) ou 150€/mois (24x7) incluent le monitoring de tous ces KPIs, avec alerting intelligent et intervention en cas d'incident. Besoin d'une supervision Proxmox infogéré ? Nous gérons aussi vos clusters.

Demander un devis Appel découverte 15 min Voir nos tarifs