Monitoring Serveur :
Les KPIs Essentiels
Surveiller les bons indicateurs permet de détecter les problèmes avant qu'ils n'impactent vos utilisateurs. Voici les KPIs indispensables et comment les configurer.
Les 8 KPIs essentiels à monitorer
1. Utilisation CPU
Le processeur est souvent le premier goulot d'étranglement. Une utilisation CPU trop élevée ralentit toutes les opérations.
Normal
< 70%
Attention
70-85%
Critique
> 85%
À surveiller aussi : Load average (1, 5, 15 min), I/O wait, steal time (VM)
2. Mémoire RAM
Le manque de RAM force le système à utiliser le swap (disque), ce qui dégrade fortement les performances.
Normal
< 80%
Attention
80-90%
Critique
> 90% ou swap actif
À surveiller aussi : Swap usage, OOM killer events, cache/buffers
3. Espace disque
Un disque plein peut bloquer complètement un serveur. Les bases de données et les logs sont les premiers coupables.
Normal
< 70%
Attention
70-85%
Critique
> 85%
À surveiller aussi : Inodes, I/O latency, SMART status (disques physiques)
4. Réseau
La bande passante et la latence réseau impactent directement l'expérience utilisateur.
- Throughput : débit entrant/sortant (Mbps)
- Latence : temps de réponse (ms)
- Packet loss : paquets perdus (%)
- Connexions : nombre de connexions TCP actives
5. Disponibilité (Uptime)
La métrique la plus importante : votre serveur répond-il aux requêtes ?
Checks à configurer :
- • Ping ICMP (disponibilité réseau)
- • Check HTTP (code 200, temps de réponse)
- • Check ports critiques (SSH, base de données)
- • Check applicatif (endpoint /health)
6. Services applicatifs
Vérifiez que vos services critiques tournent et répondent correctement.
Serveur web
Apache/Nginx : processus, workers, connexions
Base de données
MySQL/PostgreSQL : connexions, queries/s, slow queries
PHP-FPM
Workers actifs, queue, temps de traitement
Cache
Redis/Memcached : hit ratio, mémoire utilisée
7. Sauvegardes
Une sauvegarde qui n'est pas vérifiée n'existe pas. Monitorez vos backups — et surtout le résultat du verify-job, pas seulement le succès apparent du backup-job.
- Statut du dernier backup (succès/échec)
- Date du dernier backup réussi
- Taille du backup (détection d'anomalies)
- Espace de stockage disponible
8. Sécurité
Détectez les tentatives d'intrusion et les comportements anormaux.
- Échecs d'authentification SSH
- Connexions depuis des IP inconnues
- Modifications de fichiers critiques
- Certificats SSL proches de l'expiration
Bonnes pratiques d'alerting
Évitez l'alert fatigue
Trop d'alertes tue l'alerte. Si votre équipe reçoit 100 notifications par jour, elle ne regardera plus. Configurez des seuils réalistes et regroupez les alertes similaires.
Utilisez des temporisations
Un pic de CPU de 3 secondes n'est pas un problème. Configurez des alertes qui se déclenchent uniquement si le seuil est dépassé pendant X minutes.
Priorisez les alertes
Distinguez les alertes critiques (SMS/appel) des alertes informatives (email). Le serveur web down = appel immédiat. Disque à 75% = email pour action sous 24h.
Surveillez aussi la dérive d'horloge
KPI silencieux mais critique : si vos serveurs ne sont plus synchronisés (NTP en panne, source perdue), vos logs deviennent incohérents et certaines authentifications cassent — voir le REX d'un audit passant de 4,2 s à <50 ms de dérive. Ajoutez un check sur l'offset NTP.
Monitoring inclus dans notre infogérance
Nos forfaits dès 70€/mois (heures ouvrées) ou 150€/mois (24x7) incluent le monitoring de tous ces KPIs, avec alerting intelligent et intervention en cas d'incident. Besoin d'une supervision Proxmox infogéré ? Nous gérons aussi vos clusters.