Logs·

Les bonnes pratiques de gestion des logs en DevOps

Découvrez comment optimiser la gestion de vos logs en adoptant les meilleures pratiques DevOps.
Les bonnes pratiques de gestion des logs en DevOps

Les bonnes pratiques de gestion des logs en DevOps

Les logs sont la boîte noire de votre infrastructure. Quand tout va bien, personne ne les regarde. Quand ça tombe, c'est la première chose qu'on cherche. Après avoir déployé des dizaines de stacks de logging, voici ce que j'ai appris.

Centralisez vos logs avec Loki

Pendant longtemps, la stack ELK (Elasticsearch, Logstash, Kibana) était la référence. Chez SFR Business Team, c'est avec Kibana que je travaillais au quotidien pour analyser les logs de centaines de services. Mais aujourd'hui, pour la majorité de mes projets Kubernetes, je recommande Grafana Loki.

Pourquoi ? Loki est conçu pour Kubernetes, il indexe uniquement les labels (pas le contenu complet des logs), ce qui réduit considérablement les coûts de stockage. Chez Metronome, la stack Grafana + Loki + Prometheus a permis de centraliser logs et métriques dans une seule interface, avec une rétention de 30 jours pour un coût de stockage minimal.

Assurez la sécurité de vos logs

Les logs contiennent souvent des informations sensibles : tokens, identifiants, données personnelles. Chez un client certifié HDS dans la santé, j'ai mis en place un pipeline de sanitization qui masque automatiquement les données sensibles avant leur stockage. Les accès aux logs sont contrôlés par RBAC Grafana, avec des rôles distincts pour les devs, les ops et les auditeurs.

Garantissez la disponibilité et la rétention

La pire situation : avoir besoin de logs qui ont déjà été purgés. Je configure systématiquement plusieurs niveaux de rétention : 7 jours en hot storage (accès rapide), 30 jours en warm, et 90 jours en cold storage sur S3 pour les besoins de conformité. Chez un client dans le secteur de la Défense, la rétention imposée était de 12 mois -- Loki avec un backend S3 gère ça sans problème.

Alertez intelligemment sur les anomalies

Le piège classique : créer des alertes sur tout et se retrouver noyé sous les notifications. Je préfère des alertes ciblées : taux d'erreurs 5xx qui dépasse un seuil, latence P99 anormale, ou patterns d'erreurs récurrents. Chez Bloomflow, les alertes Grafana sont envoyées sur Slack avec un contexte suffisant pour que l'astreinte puisse réagir immédiatement.

Analysez les patterns pour optimiser

Les logs ne servent pas qu'au debugging. Chez Cardiologs, l'analyse des logs applicatifs a révélé des patterns de requêtes PostgreSQL lentes qui expliquaient des dégradations de performance périodiques. Sans centralisation des logs, ces corrélations auraient été impossibles à faire.

Conclusion

Une bonne gestion des logs repose sur la centralisation (Loki ou ELK), la sécurisation des données sensibles, une rétention adaptée aux besoins métier et des alertes intelligentes. C'est un investissement qui se rentabilise dès le premier incident résolu en 10 minutes au lieu de 2 heures.


RDV