Observabilité·

LGTM Stack chez WizOps: Loki au Cœur de l'Infogérance Cloud

Plongez dans l'univers de la stack LGTM (Loki, Grafana, Tempo, Mimir) et découvrez son rôle essentiel dans l'infogérance Cloud chez WizOps.
LGTM Stack chez WizOps: Loki au Cœur de l'Infogérance Cloud

La Stack LGTM : Mon Choix pour l'Observabilité en Production

La stack LGTM (Loki, Grafana, Tempo, Mimir) est devenue mon standard pour l'observabilité sur tous les projets d'infogérance. Après avoir travaillé avec Datadog, la stack ELK, Prometheus seul, et d'autres solutions, j'en suis arrivé à la conclusion que LGTM offre le meilleur ratio fonctionnalités/coût/contrôle pour les infrastructures Kubernetes.

Je l'ai déployée chez une dizaine de clients, de la startup à 5 développeurs au grand compte dans la Défense, et elle tient ses promesses à chaque fois.

Loki : Des Logs Sans Se Ruiner

Loki est la pièce maîtresse pour la gestion des logs. Contrairement à Elasticsearch qui indexe tout le contenu des logs (et qui coûte une fortune en stockage et en RAM), Loki n'indexe que les labels. Le résultat : un coût de stockage divisé par 5 à 10 pour des volumes de logs équivalents.

En pratique, chez un client dans le secteur des médias, nous collectons environ 50 Go de logs par jour. Avec Loki + S3 comme backend de stockage, le coût mensuel est de l'ordre de 15 euros. Avec Elasticsearch, on serait facilement à 10 fois plus, sans compter la gestion des clusters.

Grafana : Le Tableau de Bord Universel

Grafana est le hub central de l'observabilité. C'est là que convergent logs, métriques et traces dans une interface unifiée. Ce que j'apprécie particulièrement, c'est la capacité à créer des dashboards corrélés : quand un pic de latence apparaît sur une métrique Prometheus, je peux en un clic passer aux logs Loki de la période concernée, puis remonter aux traces Tempo pour identifier le service responsable.

Chez un de mes clients, j'ai mis en place des dashboards Grafana avec des alertes vers Discord pour les incidents critiques. L'équipe de développement a gagné en autonomie : ils peuvent diagnostiquer eux-mêmes 80% des problèmes sans attendre l'intervention d'un ops.

Tempo : Comprendre les Chaînes d'Appels

Tempo est le composant de tracing distribué. Dans une architecture microservices, comprendre pourquoi une requête est lente nécessite de suivre son parcours à travers tous les services. Tempo capture ces traces et les rend exploitables dans Grafana.

Sur un projet chez un client dans la mobilité, le tracing Tempo nous a permis d'identifier qu'une requête API qui prenait 3 secondes passait en réalité 2,5 secondes dans un appel à un service tiers mal configuré. Sans le tracing, on aurait cherché le problème pendant des heures dans le mauvais service.

Mimir : Prometheus à l'Échelle

Mimir remplace Prometheus pour le stockage longue durée des métriques. Le problème de Prometheus seul, c'est qu'il stocke tout localement et que la rétention au-delà de quelques semaines devient problématique. Mimir offre un stockage scalable sur object storage (S3) avec une rétention configurable.

Pourquoi Pas Datadog ?

La question revient souvent. Datadog est un excellent produit, et je l'ai utilisé sur plusieurs missions (notamment chez un client MedTech sur Azure). Mais à partir d'un certain volume, la facture Datadog devient un poste budgétaire à part entière. J'ai vu des clients payer plus de 5000 euros par mois pour du monitoring. Avec la stack LGTM auto-hébergée, le même niveau de visibilité revient à une fraction de ce coût.

La stack LGTM demande plus d'expertise à mettre en place, c'est vrai. Mais c'est justement là que WizOps intervient : je déploie, configure et maintiens cette stack pour que vous bénéficiez du meilleur de l'observabilité open source sans en supporter la complexité.


RDV