BetterUptime - Fonctionnement vu de l’extérieur

- Alertes générales : Observation de la majorité des services critiques publiques.
Avertissement sur Slack et appel téléphonique + SMS auprès du CTO et ses devops en cas d’indisponibilité supérieure à 5 minutes.
- Possibilité d’avoir une liste dédiée par client
- Possibilité de s’inscrire par email pour être informé des incidents en cours
Seuil d’alerte toutes les 5 minutes.
Alertes au niveau cluster k8s sur GCP
Sondes VictoriaMetrics & AlertManager
- Audience interne uniquement : avertissement sur Slack

- Observation complète de chaque service
- Graphique d’observation sur Grafana

Seuil d’alerte en temps réel
Observations complète des logs via Loki
- Audience interne uniquement
- Visibilité des logs sur Grafana

Alertes sur utilisation de systèmes interconnectés
Pour permettre l’émission de SMS, plusieurs services vont être utilisés. Si la bonne santé de ces services est déjà prise en compte par les modalités du chapitre précédent, ces services peuvent avoir des désynchronisations pouvant entraîner une rupture dans une fonctionnalité bout en bout.