Observabilidade & SRE

O Desafio

Sistemas distribuídos modernos apresentam desafios únicos de observabilidade:

🔀

Monitoramento fragmentado

Ferramentas diferentes para métricas, logs e traces

🔔

Alert fatigue

Bombardeio de alertas não acionáveis

🐌

Troubleshooting lento

Correlação manual entre serviços

📊

Métricas de vaidade

Não refletem experiência do usuário

💸

Custos crescentes

Volume de dados descontrolado

🔥

Firefighting constante

Sem tempo para trabalho proativo

Modelo de Maturidade Observabilidade

Níveis de Maturidade em Observabilidade

Nível 1: Reativo

Básico e fragmentado

•Logs básicos
•Métricas de infra
•Alertas ad-hoc
•Sem traces

Nível 2: Básico

Ferramentas implementadas

•Prometheus
•Dashboards básicos
•Log aggregation
•Alertas por threshold

Nível 3: Integrado

Three pillars correlacionados

•OpenTelemetry
•Distributed tracing
•SLIs definidos
•Logs estruturados
•Correlation

Nível 4: Proativo

SRE practices maduras

•SLOs & Error Budgets
•Burn rate alerts
•Chaos Engineering
•RUM/Synthetic
•Incident management

Nível 5: Otimizado

Excelência operacional

•AIOps
•Auto-remediation
•Predictive alerts
•Business metrics
•Toil < 10%

Nossa Abordagem

OpenTelemetry como Base

📈

Metrics

Histogramas com exemplars linkados a traces

📝

Logs

Estruturados com trace_id e span_id

🔗

Traces

Propagação de contexto end-to-end

🔄

Collector

Processamento, enrichment, routing

✅Vendor Neutrality

OpenTelemetry garante que você não fica preso a nenhum vendor de observabilidade.

Metrics Stack

Stack de Métricas

Coleta

Scale

Visualização

Alerting

Coleta

Prometheus

Pull-based metrics collection

Scale

Thanos/Mimir

Long-term storage e multi-cluster

Visualização

Grafana

Dashboards padronizados e mixins

Alerting

Alertmanager

Routing e deduplication

Logging Strategy

Ferramenta	Uso	Benefício
Loki	Log aggregation	Cost-effective, labels inteligentes
LogQL	Queries	Correlação com métricas
Structured	Format	JSON para parsing automático
Sampling	Alto volume	Controle de custos

Distributed Tracing

🔍

Jaeger

Self-hosted, full-featured

⏱️

Tempo

Integration com Grafana stack

📊

Service Maps

Dependency visualization

🎯

Sampling

Head/tail/error-based

SRE Practices

Jornada SRE

SLIs

SLOs

Error Budgets

Incidents

SLIs

Definição

Métricas baseadas na jornada do usuário

SLOs

Objetivos

Targets acordados com stakeholders

Error Budgets

Gerenciamento

Burn rate tracking e policies

Incidents

Gestão

Playbooks, postmortems, action items

Alerting Philosophy

💡Alertas Efetivos

Alertas baseados em sintomas (impacto no usuário), não causas (CPU alta).

Multi-window, multi-burn-rate alerting
Runbooks linkados a cada alerta
Severidade baseada em impacto no usuário
Routing inteligente por time e horário

Chaos Engineering

🐒

Chaos Monkey

Falhas de instância

☸️

Litmus Chaos

Kubernetes-native

🎮

Game Days

Exercícios planejados

🛡️

Steady State

Validação automatizada

Failure Scenarios:

Pod/Container/Node failures
Network latency e partition
DNS failures
Dependency failures

Certificações

Observability:

Grafana Certified Professional
AWS DevOps Engineer – Professional
Experiência Prometheus, Loki, Tempo, Jaeger

SRE:

Google SRE Certification
Participação em SREcon
Contribuições open source

Resultados

⚡

MTTD -70%

Detecção mais rápida de problemas

🔧

MTTR -60%

Resolução mais rápida

📉

-80% Alertas

Eliminação de ruído

💰

-50% Custos

Otimização de volume de dados