QA Telemetry · 2026-06-29 08:33

Janela 24h/72h · Ambientes afetados 29/162 · bruto 24h 507 · 72h 3.537 · 72 queries · anterior 2026-06-28 14:35 (18h atrás) · snapshot 08:33 · copiar versão Slack/Jira ↗

🟢 nada pede ação
🟢Nada exige ação agora. 21 problemas para acompanhar e 3 problemas sem impacto no cliente.
Precisa de ação
0 ▼ 100% caindo
0 problemas
série curta (15 pontos)
Acompanhar
493 ▲ 175% subindo
21 problemas
Sem impacto
11 ▼ 93% caindo
dev / infra
Clientes afetados
29 — estável
de 162

📈 Tendência — ~7 dias · está piorando ou melhorando?

01.6933.38522/06 08h: 804 erros22/06 11h: 2.066 erros22/06 16h: 2.856 erros23/06 08h: 3.385 erros24/06 09h: 2.381 erros24/06 14h: 2.382 erros25/06 08h: 2.141 erros25/06 14h: 2.007 erros26/06 09h: 2.541 erros26/06 14h: 2.370 erros27/06 12h: 1.826 erros27/06 14h: 1.686 erros28/06 10h: 922 erros28/06 14h: 612 erros29/06 08h: 504 erros22/0623/0625/0626/0628/0629/06
Último snapshot: 0 erros que pedem ação, 493 para acompanhar, 11 sem impacto.
Precisa de açãoAcompanharSem impacto
📅 desde 22/06 08h · 15 leituras (uma a cada ~12h) · eixo Y = erros/24h
ver linha do tempo detalhada — data e hora de cada leitura
01.6933.38522/06 08h: 804 erros22/06 11h: 2.066 erros22/06 16h: 2.856 erros23/06 08h: 3.385 erros24/06 09h: 2.381 erros24/06 14h: 2.382 erros25/06 08h: 2.141 erros25/06 14h: 2.007 erros26/06 09h: 2.541 erros26/06 14h: 2.370 erros27/06 12h: 1.826 erros27/06 14h: 1.686 erros28/06 10h: 922 erros28/06 14h: 612 erros29/06 08h: 504 erros22/06 08h22/06 11h22/06 16h23/06 08h24/06 09h24/06 14h25/06 08h25/06 14h26/06 09h26/06 14h27/06 12h27/06 14h28/06 10h28/06 14h29/06 08h

🧩 Saúde por módulo — qual área dói mais (24h)

🔥 ETL · Importação média
44/24h
Conciliação · Casamento de transações média
270/24h
Analytics · Automação de fluxo alta
71/24h
ver mais 8 módulos
Persistência · Banco da plataforma (SQL Server) média
18/24h
Frontend · Tela/UI média
15/24h
Plataforma · Mensageria (Rabbit) média
13/24h
Processos · Cópia de arquivo alta
9/24h
Integrações · Storage/SFTP média
7/24h
Notificação · E-mail alta
5/24h
Fechamento · Processo de fechamento alta
1/24h
Indeterminado baixa
40/24h
Módulo derivado da assinatura do erro (regra auditável; passe o mouse pra ver). alta namespace específico · média wrapper/texto · baixa só origem. Ordenado por severidade; a barra mede volume.
🎯 Resolver primeiro — o que consertar agora, por prioridade: versão nova → crescendo → vários ambientes → volume

Nada exige ação agora.

📊 Gráficos — toda a análise visual num lugar só. Tudo derivado dos snapshots gravados, mesma régua da Triagem.
🎯 O que atacar — impacto — quem dói, em quem, e quantos itens pedem ação

🏆 Top ofensores por volume — com cliente mais impactado — 24h · eixo fixo (maior = 270) · cor = balde de ação

270/24h
👤 mais impactado: dattos-data-engine-query-aws-16-3 · 71% · espalhado por 5 ambientes
68/24h
👤 mais impactado: yamaha · 18% · espalhado por 36 ambientes
36/24h
👤 mais impactado: agibank · 76% · espalhado por 5 ambientes
33/24h
👤 mais impactado: opea · 36% · espalhado por 13 ambientes
18/24h
👤 mais impactado: agibank · 55% · espalhado por 8 ambientes
15/24h
👤 mais impactado: edenred · 30% · espalhado por 18 ambientes
13/24h
👤 mais impactado: NoWebsite · 86% · espalhado por 11 ambientes
9/24h
👤 mais impactado: ccr · 100% das ocorrências · v16.3.24
8/24h
👤 mais impactado: allcare · 31% · espalhado por 6 ambientes
7/24h
👤 mais impactado: eng-release-fix · 39% · espalhado por 5 ambientes
Precisa de açãoAcompanharSem impacto
A cabeça da distribuição costuma responder por boa parte da carga acionável; a cor mostra o balde de ação. Cliente e percentual vêm da coluna de ambiente do snapshot. Detalhe por linha na aba Tabela ↗.

📦 Carga por cliente — produção · não-ruído · 72h · eixo fixo (maior = 708)

edenred
708/72h
qualicorp
229/72h
agibank
156/72h
dattos (BTG)
145/72h
opea
92/72h
yamaha
57/72h
sales
40/72h
holambracoop
39/72h
vwfs
34/72h
ccr
30/72h
csf-qa
25/72h
allcare
21/72h
Volume de erros não-ruído por cliente de produção (top 12); a cabeça domina e o resto é cauda longa. Detalhe por cliente na aba Contexto ↗.

🧭 Os 24 itens por classificação — contagem de itens (não de volume)

0 Precisa de ação21 Acompanhar3 Sem impacto
Poucos itens pedem ação; a maioria é monitoramento. Volume ≠ nº de itens — um único item pode somar milhares de ocorrências. Lista completa na aba Tabela ↗.
📈 Tendência no tempo — está piorando ou melhorando, e em que horário

🧪 Composição da carga por classificação — ~7 dias · cada coluna = uma leitura, normalizada a 100%

22/06 08h · 71% ação · 16% acompanhar · 13% sem impacto22/06 11h · 83% ação · 12% acompanhar · 5% sem impacto22/06 16h · 78% ação · 18% acompanhar · 4% sem impacto23/06 08h · 33% ação · 67% acompanhar · 0% sem impacto24/06 09h · 48% ação · 52% acompanhar · 0% sem impacto24/06 14h · 41% ação · 58% acompanhar · 1% sem impacto25/06 08h · 38% ação · 61% acompanhar · 1% sem impacto25/06 14h · 36% ação · 64% acompanhar · 0% sem impacto26/06 09h · 44% ação · 55% acompanhar · 1% sem impacto26/06 14h · 44% ação · 55% acompanhar · 1% sem impacto27/06 12h · 26% ação · 66% acompanhar · 9% sem impacto27/06 14h · 19% ação · 66% acompanhar · 15% sem impacto28/06 10h · 34% ação · 38% acompanhar · 28% sem impacto28/06 14h · 46% ação · 29% acompanhar · 24% sem impacto29/06 08h · 0% ação · 98% acompanhar · 2% sem impacto22/06agora
Precisa de açãoAcompanharSem impacto
topo em Acompanhar: Exception in ASGI application +… 270/24htopo em Sem impacto: EntityCommandExecutionException: An… 6/24h
Não é o volume (esse está na Tendência, na aba Triagem) — é a mistura: que fração de cada leitura pedia ação. Passe o mouse numa coluna para ver as frações. Os campeões refletem a leitura atual (o topo por balde de leituras passadas não é gravado).
👀 Acompanhar & frota — o que vigiar e o denominador de risco por versão

🛰 Saúde da frota — 52 clientes por proximidade da versão de produção (16.3.x)

47 na linha (16.3.x)3 atrás2 à frente
É o denominador que normaliza o risco por versão. Os 3 atrás (app 14.8.4, dattos (BTG) 15.4.11, dattos-uat (BTG) 15.4.16) podem carregar bug já corrigido. Detalhe por cliente na aba Contexto ↗.
👀 Contexto — acompanhar · ritmo do dia · o que mudou · clientes afetados (investigação secundária)
👀 21 p/ acompanhar · 3 sem impacto housekeeping — não atinge cliente

👀 Acompanhar — ainda não atinge cliente, ou já diminuindo

Exception in ASGI application + Exception… · Query · recorrente, sem crescer270/24h
NpgsqlException: Erro durante importação ID… · Back · crescendo · ⚠ só temos o número, sem diagnóstico36/24h
SqlException: Failed to process the job… · Back · diminuindo18/24h
FrontException: An API key with the… · Front · diminuindo15/24h
NullReferenceException: Failed to process the… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico8/24h
Error: IO Error: Cannot open database… · Pipeline+Matching · diminuindo0/24h
[CALLBACK_HTTP_ERROR] correlation_id=06995a13… · Pipeline · diminuindo13/24h
ArgumentNullException: Value cannot be null… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico1/24h
ArgumentException: Erro ao enviar e-mail… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico0/24h
DirectoryNotFoundException: Could not find a… · Back · recorrente, sem crescer9/24h
Passa para Precisa de ação se voltar a crescer e atingir 3 ou mais ambientes.

🩹 Ruído — o que vale consertar na fonte

Consertar a fonte (some do log de verdade) — não silenciar (silenciar cega o plantão). A barra usa só a janela de 24h (base 507 erros).

6/24h · 1%
consertar a fonte · 👤 sem dono · definir
session-init call failed for user=snguser… · Dattos-Gateway · infraestrutura sem cliente
5/24h · 1%
consertar a fonte · 👤 sem dono · definir
Consertando o maior (EntityCommandExecutionExceptio…): o painel de 24h cairia de 507 para ~501.
🕘 Pico de erros às 18h uso real (9–18) vs infra/agendado

Erros que pedem atenção por hora do dia (últimas 24h). A faixa 9–18 é o horário comercial: erro que sobe nela tende a ser uso real de cliente; fora dela, costuma ser infra/deploy ou tarefa agendada (e-mail, importação).

horário comercial 9–180h–1h · 8 erros · 2% do dia · fora do expediente1h–2h · 1 erro · 0% do dia · fora do expediente2h–3h · 5 erros · 1% do dia · fora do expediente3h–4h · 32 erros · 6% do dia · fora do expediente4h–5h · 11 erros · 2% do dia · fora do expediente5h–6h · 14 erros · 3% do dia · fora do expediente6h–7h · 42 erros · 8% do dia · fora do expediente7h–8h · 31 erros · 6% do dia · fora do expediente8h–9h · 63 erros · 12% do dia · fora do expediente9h–10h · 54 erros · 11% do dia · horário comercial10h–11h · 10 erros · 2% do dia · horário comercial11h–12h · 3 erros · 1% do dia · horário comercial12h–13h · 11 erros · 2% do dia · horário comercial13h–14h · 2 erros · 0% do dia · horário comercial14h–15h · 3 erros · 1% do dia · horário comercial15h–16h · 2 erros · 0% do dia · horário comercial16h–17h · 6 erros · 1% do dia · horário comercial17h–18h · 90 erros · 18% do dia · horário comercial18h–19h · 102 erros · 20% do dia · pico19h–20h · 3 erros · 1% do dia · fora do expediente20h–21h · 11 erros · 2% do dia · fora do expediente21h–22h · 1 erro · 0% do dia · fora do expediente22h–23h · 1 erro · 0% do dia · fora do expediente23h–24h · 3 erros · 1% do dia · fora do expediente0h6h9h12h15h18h23h102
🔁 0 novos · 5 pararam vs 2026-06-28 14:35 · 18h atrás
✅ Resolvidos (provável) — pararam de aparecer e antes pediam atenção. Parou não é o mesmo que corrigido: confirme a causa.
·
−4
·
−4
·
−3
·
−3
4 de 4 sem card identificado — é o esperado: a maioria some por mudança de uso ou de dado, não por correção. Ausência de card não prova nada nos dois sentidos.
⊕ Novos ou que voltaram

Nenhum grupo novo.

👥 29 clientes atingidos · 10 em 3+ ambientes quem e onde

🌎 Por ambiente — os totais não se somam (uma mesma falha aparece em vários)

"Outros (NoWebsite)" = evento sem ambiente identificado no registro (atribuição estimada).

🏷 Risco por versão taxa por cliente

Ranque por taxa por cliente (erros ÷ clientes que rodam a versão), nunca por contagem bruta. Piso de 3 clientes: abaixo disso é amostra fraca.

VersãoLinhagemErros (não-ruído)ClientesTaxa/cliente
16.4.016.4.x5792289.5 amostra fraca
16.3.2516.3.x1.4131594.2
16.3.2416.3.x5012321.8
16.3.2216.3.x256736.6
16.3.2016.3.x212 amostra fraca
16.3.916.3.x1561156 amostra fraca
15.4.1615.4.x11111 amostra fraca
15.4.1115.4.x1451145 amostra fraca
14.8.414.8.x12112 amostra fraca
📦 Carga por cliente (volume) top por volume

Volume de erros não-ruído por cliente de produção (top 12), base deste snapshot (65 de 162 ambientes afetados em 72h). Internos e máquinas de dev fora.

edenred
708/72h
qualicorp
229/72h
agibank
156/72h
dattos (BTG)
145/72h
opea
92/72h
yamaha
57/72h
sales
40/72h
holambracoop
39/72h
vwfs
34/72h
ccr
30/72h
csf-qa
25/72h
allcare
21/72h
🛰 Frota — versão por cliente 52 clientes

Distribuição da frota por versão (1 barra por versão; quem está atrás da versão de produção mais comum carrega bug já corrigido). É o denominador que normaliza o risco por versão.

16.4.0
2 clientes
16.3.25 ★
15 clientes
16.3.24 ★
23 clientes
16.3.22 ★
7 clientes
16.3.20 ★
1 cliente
16.3.9 ★
1 cliente
15.4.16
1 cliente
15.4.11
1 cliente
14.8.4
1 cliente
★ = versão de produção mais comum (16.3.x)atrásna linhaà frente
ver por cliente (52)
ClienteVersão dominanteTambém vistaAtraso?
app14.8.4⚠ versão antiga
dattos (BTG)15.4.11⚠ versão antiga
dattos-uat (BTG)15.4.16⚠ versão antiga
agibank16.3.9✓ atual
cea16.3.20✓ atual
brpartners16.3.2216.3.25✓ atual
celcoin16.3.2216.3.25✓ atual
conciliadorrm16.3.22✓ atual
granado16.3.22✓ atual
martins16.3.22✓ atual
uniasselvi16.3.22✓ atual
zaffari16.3.22✓ atual
allcare16.3.2416.3.25✓ atual
atlas16.3.24✓ atual
auraalmas16.3.24✓ atual
bs216.3.24✓ atual
ccr16.3.2416.3.25✓ atual
cervejariacidadeimperial16.3.24✓ atual
cofco16.3.24✓ atual
colgate16.3.2416.3.25✓ atual
f2jinterlagos16.3.24✓ atual
gbmx16.3.24✓ atual
ipiranga16.3.2416.3.25✓ atual
kryptonbpo16.3.2416.3.25✓ atual
laponia16.3.24✓ atual
natura16.3.24✓ atual
opea16.3.2416.3.25✓ atual
operafidc16.3.24✓ atual
sebraemg16.3.24✓ atual
simpaul16.3.2416.3.25✓ atual
travelex16.3.24✓ atual
unimedprudente16.3.24✓ atual
volks16.3.2416.3.25✓ atual
vwfs16.3.24✓ atual
yamaha16.3.2416.3.25✓ atual
qualicorp16.3.2516.3.22✓ atual
sales16.3.2516.3.22✓ atual
edenred16.3.2516.3.24✓ atual
123milhas16.3.25✓ atual
ache16.3.25✓ atual
bayer16.3.25✓ atual
cobasi16.3.25✓ atual
csf-qa16.3.25✓ atual
grupomodenaesilva16.3.25✓ atual
holambracoop16.3.25✓ atual
nutrien16.3.25✓ atual
orizon16.3.25✓ atual
pirelli_csa16.3.25✓ atual
protege16.3.25✓ atual
solinftec16.3.25✓ atual
gaspar16.4.0↑ pré-lançamento
local-denis16.4.0↑ pré-lançamento
🗂 24 grupos · fonte de investigação — ordenada por volume 72h · filtrável por origem

Fonte crua de investigação: todos os grupos com classificação por IA, versões e link Loki. A ordem por volume 72h cobre o antigo "Top 10"; use o filtro por origem para fatiar por sistema.

#ClassificaçãoTipo de erroErroSistemaCliente principalNº amb.AmbientesVersões24h72hTendência
1Acompanhar Falha no serviço de Consulta (motor de dados)Exception in ASGI application + Exception Group Traceback (most recent call…Querydattos-data-engine-query-aws-16-35other16.3.25, 16.4.0270705— sem mudança
2AcompanharFalha de conexão do pipeline com o servidor de mensagens (tempo esgotado)[CALLBACK_HTTP_ERROR] correlation_id=06995a13-59d9-4ef5-acf9-000915882c2e…PipelineNoWebsite11other, prod, eng-internal, dev, local16.3.25, 16.4.013521— sem mudança
3AcompanharErro de código (parâmetro nulo)ArgumentNullException: Value cannot be null. Parameter name: source Value…Backedenred5prod, eng-internal16.3.22, 16.3.241493— sem mudança
4Sem impactoGateway/serviço novo falhandosession-init call failed for user=snguser host= Traceback (most recent call…Dattos-GatewayNoWebsite1other16.4.05404— sem mudança
5AcompanharExecução de fluxo: parte não roda por status, parte falha ao chamar o pipelineInvalidOperationException: [SchedulePolling] Error processing rule 26 for…Backyamaha36prod, other, eng-internal, dev, demo, local15.4.11, 16.3.2068323▼ 55%
6AcompanharFalha ao enviar requisição ao motor de dadosHttpRequestException: IO Error: No files found that match the pattern…Backopea13prod, eng-internal, dev, local16.3.22, 16.3.2433243▼ 29%
7AcompanharFalha de storage externoFailed to process the job '723758': an exception occurred. An object or…Backqualicorp2prod14.8.4, 16.3.224234▼ 43%
8AcompanharErro de banco/SQL (conciliação)SqlException: Failed to process the job '2020': an exception occurred. An…Backagibank8prod, hom, other, demo, local15.4.11, 15.4.1618100▼ 25%
9AcompanharPasta de importação fora da configuração (autorização)AuthorizationException: A pasta atual não é válida de acordo com as pastas…Backedenred2prod, eng-internal16.3.24, 16.3.25090▼ 49%
10Acompanhar Falha transitória de importação (banco)NpgsqlException: Erro durante importação ID 2472878 Exception while reading…Backagibank5prod15.4.11, 16.3.253676▲ 36%
11AcompanharErro de tela no controle de licença (propriedade indefinida)FrontException: An API key with the description provided already exists. An…Frontedenred18prod, eng-internal, dev, demo16.3.22, 16.3.241564▼ 54%
12Acompanhar Erro de código (referência nula) na amostraNullReferenceException: Failed to process the job '10343628': an exception…Backallcare6prod15.4.11, 16.3.24842▼ 28%
13AcompanharFalha de envio de e-mail (limite do servidor)SmtpException: Erro ao enviar e-mail #210712. Service not available, closing…Backdattos (BTG)1prod15.4.11541▼ 35%
14Sem impactoFalha ao ler do banco (EF/DB)EntityCommandExecutionException: An error occurred while reading from the…Backedenred10prod, local, hom15.4.16, 16.3.22636— sem mudança
15AcompanharResposta inválida do motor de dados (503)JsonReaderException: DataEngine returned non-parseable JSON on route…Backeng-release-fix5eng-internal, dev, prod16.3.25, 16.4.0733▼ 25%
16AcompanharPasta de importação (SFTP) não encontradaDirectoryNotFoundException: Could not find a part of the path…Backccr1prod16.3.24, 16.3.25930— sem mudança
17AcompanharAgente de IA de SQL indisponível e erros de sintaxe no ETLBusinessException: datasource/from-file failed (analysisId=11) Agent service…Backcolgate10prod, eng-internal, local16.3.22, 16.3.24027▼ 25%
18AcompanharFalha ao confirmar arquivo no armazenamento (tempo esgotado)TaskCanceledException: [SetFileStatusAsync] Failed to set file status for…Backcsf-qa1prod16.3.25020▼ 74%
19AcompanharArquivo de importação ausente no armazenamentoFileNotFoundException: File not found on storage Ttl. Details: FileName…Backdattos (BTG)1prod15.4.11216— sem mudança
20AcompanharErro de validação (e-mail sem destinatário)ArgumentException: Erro ao enviar e-mail #210720. Destinatário do e-mail não…Backdattos (BTG)4prod, eng-internal15.4.11, 16.3.24015▼ 56%
21AcompanharFalha EF/DB (interno)EntityException: Failed to execute polling task. The underlying provider…Backgaspar2prod16.3.24, 16.4.036— sem mudança
22Sem impactoFalha ao identificar o ambiente do cliente na requisiçãoHttpResponseException: Processing of the HTTP request resulted in an…BackNoWebsite1other16.4.004— sem mudança
23Acompanhar Conciliação: base temporária aberta em modo somente-leitura (DuckDB)Error: IO Error: Cannot open database "/mnt/staging/<id>/<hash>_step.duckdb"…Pipeline+Matchingvolks3prod, eng-internal16.3.25, 16.4.004▼ 60%
24AcompanharAcesso negado a arquivo de importação (SFTP)UnauthorizedAccessException: Access to the path…Backipiranga1prod16.3.24, 16.3.2513▼ 25%
❓ Ajuda — como ler este painel · seções que ligam quando a coleta acumular dado
❓ Como ler este painel — régua, símbolos e limites (toque para abrir)
Os 3 baldes (regra automática, auditável)
  • Precisa de ação erro de produto/dado que atinge cliente e está crescendo (≥5 ocorrências/24h) ou aparece em ≥3 ambientes sem cair (≥8/24h).
  • Acompanhar ainda não atinge cliente, ou já está diminuindo.
  • Sem impacto só em máquina de desenvolvimento ou infraestrutura, sem cliente.
  • Saturação/capacidade (disco, pool, timeout, fila) sobe para "Precisa de ação" mesmo sem cliente — precede a falha visível.

"Atinge cliente" = ambiente que não é dev (local-*), teste (eng-*), serviço ou NoWebsite. Toda contagem tem link Loki ao lado para conferir na fonte.

Símbolos
  • 🔍 vX? hipótese de regressão de uma versão recente — a confirmar, não veredito.
  • 🔗 N incidente consolidado de N erros da mesma raiz.
  • 🎫 PRD-… card Jira candidato — confirme que é o mesmo problema.
  • 🔥 módulo mais comprometido agora · crônico visto em ≥4 snapshots.
  • em alta / constante / diminuindo = ritmo recente (24h vs 72h). ▲/▼ % = tendência vs o snapshot anterior. Eixos diferentes.
  • NOVO / ESCALANDO / CRÔNICO = apareceu agora / subiu ≥50% vs ontem ou ~7d (base curta, baixa confiança) / recorrente em ≥4 snapshots. vs ontem / vs ~7d compara com o snapshot daquele período.
Cor

vermelho = precisa de ação · amarelo = acompanhar · cinza = sem impacto. Borda esquerda mais grossa = mais volume. Card apagado = perdendo força.

⏱ Horizonte: comparações cobrem ~7 dias (14 snapshots de 12/12h); não há base "vs semana/mês passado" nem horário exato de última ocorrência. 🏷 Tipo de erro é classificado por IA (pode errar — confirme no Loki). Contagens podem ser piso quando a consulta satura.