QA Telemetry · 2026-06-21 23:56

Janela 24h/72h · Ambientes afetados 36/70 · bruto 24h 692 · 72h 3.961 · 75 queries · anterior 2026-06-21 20:30 (3h atrás) · snapshot 23:56 · copiar versão Slack/Jira ↗

🟡5 problemas pedindo ação, sem crescer. O maior: InvalidOperationException: Error refreshing sample from step ID 1756….
Leitura do analista confiança média: A falha de exportação que liderava o painel parou de aparecer. O maior volume agora é o bloqueio de envio de e-mails na Qualicorp (o servidor de e-mail recusa por exceder o limite) e segue a falha de leitura do arquivo de staging na conciliação. Confirme no Loki antes de agir.
📌 A fila técnica começa por InvalidOperationException: Error refreshing sample from… — 35 ambientes.
Precisa de ação
249 ▼ 34%
5 problemas
pico 1.257 · 15 snapshots
Acompanhar
306 ▲ 325%
17 problemas
Sem impacto
135 — estável
dev / infra
Clientes afetados
26 — estável
de 70

📈 Tendência — ~7 dias · está piorando ou melhorando?

02.4064.81115/06 14h: 4.811 erros17/06 11h: 1.865 erros17/06 14h: 4.195 erros18/06 08h: 4.038 erros18/06 14h: 2.529 erros18/06 15h: 2.726 erros18/06 16h: 3.007 erros19/06 08h: 3.284 erros19/06 14h: 2.329 erros19/06 15h: 2.615 erros20/06 15h: 1.229 erros21/06 14h: 495 erros21/06 19h: 609 erros21/06 20h: 600 erros21/06 23h: 690 erros15/0618/0618/0619/0621/0621/06
Precisa de açãoAcompanharSem impacto
📅 desde 15/06 14h · 15 leituras (uma a cada ~12h) · eixo Y = erros/24h

Detalhe por categoria desde 18/06; leituras anteriores aparecem como volume total (cinza).

ver linha do tempo detalhada — data e hora de cada leitura
02.4064.81115/06 14h: 4.811 erros17/06 11h: 1.865 erros17/06 14h: 4.195 erros18/06 08h: 4.038 erros18/06 14h: 2.529 erros18/06 15h: 2.726 erros18/06 16h: 3.007 erros19/06 08h: 3.284 erros19/06 14h: 2.329 erros19/06 15h: 2.615 erros20/06 15h: 1.229 erros21/06 14h: 495 erros21/06 19h: 609 erros21/06 20h: 600 erros21/06 23h: 690 erros15/06 14h17/06 11h17/06 14h18/06 08h18/06 14h18/06 15h18/06 16h19/06 08h19/06 14h19/06 15h20/06 15h21/06 14h21/06 19h21/06 20h21/06 23h

🧩 Saúde por módulo — qual área dói mais (24h)

🔥 Plataforma · Mensageria (Rabbit) média
139/24h
Conciliação baixa
63/24h
Notificação · E-mail alta
233/24h
ver mais 6 módulos
Integrações · Storage/SFTP média
35/24h
Analytics · Análise alta
12/24h
Processos · Cópia de arquivo alta
9/24h
ETL · Importação média
8/24h
Frontend · Tela/UI média
2/24h
Indeterminado baixa
54/24h
Módulo derivado da assinatura do erro (regra auditável; passe o mouse pra ver). alta namespace específico · média wrapper/texto · baixa só origem. Ordenado por severidade; a barra mede volume.
🎯 Resolver primeiro — o que consertar agora, por prioridade: versão nova → crescendo → vários ambientes → volume
InvalidOperationException: Error refreshing sample from step ID 1756…CRÔNICO🔬 investigar🌙 Pico de logs às 0h · fora do expediente— sem mudançacrônico (visto em 6 de 15 snapshots)
126/24h515 · 72h
Módulo Plataforma · Mensageria (Rabbit) · origem Back · 35 clientes (agibank, yamaha, edenred) · constante · vs ontem ▼2% · apareceu pela 1ª vez há 2 dias
priorizado por: 35 ambientes afetados
versão16.3.22 · 43% (+6)
O processamento da análise falha e o resultado não conclui — espalhado por mais de 40 ambientes, com destaque para o agibank.
ver diagnóstico
🧭 Onde aconteceAcontece no processamento da análise, quando a conciliação tenta abrir o arquivo temporário de staging para transformar os dados.
👁 O que o cliente vêO processamento da análise falha e o resultado não conclui — espalhado por mais de 40 ambientes, com destaque para o agibank.
🤔 Causa provávelO arquivo temporário de staging é aberto em modo somente-leitura e não existe no momento do uso — provável corrida entre apagar e ler a área temporária. É o mesmo erro que aparece no processamento (ETL) com o mesmo arquivo, e tem cara da regressão de abertura do staging em somente-leitura já observada antes. Confirme no Loki. confiança média
0h9h18h23h
A maior parte dos erros ocorre fora do horário comercial, com pico por volta das 0h — provável tarefa agendada, deploy ou infraestrutura, sem cliente na ponta.
🧵 traceId: c5f535e7-214d-4e0b-8f6… ↗ · 9a98271e-f2b3-4d0e-ab0… ↗ · 528b1939-94e1-4362-a6f… ↗
↳ at Dattos.Platform.Messaging.RabbitMqQueueFactory.<GetConnectionAsync>d__3.MoveNext() in C:\jenkins-dev\workspace\dattos-recon-net_master\Dattos.Platform.Messaging\RabbitMqQueueFac
(none): Exception in ASGI application + Exception Group Traceback…CRÔNICO🔬 investigar🌙 Pico de logs às 17h · fora do expediente— sem mudançacrônico (visto em 15 de 15 snapshots)
63/24h593 · 72h
Módulo Conciliação · origem Query · 7 clientes (127.0.0.1) · diminuindo · vs ontem ▼75% · vs ~7d ▼77% · apareceu pela 1ª vez há 6 dias
priorizado por: 7 ambientes afetados
versão16.3.24 · 84% (+2)
A amostra da análise não carrega — o usuário vê erro ou a tela fica sem dados ao montar a análise.
ver diagnóstico
🧭 Onde aconteceAcontece ao abrir ou atualizar a amostra de uma análise, quando o serviço de consulta lê os dados de origem no datalake ou no staging.
👁 O que o cliente vêA amostra da análise não carrega — o usuário vê erro ou a tela fica sem dados ao montar a análise.
🤔 Causa provávelNa maioria dos casos os arquivos de origem esperados não estão no datalake; em parte é o staging abrindo em somente-leitura. Concentra-se na versão 16.3.22. Confirme no Loki. confiança média
0h9h18h23h
A maior parte dos erros ocorre fora do horário comercial, com pico por volta das 17h — provável tarefa agendada, deploy ou infraestrutura, sem cliente na ponta.
🧵 traceId: c62bcd21-2edd-4fd2-b96… ↗
↳ File "/usr/local/lib/python3.13/site-packages/uvicorn/protocols/http/h11_impl.py", line 403, in run_asgi
SqlException: Failed to process the job '10285158': an exception…CRÔNICO🔬 investigar🕘 Pico de logs às 11h— sem mudançacrônico (visto em 6 de 15 snapshots)
24/24h157 · 72h
Módulo Indeterminado · origem Back · 10 clientes (agibank, dattos (BTG), colgate, +1) · constante · vs ontem ▼48% · apareceu pela 1ª vez há 2 dias
priorizado por: 10 ambientes afetados
versão16.3.9 · 57% (+5)
A tarefa de conciliação falha; o resultado não é gerado para o cliente, com destaque para o agibank.
ver diagnóstico
🧭 Onde aconteceAcontece ao processar uma tarefa de conciliação no banco SQL Server, quando o sistema monta uma consulta com coluna sem nome.
👁 O que o cliente vêA tarefa de conciliação falha; o resultado não é gerado para o cliente, com destaque para o agibank.
🤔 Causa provávelA consulta gerada tem uma coluna sem nome (alias vazio) — provável defeito na montagem da consulta para certos layouts. Concentrado no agibank. Confirme no Loki. confiança média
0h9h18h23h
A maior parte dos erros ocorre no horário comercial (9–18h), com pico por volta das 11h — provável impacto real de cliente.
🧵 traceId: 7f22faf2-3bd7-4123-8df… ↗
↳ at Dattos.Platform.Services.Common.DbMaintenanceJob.<SafeResultExecution>d__7.MoveNext() in C:\jenkins-dev\workspace\dattos-recon-net_master\Dattos.Platform.Services\Common\DbMaint

+ 2 que também pedem ação — veja a "Tabela completa" abaixo.

👀 17 p/ acompanhar · 4 sem impacto housekeeping — não atinge cliente

👀 Acompanhar — ainda não atinge cliente, ou já diminuindo

(none): Erro ao enviar e-mail #209699… · Back · sem crescer228/24h
BusinessException: 42000: Incorrect syntax… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico3/24h
NullReferenceException: Error refreshing… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
NpgsqlException: Erro durante importação ID… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico5/24h
PostgresException: Erro durante importação ID… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
JsonReaderException: DataEngine returned… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico7/24h
EntityException: Failed to execute polling… · Back · recorrente, sem crescer6/24h
EntityCommandExecutionException: An error… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico6/24h
ArgumentException: Erro ao enviar e-mail… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
TaskCanceledException: [SetFileStatusAsync]… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico33/24h
DirectoryNotFoundException: Could not find a… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico9/24h
FileNotFoundException: File not found on… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico1/24h
UnauthorizedAccessException: Access to the… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico1/24h
TargetInvocationException: Failed to execute… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
ArgumentNullException: Failed to process the… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
Passa para Precisa de ação se voltar a crescer e atingir 3 ou mais ambientes.

🩹 Ruído — o que vale consertar na fonte

Consertar a fonte (some do log de verdade) — não silenciar (silenciar cega o plantão). A barra usa só a janela de 24h (base 692 erros).

(none): session-init call failed for… · Dattos-Gateway · infraestrutura sem cliente
106/24h · 15%
consertar a fonte · 👤 sem dono · definir
(none): Error: ('42S02', '[42S02]… · Pipeline · sem tipo / baixo valor
29/24h · 4%
consertar a fonte · 👤 sem dono · definir
Consertando o maior ((none): session-init call…): o painel de 24h cairia de 692 para ~586.
🕘 Pico de erros às 18h uso real (9–18) vs infra/agendado

Erros que pedem atenção por hora do dia (últimas 24h). A faixa 9–18 é o horário comercial: erro que sobe nela tende a ser uso real de cliente; fora dela, costuma ser infra/deploy ou tarefa agendada (e-mail, importação).

horário comercial 9–180h6h9h12h15h18h23h261
🔁 1 novos · 1 pararam vs 2026-06-21 20:30 · 3h atrás
✅ Resolvidos (provável) — pararam de aparecer e antes pediam atenção. Parou não é o mesmo que corrigido: confirme a causa.
·
−1.343
1 de 1 sem card identificado — é o esperado: a maioria some por mudança de uso ou de dado, não por correção. Ausência de card não prova nada nos dois sentidos.
⊕ Novos ou que voltaram
⊖ Que pararam

Nenhum.

👥 26 clientes atingidos · 10 em 3+ ambientes quem e onde

🌎 Por ambiente — os totais não se somam (uma mesma falha aparece em vários)

"Outros (NoWebsite)" = evento sem ambiente identificado no registro (atribuição estimada).

🏷 Risco por versão taxa por cliente

Ranque por taxa por cliente (erros ÷ clientes que rodam a versão), nunca por contagem bruta. Piso de 3 clientes: abaixo disso é amostra fraca.

VersãoLinhagemErros (não-ruído)ClientesTaxa/cliente
16.4.016.4.x2931293 amostra fraca
16.3.2416.3.x7031703 amostra fraca
16.3.2216.3.x1.9243752
16.3.2016.3.x65165 amostra fraca
16.3.1616.3.x616 amostra fraca
16.3.916.3.x2121212 amostra fraca
15.4.1515.4.x414 amostra fraca
15.4.1115.4.x1391139 amostra fraca
15.4.415.4.x37137 amostra fraca
14.8.414.8.x414 amostra fraca
📦 Carga por cliente (volume) top por volume

Volume de erros não-ruído por cliente de produção (top 12), base deste snapshot (38 de 70 ambientes afetados em 72h). Internos e máquinas de dev fora.

qualicorp
1.316/72h
agibank
212/72h
csf-qa
168/72h
dattos (BTG)
139/72h
yamaha
80/72h
local
70/72h
edenred
64/72h
conciliadorrm
54/72h
dattos-prod.titulo.net
37/72h
ccr
30/72h
auraalmas
24/72h
colgate
17/72h
🛰 Frota — versão por cliente 46 clientes

Distribuição da frota por versão (1 barra por versão; quem está atrás da versão de produção mais comum carrega bug já corrigido). É o denominador que normaliza o risco por versão.

16.4.0
1 cliente
16.3.24 ★
1 cliente
16.3.22 ★
37 clientes
16.3.20 ★
1 cliente
16.3.16 ★
1 cliente
16.3.9 ★
1 cliente
15.4.15
1 cliente
15.4.11
1 cliente
15.4.4
1 cliente
14.8.4
1 cliente
★ = versão de produção mais comum (16.3.x)atrásna linhaà frente
ver por cliente (46)
ClienteVersão dominanteTambém vistaAtraso?
app14.8.4⚠ versão antiga
dattos-prod.titulo.net15.4.4⚠ versão antiga
dattos (BTG)15.4.11⚠ versão antiga
dattos-uat (BTG)15.4.15⚠ versão antiga
agibank16.3.9✓ atual
cliente16.3.16✓ atual
omnicom16.3.20✓ atual
123milhas16.3.22✓ atual
abc16.3.22✓ atual
ache16.3.22✓ atual
allcare16.3.22✓ atual
auraalmas16.3.22✓ atual
bayer16.3.22✓ atual
brpartners16.3.22✓ atual
bs216.3.22✓ atual
ccr16.3.22✓ atual
cofco16.3.22✓ atual
colgate16.3.22✓ atual
conciliadorrm16.3.2216.3.24✓ atual
csf-qa16.3.2216.3.24✓ atual
edenred16.3.2216.3.24✓ atual
gruposanta16.3.22✓ atual
harman16.3.22✓ atual
ipiranga16.3.22✓ atual
isacteep16.3.22✓ atual
kryptonbpo16.3.22✓ atual
laponia16.3.22✓ atual
martins16.3.22✓ atual
natura16.3.22✓ atual
operafidc16.3.22✓ atual
positivosmais16.3.22✓ atual
protege16.3.22✓ atual
pucrs16.3.22✓ atual
qualicorp16.3.22✓ atual
sales16.3.2216.3.24✓ atual
sbibhae16.3.22✓ atual
sebraemg16.3.22✓ atual
simpaul16.3.22✓ atual
stellantis16.3.22✓ atual
uniasselvi16.3.22✓ atual
vwfs16.3.22✓ atual
yamaha16.3.22✓ atual
zaffari16.3.22✓ atual
zortea16.3.22✓ atual
local16.3.2416.3.20✓ atual
local-maiglon16.4.0↑ pré-lançamento
🗂 26 grupos · fonte de investigação ordenada por volume 72h · filtrável

Fonte crua de investigação: todos os grupos com classificação por IA, versões e link Loki. A ordem por volume 72h cobre o antigo "Top 10"; use o filtro por origem para fatiar por sistema.

#ClassificaçãoTipo de erroErroSistemaCliente principalNº amb.AmbientesVersões24h72hTendência
1AcompanharFalha de envio de e-mail(none): Erro ao enviar e-mail #209699. Service not available, closing…Backqualicorp4prod14.8.4, 16.3.222281.343novo
2Precisa de açãoFalha ao carregar amostra (consulta)(none): Exception in ASGI application + Exception Group Traceback (most…Querydattos-data-engine-query-aws-16-37other, eng-internal16.3.20, 16.3.2463593— sem mudança
3Precisa de açãoConciliação não abre o arquivo de staging (somente-leitura)InvalidOperationException: Error refreshing sample from step ID 1756. Error…Backagibank35prod, demo, other, eng-internal, local, hom15.4.11, 15.4.15126515— sem mudança
4Sem impactoGateway/serviço novo falhando(none): session-init call failed for user=postgres host= Traceback (most…Dattos-GatewayNoWebsite1other16.4.0106424— sem mudança
5Precisa de açãoConciliação: coluna ausente na consulta (binder error)HttpRequestException: DataEngine returned an invalid JSON response on route…Backeng-release-fix17eng-internal, local, prod, demo16.3.22, 16.3.2423260— sem mudança
6Precisa de açãoErro de banco/SQL (conciliação)SqlException: Failed to process the job '10285158': an exception occurred…Backagibank10prod, other, local15.4.11, 15.4.424157— sem mudança
7AcompanharFalha ao gravar status de arquivo (cancelado)TaskCanceledException: [SetFileStatusAsync] Failed to set file status for…Backcsf-qa1prod16.3.2233128— sem mudança
8Sem impactoObjeto de teste ausente no banco (desenvolvimento)(none): Error: ('42S02', '[42S02] [Microsoft][ODBC Driver 18 for SQL…Pipelinesergio8prod, eng-internal, local16.3.20, 16.3.2429100— sem mudança
9Precisa de açãoConexão com a fila de mensagens caiu (Rabbit/SSL)(none): Unexpected connection close detected: StreamLostError: ("Stream…MatchingNoWebsite3other, prod16.3.24, 16.4.01368— sem mudança
10AcompanharFalha de envio de e-mailSmtpException: Erro ao enviar e-mail #209699. Service not available, closing…Backdattos (BTG)1prod15.4.11554— sem mudança
11AcompanharErro de frontend (null/undefined)FrontException: Navigation cancelled from "/analysis/CBO-1/matching-configs/23…Frontconciliadorrm15prod, local, eng-internal16.3.22, 16.3.24247— sem mudança
12AcompanharFalha ao ler resposta do motor de dados (JSON inválido)JsonReaderException: DataEngine returned non-parseable JSON on route…Backlocal5local, eng-internal, prod16.3.22, 16.3.24742— sem mudança
13Sem impactoConexão/infra do motor de dados (dev)(none): Error in _create_connection(). Traceback (most recent call last)…DataEnginelocal-maiglon2local, other16.4.0038— sem mudança
14AcompanharFalha EF/DB (interno)EntityException: Failed to execute polling task. The underlying provider…Backdattos-prod.titulo.net4prod, other15.4.4, 16.3.16637— sem mudança
15AcompanharArquivo/pasta de importação ausente (SFTP)DirectoryNotFoundException: Could not find a part of the path…Backccr1prod16.3.22930— sem mudança
16AcompanharFalha EF/DBEntityCommandExecutionException: An error occurred while reading from the…Backsergio11prod, eng-internal, demo15.4.11, 16.3.22630— sem mudança
17Acompanhar Erro de negócio (e-mail já processado)BusinessException: 42000: Incorrect syntax near ')'. (102) (SQLExecDirectW)…Backsergio5prod, hom15.4.11, 15.4.15320— sem mudança
18Acompanhar Erro de código (referência nula)NullReferenceException: Error refreshing sample from step ID 39. Referência…Backsergio3prod15.4.11, 16.3.22015— sem mudança
19Acompanhar Falha transitória de importação (banco)NpgsqlException: Erro durante importação ID 2459143 Exception while reading…Backdattos (BTG)1prod15.4.11513— sem mudança
20AcompanharErro de validação (importação/e-mail)ArgumentException: Erro ao enviar e-mail #209514. Destinatário do e-mail não…Backdattos (BTG)3prod, hom15.4.11, 15.4.15012— sem mudança
21AcompanharArquivo ausente no storageFileNotFoundException: File not found on storage Ttl. Details: FileName…Backdattos (BTG)1prod15.4.1118— sem mudança
22AcompanharErro de código (parâmetro nulo)ArgumentNullException: Failed to process the job '298259': an exception…Backeng-release-fix2eng-internal, prod16.3.22, 16.4.005— sem mudança
23Sem impactoPermissão de pasta (validação)AuthorizationException: A pasta atual não é válida de acordo com as pastas…Backedenred2prod, eng-internal16.3.22, 16.3.2404— sem mudança
24Acompanhar Erro de banco na importação (overflow)PostgresException: Erro durante importação ID 2458237 22003: integer out of…Backdattos (BTG)1prod15.4.1104— sem mudança
25AcompanharAcesso negado a arquivo (SFTP)UnauthorizedAccessException: Access to the path…Backipiranga1prod16.3.2213— sem mudança
26AcompanharFalha em tarefa agendada (reflexão)TargetInvocationException: Failed to execute polling task. Uma exceção foi…Backsergio1prod16.4.003— sem mudança
❓ Como ler este painel — régua, símbolos e limites (toque para abrir)
Os 3 baldes (regra automática, auditável)
  • Precisa de ação erro de produto/dado que atinge cliente e está crescendo (≥5 ocorrências/24h) ou aparece em ≥3 ambientes sem cair (≥8/24h).
  • Acompanhar ainda não atinge cliente, ou já está diminuindo.
  • Sem impacto só em máquina de desenvolvimento ou infraestrutura, sem cliente.
  • Saturação/capacidade (disco, pool, timeout, fila) sobe para "Precisa de ação" mesmo sem cliente — precede a falha visível.

"Atinge cliente" = ambiente que não é dev (local-*), teste (eng-*), serviço ou NoWebsite. Toda contagem tem link Loki ao lado para conferir na fonte.

Símbolos
  • 🔍 vX? hipótese de regressão de uma versão recente — a confirmar, não veredito.
  • 🔗 N incidente consolidado de N erros da mesma raiz.
  • 🎫 PRD-… card Jira candidato — confirme que é o mesmo problema.
  • 🔥 módulo mais comprometido agora · crônico visto em ≥4 snapshots.
  • em alta / constante / diminuindo = ritmo recente (24h vs 72h). ▲/▼ % = tendência vs o snapshot anterior. Eixos diferentes.
  • NOVO / ESCALANDO / CRÔNICO = apareceu agora / subiu ≥50% vs ontem ou ~7d (base curta, baixa confiança) / recorrente em ≥4 snapshots. vs ontem / vs ~7d compara com o snapshot daquele período.
Cor

vermelho = precisa de ação · amarelo = acompanhar · cinza = sem impacto. Borda esquerda mais grossa = mais volume. Card apagado = perdendo força.

⏱ Horizonte: comparações cobrem ~7 dias (14 snapshots de 12/12h); não há base "vs semana/mês passado" nem horário exato de última ocorrência. 🏷 Tipo de erro é classificado por IA (pode errar — confirme no Loki). Contagens podem ser piso quando a consulta satura.