QA Telemetry · 2026-06-22 08:46

Janela 24h/72h · Ambientes afetados 31/74 · bruto 24h 807 · 72h 3.743 · 84 queries · anterior 2026-06-21 23:56 (9h atrás) · snapshot 08:46 · copiar versão Slack/Jira ↗

🟡5 problemas pedindo ação, sem crescer. O maior: (none): [SetFileStatusAsync] External storage API returned NotFound….
Precisa de ação
572 ▲ 134%
5 problemas
pico 1.023 · 15 snapshots
Acompanhar
131 ▼ 57%
18 problemas
Sem impacto
101 ▼ 25%
dev / infra
Clientes afetados
25 — estável
de 74

📈 Tendência — ~7 dias · está piorando ou melhorando?

02.0984.19517/06 11h: 1.865 erros17/06 14h: 4.195 erros18/06 08h: 4.038 erros18/06 14h: 2.529 erros18/06 15h: 2.726 erros18/06 16h: 3.007 erros19/06 08h: 3.284 erros19/06 14h: 2.329 erros19/06 15h: 2.615 erros20/06 15h: 1.229 erros21/06 14h: 495 erros21/06 19h: 609 erros21/06 20h: 600 erros21/06 23h: 690 erros22/06 08h: 804 erros17/0618/0619/0620/0621/0622/06
Precisa de açãoAcompanharSem impacto
📅 desde 17/06 11h · 15 leituras (uma a cada ~12h) · eixo Y = erros/24h

Detalhe por categoria desde 18/06; leituras anteriores aparecem como volume total (cinza).

ver linha do tempo detalhada — data e hora de cada leitura
02.0984.19517/06 11h: 1.865 erros17/06 14h: 4.195 erros18/06 08h: 4.038 erros18/06 14h: 2.529 erros18/06 15h: 2.726 erros18/06 16h: 3.007 erros19/06 08h: 3.284 erros19/06 14h: 2.329 erros19/06 15h: 2.615 erros20/06 15h: 1.229 erros21/06 14h: 495 erros21/06 19h: 609 erros21/06 20h: 600 erros21/06 23h: 690 erros22/06 08h: 804 erros17/06 11h17/06 14h18/06 08h18/06 14h18/06 15h18/06 16h19/06 08h19/06 14h19/06 15h20/06 15h21/06 14h21/06 19h21/06 20h21/06 23h22/06 08h

🧩 Saúde por módulo — qual área dói mais (24h)

🔥 Integrações · Storage/SFTP média
263/24h
Conciliação baixa
63/24h
Plataforma · Mensageria (Rabbit) média
13/24h
ver mais 6 módulos
ETL · Carga de Análise (ETL) baixa
41/24h
Processos · Cópia de arquivo alta
9/24h
Notificação · E-mail alta
7/24h
Analytics · Análise alta
6/24h
Frontend · Tela/UI média
2/24h
Indeterminado baixa
299/24h
Módulo derivado da assinatura do erro (regra auditável; passe o mouse pra ver). alta namespace específico · média wrapper/texto · baixa só origem. Ordenado por severidade; a barra mede volume.
🎯 Resolver primeiro — o que consertar agora, por prioridade: versão nova → crescendo → vários ambientes → volume
(none): [SetFileStatusAsync] External storage API returned NotFound…🌐 config externa🌙 Pico de logs às 18h · fora do expediente— sem mudança
228/24h1.341 · 72h
Módulo Integrações · Storage/SFTP · origem Back · Concentrado em 1 cliente: qualicorp (98% dos casos) · constante · apareceu pela 1ª vez visto hoje
priorizado por: 4 ambientes afetados
versão16.3.22 · 100% (+1)
Os arquivos esperados da Sulamérica (cliente Qualicorp) não são encontrados no armazenamento e a importação não conclui para esses arquivos.
ver diagnóstico
🧭 Onde aconteceAcontece na importação agendada de arquivos, quando o sistema confirma no armazenamento externo a situação de cada arquivo recebido.
👁 O que o cliente vêOs arquivos esperados da Sulamérica (cliente Qualicorp) não são encontrados no armazenamento e a importação não conclui para esses arquivos.
🤔 Causa provávelO fluxo procura arquivos que ainda não chegaram, ou já foram movidos, no armazenamento externo — provável descompasso entre o horário do agendamento e a entrega dos arquivos pelo cliente. Concentrado quase totalmente na Qualicorp, versão 16.3.22. Confirme no Loki. confiança média
📋 Regras do móduloimport-business-rules.md ↗ — leia as regras de negócio de Integrações pra confirmar qual se aplica
0h9h18h23h
A maior parte dos erros ocorre fora do horário comercial, com pico por volta das 18h — provável tarefa agendada, deploy ou infraestrutura, sem cliente na ponta.
🧵 traceId: a3d8c9af-775a-4dac-abd… ↗ · c028270e-f848-48d6-b5d… ↗
↳ at Dattos.Platform.Services.Workflows.WorkflowExecutorJob.<>c__DisplayClass29_0.<<RunAsync>b__0>d.MoveNext() in C:\jenkins-dev\workspace\dattos-recon-net_master\Dattos.Platform.Ser
InvalidOperationException: Error calling service 'pipeline'…ESCALANDO ·?🔬 investigar🌙 Pico de logs às 0h · fora do expediente— sem mudançacrônico (visto em 7 de 15 snapshots)
223/24h565 · 72h
Módulo Indeterminado · origem Back · 35 clientes (agibank, yamaha, edenred) · constante · vs ontem ▲305% · apareceu pela 1ª vez há 2 dias
priorizado por: 35 ambientes afetados
versão16.3.22 · 39% (+6)
A extração de amostra falha e o resultado não conclui — espalhado por mais de trinta ambientes, crescendo nas últimas 24 horas.
ver diagnóstico
🧭 Onde aconteceAcontece no processamento da análise, quando o sistema pede a extração de amostra ao serviço de pipeline.
👁 O que o cliente vêA extração de amostra falha e o resultado não conclui — espalhado por mais de trinta ambientes, crescendo nas últimas 24 horas.
🤔 Causa provávelA chamada de extração de amostra ao pipeline estoura o tempo de conexão com o banco SQL Server (login timeout). É a mesma causa que aparece no serviço de pipeline. Como atinge desde versões antigas até a mais nova, parece capacidade ou rede do banco, não uma regressão de versão recente. Confirme no Loki. confiança média
0h9h18h23h
A maior parte dos erros ocorre fora do horário comercial, com pico por volta das 0h — provável tarefa agendada, deploy ou infraestrutura, sem cliente na ponta.
🧵 traceId: a3d8c9af-775a-4dac-abd… ↗ · c028270e-f848-48d6-b5d… ↗
↳ at Dattos.Platform.Services.Workflows.WorkflowExecutorJob.<>c__DisplayClass29_0.<<RunAsync>b__0>d.MoveNext() in C:\jenkins-dev\workspace\dattos-recon-net_master\Dattos.Platform.Ser
(none): Exception in ASGI application + Exception Group Traceback…ESCALANDO ·?🔬 investigar🌙 Pico de logs às 17h · fora do expediente— sem mudançacrônico (visto em 15 de 15 snapshots)
63/24h581 · 72h
Módulo Conciliação · origem Query · 7 clientes (127.0.0.1) · diminuindo · vs ontem ▲530% · vs ~7d ▼88% · apareceu pela 1ª vez há 4 dias
priorizado por: 7 ambientes afetados
versão16.3.24 · 84% (+2)
A amostra da análise não carrega — o usuário vê erro ou a tela fica sem dados ao montar a análise.
ver diagnóstico
🧭 Onde aconteceAcontece ao abrir ou atualizar a amostra de uma análise, quando o serviço de consulta lê os arquivos de origem no datalake.
👁 O que o cliente vêA amostra da análise não carrega — o usuário vê erro ou a tela fica sem dados ao montar a análise.
🤔 Causa provávelOs arquivos de origem esperados não estão no datalake (nenhum arquivo encontrado no padrão buscado em S3). Concentra-se em ambientes internos e de homologação, não em cliente de produção. Confirme no Loki. confiança média
0h9h18h23h
A maior parte dos erros ocorre fora do horário comercial, com pico por volta das 17h — provável tarefa agendada, deploy ou infraestrutura, sem cliente na ponta.
🧵 traceId: c62bcd21-2edd-4fd2-b96… ↗
↳ File "/usr/local/lib/python3.13/site-packages/uvicorn/protocols/http/h11_impl.py", line 403, in run_asgi

+ 2 que também pedem ação — veja a "Tabela completa" abaixo.

👀 18 p/ acompanhar · 3 sem impacto housekeeping — não atinge cliente

👀 Acompanhar — ainda não atinge cliente, ou já diminuindo

EntityCommandExecutionException: An error… · Back · recorrente, sem crescer8/24h
BusinessException: 42000: Incorrect syntax… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico3/24h
NullReferenceException: Error refreshing… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
NpgsqlException: Erro durante importação ID… · Back · crescendo · ⚠ só temos o número, sem diagnóstico6/24h
PostgresException: Erro durante importação ID… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
(none): Error: ('HYT00', '[HYT00]… · Pipeline · recorrente, sem crescer24/24h
JsonReaderException: DataEngine returned… · Back · recorrente, sem crescer8/24h
EntityException: Failed to execute polling… · Back · recorrente, sem crescer6/24h
ArgumentException: Erro ao enviar e-mail… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
TaskCanceledException: [SetFileStatusAsync]… · Back · recorrente, sem crescer33/24h
DirectoryNotFoundException: Could not find a… · Back · recorrente, sem crescer9/24h
FileNotFoundException: File not found on… · Back · diminuindo · ⚠ só temos o número, sem diagnóstico1/24h
UnauthorizedAccessException: Access to the… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico1/24h
TargetInvocationException: Failed to execute… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
ArgumentNullException: Failed to process the… · Back · recorrente, sem crescer · ⚠ só temos o número, sem diagnóstico0/24h
Passa para Precisa de ação se voltar a crescer e atingir 3 ou mais ambientes.

🩹 Ruído — o que vale consertar na fonte

Consertar a fonte (some do log de verdade) — não silenciar (silenciar cega o plantão). A barra usa só a janela de 24h (base 807 erros).

(none): session-init call failed for… · Dattos-Gateway · infraestrutura sem cliente
101/24h · 13%
consertar a fonte · 👤 sem dono · definir
Consertando o maior ((none): session-init call…): o painel de 24h cairia de 807 para ~706.
🕘 Pico de erros às 18h uso real (9–18) vs infra/agendado

Erros que pedem atenção por hora do dia (últimas 24h). A faixa 9–18 é o horário comercial: erro que sobe nela tende a ser uso real de cliente; fora dela, costuma ser infra/deploy ou tarefa agendada (e-mail, importação).

horário comercial 9–180h6h9h12h15h18h23h264
🔁 0 novos · 0 pararam vs 2026-06-21 23:56 · 9h atrás
⊕ Novos ou que voltaram

Nenhum grupo novo.

⊖ Que pararam

Nenhum.

👥 25 clientes atingidos · 10 em 3+ ambientes quem e onde

🌎 Por ambiente — os totais não se somam (uma mesma falha aparece em vários)

"Outros (NoWebsite)" = evento sem ambiente identificado no registro (atribuição estimada).

🏷 Risco por versão taxa por cliente

Ranque por taxa por cliente (erros ÷ clientes que rodam a versão), nunca por contagem bruta. Piso de 3 clientes: abaixo disso é amostra fraca.

VersãoLinhagemErros (não-ruído)ClientesTaxa/cliente
16.4.016.4.x2841284 amostra fraca
16.3.2416.3.x7982399 amostra fraca
16.3.2216.3.x1.9203751.9
16.3.2016.3.x70170 amostra fraca
16.3.1616.3.x616 amostra fraca
16.3.916.3.x2111211 amostra fraca
15.4.1515.4.x414 amostra fraca
15.4.1115.4.x1371137 amostra fraca
15.4.415.4.x37137 amostra fraca
14.8.414.8.x212 amostra fraca
📦 Carga por cliente (volume) top por volume

Volume de erros não-ruído por cliente de produção (top 12), base deste snapshot (62 de 74 ambientes afetados em 72h). Internos e máquinas de dev fora.

qualicorp
1.316/72h
agibank
211/72h
csf-qa
170/72h
dattos (BTG)
137/72h
edenred
93/72h
yamaha
81/72h
local
75/72h
conciliadorrm
59/72h
dattos-prod.titulo.net
37/72h
ccr
30/72h
auraalmas
24/72h
colgate
17/72h
🛰 Frota — versão por cliente 47 clientes

Distribuição da frota por versão (1 barra por versão; quem está atrás da versão de produção mais comum carrega bug já corrigido). É o denominador que normaliza o risco por versão.

16.4.0
1 cliente
16.3.24 ★
2 clientes
16.3.22 ★
37 clientes
16.3.20 ★
1 cliente
16.3.16 ★
1 cliente
16.3.9 ★
1 cliente
15.4.15
1 cliente
15.4.11
1 cliente
15.4.4
1 cliente
14.8.4
1 cliente
★ = versão de produção mais comum (16.3.x)atrásna linhaà frente
ver por cliente (47)
ClienteVersão dominanteTambém vistaAtraso?
app14.8.4⚠ versão antiga
dattos-prod.titulo.net15.4.4⚠ versão antiga
dattos (BTG)15.4.11⚠ versão antiga
dattos-uat (BTG)15.4.15⚠ versão antiga
agibank16.3.9✓ atual
cliente16.3.16✓ atual
omnicom16.3.20✓ atual
abc16.3.22✓ atual
ache16.3.22✓ atual
allcare16.3.22✓ atual
auraalmas16.3.22✓ atual
bayer16.3.22✓ atual
brpartners16.3.22✓ atual
bs216.3.22✓ atual
ccr16.3.22✓ atual
cofco16.3.22✓ atual
colgate16.3.22✓ atual
conciliadorrm16.3.2216.3.24✓ atual
csf-qa16.3.2216.3.24✓ atual
edenred16.3.2216.3.24✓ atual
gruposanta16.3.22✓ atual
harman16.3.22✓ atual
ipiranga16.3.22✓ atual
isacteep16.3.22✓ atual
kryptonbpo16.3.22✓ atual
laponia16.3.22✓ atual
martins16.3.22✓ atual
natura16.3.22✓ atual
operafidc16.3.22✓ atual
positivosmais16.3.22✓ atual
protege16.3.22✓ atual
pucrs16.3.22✓ atual
qualicorp16.3.22✓ atual
sales16.3.2216.3.24✓ atual
sbibhae16.3.22✓ atual
sebraemg16.3.22✓ atual
simpaul16.3.22✓ atual
solinftec16.3.22✓ atual
stellantis16.3.22✓ atual
uniasselvi16.3.22✓ atual
vwfs16.3.22✓ atual
yamaha16.3.22✓ atual
zaffari16.3.22✓ atual
zortea16.3.22✓ atual
local16.3.2416.3.20✓ atual
123milhas16.3.24✓ atual
local-maiglon16.4.0↑ pré-lançamento
🗂 26 grupos · fonte de investigação ordenada por volume 72h · filtrável

Fonte crua de investigação: todos os grupos com classificação por IA, versões e link Loki. A ordem por volume 72h cobre o antigo "Top 10"; use o filtro por origem para fatiar por sistema.

#ClassificaçãoTipo de erroErroSistemaCliente principalNº amb.AmbientesVersões24h72hTendência
1Precisa de açãoFalha ao confirmar arquivo no armazenamento (não encontrado)(none): [SetFileStatusAsync] External storage API returned NotFound for…Backqualicorp4prod14.8.4, 16.3.222281.341— sem mudança
2Precisa de açãoFalha ao carregar amostra (consulta)(none): Exception in ASGI application + Exception Group Traceback (most…Querydattos-data-engine-query-aws-16-37other, eng-internal16.3.20, 16.3.2463581— sem mudança
3Precisa de açãoAmostra/análise falha ao chamar o pipeline (tempo de banco esgotado)InvalidOperationException: Error calling service 'pipeline', operation…Backhomolog35demo, prod, other, eng-internal, local, hom15.4.11, 15.4.15223565— sem mudança
4Sem impactoGateway/serviço novo falhando(none): session-init call failed for user=postgres host= Traceback (most…Dattos-GatewayNoWebsite1other16.4.0101224▼ 47%
5AcompanharAmostra não carrega: arquivos do datalake ausentesHttpRequestException: Error refreshing sample from step ID 1706. IO Error: No…Backlocal17local, prod, eng-internal, demo16.3.22, 16.3.2423203▼ 22%
6Precisa de açãoErro de banco/SQL (conciliação)SqlException: Failed to process the job '3905': an exception occurred. An…Backagibank10prod, other, local15.4.11, 15.4.445156— sem mudança
7AcompanharFalha ao confirmar arquivo no armazenamento (tempo esgotado)TaskCanceledException: [SetFileStatusAsync] Failed to set file status for…Backcsf-qa1prod16.3.2233128— sem mudança
8AcompanharTempo de conexão ao banco esgotado (extração de amostra)(none): Error: ('HYT00', '[HYT00] [Microsoft][ODBC Driver 18 for SQL…Pipelinesergio8prod, eng-internal, local16.3.20, 16.3.2424102— sem mudança
9Precisa de açãoConexão com a fila de mensagens caiu (Rabbit/SSL)(none): Unexpected connection close detected: StreamLostError: ("Stream…MatchingNoWebsite3other, prod16.3.24, 16.4.01368— sem mudança
10AcompanharFalha de envio de e-mail (limite do servidor)SmtpException: Erro ao enviar e-mail #209729. Service not available, closing…Backdattos (BTG)1prod15.4.11751— sem mudança
11AcompanharErro de frontend (navegação cancelada/null)FrontException: Navigation cancelled from "/analysis/CBO-1/matching-configs/23…Frontconciliadorrm16prod, local, eng-internal, demo16.3.22, 16.3.24248— sem mudança
12AcompanharResposta inválida do motor de dados (503)JsonReaderException: DataEngine returned non-parseable JSON on route…Backlocal5local, eng-internal, prod16.3.22, 16.3.24842— sem mudança
13Sem impactoConexão/infra do motor de dados (dev)(none): Error in _create_connection(). Traceback (most recent call last)…DataEnginelocal-maiglon2local, other16.4.0038— sem mudança
14AcompanharFalha EF/DB (interno)EntityException: Failed to execute polling task. The underlying provider…Backdattos-prod.titulo.net4prod, other15.4.4, 16.3.16637— sem mudança
15Acompanhar Falha ao ler do banco (EF/DB)EntityCommandExecutionException: An error occurred while reading from the…Backsergio11prod, demo, eng-internal15.4.11, 16.3.22834— sem mudança
16AcompanharPasta de importação SFTP ausente (CCR)DirectoryNotFoundException: Could not find a part of the path…Backccr1prod16.3.22930— sem mudança
17Acompanhar Erro de sintaxe SQL no ETLBusinessException: 42000: Incorrect syntax near ')'. (102) (SQLExecDirectW)…Backsergio5prod, hom15.4.11, 15.4.15320— sem mudança
18Acompanhar Erro de código (referência nula) na amostraNullReferenceException: Error refreshing sample from step ID 39. Referência…Backsergio3prod15.4.11, 16.3.22015— sem mudança
19Acompanhar Falha transitória de importação (banco)NpgsqlException: Erro durante importação ID 2459159 Exception while reading…Backdattos (BTG)1prod15.4.11613— sem mudança
20AcompanharErro de validação (e-mail sem destinatário)ArgumentException: Erro ao enviar e-mail #209514. Destinatário do e-mail não…Backdattos (BTG)3prod, hom15.4.11, 15.4.15012— sem mudança
21AcompanharArquivo ausente no storage (PAN/BTG)FileNotFoundException: File not found on storage Ttl. Details: FileName…Backdattos (BTG)1prod15.4.1118— sem mudança
22AcompanharErro de código (parâmetro nulo)ArgumentNullException: Failed to process the job '298259': an exception…Backeng-release-fix2eng-internal, prod16.3.22, 16.4.005— sem mudança
23Sem impactoPermissão de pasta (validação)AuthorizationException: A pasta atual não é válida de acordo com as pastas…Backedenred2prod, eng-internal16.3.22, 16.3.2404— sem mudança
24Acompanhar Erro de banco na importação (overflow)PostgresException: Erro durante importação ID 2458237 22003: integer out of…Backdattos (BTG)1prod15.4.1104— sem mudança
25AcompanharAcesso negado a arquivo (SFTP/Ipiranga)UnauthorizedAccessException: Access to the path…Backipiranga1prod16.3.2213— sem mudança
26AcompanharFalha em tarefa agendada (reflexão)TargetInvocationException: Failed to execute polling task. Uma exceção foi…Backsergio1prod16.4.003— sem mudança
❓ Como ler este painel — régua, símbolos e limites (toque para abrir)
Os 3 baldes (regra automática, auditável)
  • Precisa de ação erro de produto/dado que atinge cliente e está crescendo (≥5 ocorrências/24h) ou aparece em ≥3 ambientes sem cair (≥8/24h).
  • Acompanhar ainda não atinge cliente, ou já está diminuindo.
  • Sem impacto só em máquina de desenvolvimento ou infraestrutura, sem cliente.
  • Saturação/capacidade (disco, pool, timeout, fila) sobe para "Precisa de ação" mesmo sem cliente — precede a falha visível.

"Atinge cliente" = ambiente que não é dev (local-*), teste (eng-*), serviço ou NoWebsite. Toda contagem tem link Loki ao lado para conferir na fonte.

Símbolos
  • 🔍 vX? hipótese de regressão de uma versão recente — a confirmar, não veredito.
  • 🔗 N incidente consolidado de N erros da mesma raiz.
  • 🎫 PRD-… card Jira candidato — confirme que é o mesmo problema.
  • 🔥 módulo mais comprometido agora · crônico visto em ≥4 snapshots.
  • em alta / constante / diminuindo = ritmo recente (24h vs 72h). ▲/▼ % = tendência vs o snapshot anterior. Eixos diferentes.
  • NOVO / ESCALANDO / CRÔNICO = apareceu agora / subiu ≥50% vs ontem ou ~7d (base curta, baixa confiança) / recorrente em ≥4 snapshots. vs ontem / vs ~7d compara com o snapshot daquele período.
Cor

vermelho = precisa de ação · amarelo = acompanhar · cinza = sem impacto. Borda esquerda mais grossa = mais volume. Card apagado = perdendo força.

⏱ Horizonte: comparações cobrem ~7 dias (14 snapshots de 12/12h); não há base "vs semana/mês passado" nem horário exato de última ocorrência. 🏷 Tipo de erro é classificado por IA (pode errar — confirme no Loki). Contagens podem ser piso quando a consulta satura.