QA Telemetry — 2026-06-12 09:24

Janela: últimas 24h e 72h · Tenants afetados: 62 (24h) / 104 (72h) de 160 · Queries Loki: 260 · Método: count_over_time (totais reais)

Leia antes do número. O stress interno de 30K arquivos PAROU (9 hits/24h; os 1.553 acumulados saem da janela até amanhã). Sem ele, o volume real de 24h é dominado pela dessincronização de step ETL: a coluna renomeada "ÁREA DE NEGOCIO NOVO" soma 570 hits/24h entre o serviço de consulta e o Back (mesma raiz, 2 grupos), e Error calling pipeline segue com 58. Estreias que merecem olho: colisão de concorrência na gravação de status (21/24h — mesmo padrão do bug de stats do Matching sob paralelismo) e credencial de importação recusada no BRSA (acionável via CS, não engenharia). RedisTimeoutException no eng-hotfix 16.3.22 segue vivo (5 hits, sessão via redis-dev — atenção k8s).
Erros (24h)
1.704
— estável
Erros (72h)
8.013
— estável
Tenants afetados
62 / 160
104 em 72h
Categorias
19
10 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

🧭 Onde acontece
Acontece durante o stress interno de carga de 30 mil arquivos no ambiente eng-hotfix — não é fluxo de cliente.
👁 O que o usuário percebe
Nenhum impacto em cliente; ruído de ambiente interno de teste.
🤔 Desconfiança
O teste consulta status de arquivos que o storage já descartou. O stress praticamente parou nas últimas 24h (9 hits) — tendência de extinção do grupo.hipótese forte
🧭 Onde acontece
Normalmente acontece na preparação de dados, quando a tela pede a amostra ou o resultado de um passo do fluxo ao serviço de consulta.
👁 O que o usuário percebe
A amostra/visualização do passo não carrega e o passo aparece com erro.
🤔 Desconfiança
Uma fonte teve a coluna "ÁREA DE NEGOCIO NOVO" renomeada ou removida e o fluxo continua referenciando o nome antigo — configuração desatualizada em relação ao arquivo novo, não falha de infra.hipótese forte
🧭 Onde acontece
Acontece em rotina interna de segundo plano que verifica regras de agendamento de análises — roda o tempo todo, sem ação do usuário.
👁 O que o usuário percebe
Nada direto na tela; se persistir, execuções agendadas podem atrasar ou não disparar.
🤔 Desconfiança
Falha intermitente ao abrir conexão com o banco na verificação de agendamentos — instabilidade de conexão, não erro de configuração de cliente.hipótese média
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo.
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
O fluxo é disparado enquanto a execução anterior ainda não terminou (trava de status impede rodar duas vezes). Concentrado no agibank — possível agendamento mais frequente que a duração da execução.hipótese média
🧭 Onde acontece
Acontece durante o processamento da análise, quando um job monta tabelas internas a partir da configuração do fluxo.
👁 O que o usuário percebe
O job falha e o resultado da análise não é gerado.
🤔 Desconfiança
Alguma coluna do fluxo ficou sem nome (alias vazio) — provavelmente coluna renomeada para vazio ou fórmula sem rótulo, gerando SQL inválido (SELECT INTO).hipótese média
🧭 Onde acontece
Normalmente acontece durante o processamento da análise, quando o backend chama o serviço de transformação de dados.
👁 O que o usuário percebe
A análise falha ou fica presa em processando sem mensagem clara.
🤔 Desconfiança
A área temporária de dados esperada não existe mais quando a transformação roda — dessincronização entre as etapas do fluxo (staging), problema conhecido e ainda quente.hipótese média
🧭 Onde acontece
Acontece na preparação de dados — é o backend repassando o erro do serviço de consulta para o fluxo.
👁 O que o usuário percebe
O passo do fluxo falha com mensagem técnica de coluna não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor do serviço de consulta: a coluna "ÁREA DE NEGOCIO NOVO" não existe mais na fonte, mas o fluxo segue pedindo por ela.hipótese forte
Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'currentSiz78 24h · 247 72h
🧭 Onde acontece
Acontece ao abrir telas — o componente de controle de licença tenta renderizar antes dos dados chegarem.
👁 O que o usuário percebe
Erro silencioso de tela na maioria dos casos; a informação de licença pode não aparecer.
🤔 Desconfiança
A tela lê uma propriedade (currentSizeGB) de um objeto que ainda não carregou — falta proteção no componente para o estado "carregando".hipótese média
🧭 Onde acontece
Mesma rotina interna de verificação de agendamentos, em segundo plano.
👁 O que o usuário percebe
Nada direto na tela; risco de atraso em execuções agendadas se persistir.
🤔 Desconfiança
Variação do mesmo problema de banco do grupo de polling — o comando falha durante a leitura; metade dos hits concentrada no BTG.hipótese média
🧭 Onde acontece
Acontece no envio de notificações por e-mail, após eventos do sistema.
👁 O que o usuário percebe
O e-mail simplesmente não chega para o destinatário esperado.
🤔 Desconfiança
Notificação configurada sem destinatário — problema de cadastro/configuração do cliente, não falha de infraestrutura de e-mail.hipótese forte
🧭 Onde acontece
Acontece na validação de licença ao usar o sistema (entrada/sessão).
👁 O que o usuário percebe
Avisos de licença na tela; em caso extremo, bloqueio de uso.
🤔 Desconfiança
O serviço de licenciamento não respondeu no momento da validação — instabilidade pontual, concentrada em ambiente interno de engenharia.hipótese média
🧭 Onde acontece
Acontece quando o serviço de dados roda em máquina local de desenvolvedor e tenta conectar na fila de mensagens de dev.
👁 O que o usuário percebe
Nenhum — não toca produção nem cliente.
🤔 Desconfiança
A fila de dev (rabbit-dev) não é alcançável das máquinas locais — configuração de ambiente, não defeito de produto.hipótese forte
🧭 Onde acontece
Acontece na integração do novo gateway ao iniciar sessão de um usuário de integração.
👁 O que o usuário percebe
Nenhum visível ao usuário final por enquanto.
🤔 Desconfiança
Chamada de sessão configurada com host vazio para o usuário "chirpstack" — configuração incompleta do serviço novo; caiu para 4 hits/24h.hipótese média
🧭 Onde acontece
Acontece na gravação de registros durante operações simultâneas — por exemplo, atualização de status de execuções.
👁 O que o usuário percebe
A ação parece concluir, mas o registro não atualiza; telas podem ficar com status pendurado (ex.: execução presa em andamento).
🤔 Desconfiança
Dois processos gravando o mesmo registro ao mesmo tempo (colisão de concorrência). Já vimos esse padrão travar o status de conciliações na tela sob execuções paralelas.hipótese média
🧭 Onde acontece
Acontece na importação de dados via conexão direta com o banco do cliente.
👁 O que o usuário percebe
A importação falha repetidamente e os dados não entram na plataforma.
🤔 Desconfiança
A credencial usada pela integração foi recusada pelo banco do cliente (login failed) — senha expirada ou permissão revogada do lado do cliente. Acionável via CS, não via engenharia.hipótese forte
Mudanças vs snapshot anterior

Atual: 2026-06-12 09:24 · Anterior: 2026-06-12 08:57 · Delta: 27min atrás

⊖ Erros que pararam (extintos)

Nenhum.

Distribuição de impacto
Por ambiente

Produção · 34 grupos · 5.696 hits

Eng interno (hotfix/release-fix/portal) · 20 grupos · 5.755 hits

Outros (NoWebsite/nós de serviço) · 13 grupos · 3.763 hits

Dev (eng-develop) · 6 grupos · 1.143 hits

Homolog/UAT · 5 grupos · 653 hits

Demo/trial · 9 grupos · 1.396 hits

Local · 18 grupos · 2.866 hits

Categorias
  Stress test (30K arquivos)1 grupos · 1.553 hits
Stress de 30K arquivos no eng-hotfix PAROU — 9 hits/24h vs 1.553 acumulados em 72h.
  Erro de schema ETL (DuckDB)3 grupos · 1.516 hits
Binder Error "ÁREA DE NEGOCIO NOVO" dominando o serviço de consulta — mesma raiz do httpreq no Back. Estável vs anterior.
Binder/Catalog Error no pipeline (schema ETL).
CAST falhando (string vazia/SET → INT32).
  Job/fluxo Hangfire falhando1 grupos · 524 hits
Fluxo agendado não roda porque o status do anterior impede (Hangfire). Top: agibank. Estável.
  Falha EF/DB6 grupos · 893 hits
Polling de regras de agendamento falhando na abertura da conexão (GetActiveScheduleRulesAsync). Estável vs anterior.
Erro de rede ao resolver tenant (connection establishment). Estável.
NRE em GetDesignStagingId(AnalysisMatchingConfig). Espalhado em 12 tenants.
NOVO como grupo: optimistic concurrency EF (Store update affected 0 rows) — mesmo padrão do bug de stats do Matching sob paralelismo.
Value cannot be null: entity em DbEntitySetAdapter durante job. 8 tenants.
DataTypeName super não suportado em teste de layout (Redshift). Raro.
  Erro de banco/SQL6 grupos · 814 hits
SELECT INTO com coluna sem nome/alias vazio em job. Estável.
Variante do polling de agendamento — comando falha durante a leitura. ~49% BTG.
SQL custom inválido no BTG (42601 syntax error). 0 hits/24h — cessando.
Timeout de importação externa no BTG (IsTransient). Baixo volume.
NOVO: importação externa recusada — login failed no banco AB_CONTABIL do cliente (GRUPOBRSA).
NOVO: conflito de collation em job — provável JOIN entre fontes com collations distintas.
  Falha HTTP downstream5 grupos · 866 hits
Backend chamando serviço pipeline e recebendo Catalog Error — dessincronização de staging segue quente.
Backend repassando Binder Error do serviço de consulta (coluna "ÁREA DE NEGOCIO NOVO"). Mesmo root do grupo Query.
DataEngine devolvendo 502 nginx em staging query. 0 hits/24h — cessou.
NOVO: host remoto fechou a conexão durante request (0x800704CD) — transitório de rede do lado do cliente, volume baixo.
SetFileStatusAsync cancelado (MFT-CARREFOUR). Baixo volume.
  Pool shutdown race (Pika/multiproc)1 grupos · 116 hits
Pool shutdown race (Pika/multiproc) — estável vs anterior (116 em 72h).
  Erro de frontend (null/undefined)1 grupos · 247 hits
Frontend null/undefined — sample agora é currentSizeGB no LicenseControl (antes era .find). 34 tenants.
  Conexão Rabbit (dev timeout)1 grupos · 120 hits
Timeout de conexão no rabbit-dev a partir de máquinas locais — ambiente, não produto.
  Erro de DI (Autofac)1 grupos · 100 hits
IStepExecutor "Matching" não registrado no DI ao processar IOutputStep. 92% internal.
  Arquivo ausente (PDF/staging)5 grupos · 81 hits
Path SFTP Cielo_MetroBahia ausente no CCR (FileCopyProcessJob). Customer-specific.
Arquivo XML do portal ausente no storage Ttl (import PAN). 85% BTG.
Staging DuckDB inexistente na leitura do Matching — estável vs anterior (11 → 12 em 72h).
Access denied em delete de arquivo SFTP no Ipiranga. Raro.
NOVO: parquet de saída não encontrado no datalake em /query — ambiente local/dev (Maiglon/Denis).
  Arquivo fonte inválido (ETL)1 grupos · 20 hits
Arquivo fonte inválido — xlsx não suportado / worksheet ausente.
  Falha de chunk (extração)1 grupos · 28 hits
Chunk failed/skipped na extração — sample atual é "-> Chunk 1 failed" espalhado em 22 tenants.
  Erro de negócio (validação)2 grupos · 295 hits
E-mail sem destinatário definido (SendEmailJob). Concentrado em internal.
Validação de licença online indisponível. 57% eng-release-fix.
  Falha de SMTP1 grupos · 104 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). Estável.
  Gateway session-init (novo MS)1 grupos · 117 hits
session-init pra user=chirpstack com host vazio — config incompleta do gateway novo. 4 hits/24h (desacelerando).
  Timeout Redis (sessão)1 grupos · 5 hits
PSETEX 5000ms em redis-dev via eng-hotfix 16.3.22 — sessão via Redis (atenção k8s).
  Bloqueio SSRF (proteção)1 grupos · 45 hits
Bloqueio SSRF de URLs trycloudflare em refresh de amostra — proteção operando como esperado.
  Permissão negada (RBAC)1 grupos · 4 hits
Permissão negada pra configurar Processo (RBAC operando). 0 hits/24h.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Stress test (30K arquivos)(none): [SetFileStatusAsync] External storage API returned NotFound, file /30KFIBackeng-hotfix2eng-internal, prod16.3.22, 14.8.491.553— estável
2Erro de schema ETL (DuckDB)ASGI/DuckDB (Query): Exception in ASGI application + Exception Group Traceback (Querydattos-data-engine-query-aws-16-37other, eng-internal16.3.21, 16.3.224321.410— estável
3Falha EF/DBEntityException: Failed to execute polling task. The underlying provider failed Backlocalhost31local, prod, other, eng-internal16.3.20, 16.3.21187622— estável
4Job/fluxo Hangfire falhandoInvalidOperationException: Failed to process the job: A execução do fluxo não foBackagibank5prod16.3.20, 16.3.21149524— estável
5Erro de banco/SQLSqlException: Failed to process the job '675235': an exception occurred. An objeBackagibank16prod, other, local, dev, demo15.4.11, 15.4.4116491— estável
6Falha HTTP downstreamInvalidOperationException: Error calling service 'pipeline', operation 'transforBackagibank20prod, eng-internal, other16.3.20, 16.3.2158466— estável
7Falha HTTP downstreamHttpRequestException: Binder Error: Referenced column "ÁREA DE NEGOCIO NOVO" notBackyamaha24prod, eng-internal, local, demo, dev16.3.20, 16.3.21138361— estável
8Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'currentSizeGB') CaFrontedenred34prod, hom, eng-internal, local15.4.11, 16.3.1478247— estável
9Erro de banco/SQLEntityCommandExecutionException: Failed to execute polling task. An error occurrBackdattos (BTG)35prod, local, eng-internal, other, hom, demo15.4.11, 15.4.1559226— estável
10Erro de negócio (validação)ArgumentException: Erro ao enviar e-mail #208032. Destinatário do e-mail não defBackinternal9local, prod, eng-internal15.4.11, 16.3.2020167— estável
11Erro de negócio (validação)BusinessException: Não foi possível obter a licença online para validação. Não fBackeng-release-fix14eng-internal, local, prod, dev15.4.11, 16.3.2144128— estável
12Conexão Rabbit (dev timeout)AMQP/TCP timeout: AMQPConnectionWorkflowFailed: TCP connection attempt timed outDataEngineNoWebsite5other, local, prod16.3.21, 16.3.684120— estável
13Gateway session-init (novo MS)(none): session-init call failed for user=chirpstack host= Traceback (most recenDattos-GatewayNoWebsite1other16.4.04117— estável
14Falha EF/DBInvalidOperationException: Error retrieving tenant: network-related error establBackNoWebsite1other16.3.21, 16.3.228117— estável
15Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process: can only test Pipeline+Matching+DataEngineNoWebsite21prod, other, eng-internal, local, demo16.3.21, 16.3.2216116— estável
16Falha de SMTPSmtpException: Erro ao enviar e-mail #208023. Service not available, closing traBackdattos (BTG)2prod, hom15.4.11, 16.3.2230104— estável
17Erro de DI (Autofac)ComponentNotRegisteredException: Error processing IOutputStep 29644. The requestBackinternal2local, eng-internal16.3.22, 16.4.08100— estável
18Erro de schema ETL (DuckDB)Catalog/Binder Error: Binder Error: Values list ETL_<A>_<B> does not have a coluPipelineafextyc7prod, eng-internal, local, demo16.3.21, 16.3.22991— estável
19Falha EF/DBNullReferenceException: Object reference not set to an instance of an object. ObBackeng-release-fix12eng-internal, prod, local, dev15.4.11, 16.3.201470— estável
20Erro de banco/SQLPostgresException: 42601: syntax error at or near "db_cadastral_analytics" in coBackdattos (BTG)1prod15.4.11068— estável
21Falha EF/DBInvalidOperationException: Erro ao atualizar objeto: Store update, insert, or deBackNoWebsite69other, prod, local, eng-internal, demo, hom, dev15.4.11, 15.4.152148NOVO
22Bloqueio SSRF (proteção)SsrfException: Error refreshing sample from step ID 27264. The URL 'https://horiBackeng-develop4dev, eng-internal, prod16.3.21, 16.3.22845— estável
23Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.20, 16.3.221236— estável
24Falha EF/DBArgumentNullException: Failed to process the job '297992': an exception occurredBackcea8prod, eng-internal, local15.4.11, 16.3.20732— estável
25Falha HTTP downstreamJsonReaderException: DataEngine returned non-parseable JSON on route 'staging/stBackeng-hotfix4eng-internal, hom, prod16.3.21, 16.3.22028— estável
26Falha de chunk (extração)Chunk failed/skipped (Pipeline): -> Chunk 1 failed / Chunk too small or max deptPipelineafextyc8prod, local, demo, eng-internal16.3.21, 16.3.222828— estável
27Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl. Details: FileName: import\Backdattos (BTG)3prod15.4.11, 16.3.201127— estável
28Arquivo fonte inválido (ETL)xlsx/worksheet (Pipeline): Error: Excel xlsx file; not supported / Worksheet namPipelinetbmtextil5prod, demo16.3.21, 16.3.221520— estável
29Erro de banco/SQLNpgsqlException: Erro durante importação ID 2437407 The operation has timed out Backdattos (BTG)1prod15.4.11615— estável
30Erro de schema ETL (DuckDB)Conversion Error: Conversion Error: Could not convert string '' / 'SET' to INT32PipelineNoWebsite10other, prod, demo16.3.21, 16.3.22015— estável
31Arquivo ausente (PDF/staging)IO Error (staging DuckDB): Error: IO Error: Cannot open database "/mnt/staging/6MatchingNoWebsite15other, local, prod, eng-internal16.3.21, 16.3.22812— estável
32Erro de banco/SQL(none): Erro durante importação ID 1253382 Cannot open database "AB_CONTABIL" reBackbrsa1prod28NOVO
33Falha HTTP downstreamHttpException: The remote host closed the connection. The error code is 0x800704Backzaffari3prod16.3.20, 16.3.2216NOVO
34Erro de banco/SQL(none): Failed to process the job '4857122': an exception occurred. Cannot resolBack1prod26NOVO
35Timeout Redis (sessão)RedisTimeoutException: Timeout performing PSETEX (5000ms), next: PSETEX 3b456873Backeng-hotfix1eng-internal16.3.2255— estável
36Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status for storagBackcsf-qa2prod16.3.2235— estável
37Permissão negada (RBAC)AuthorizationException: Você não tem permissão para configurar um Processo Você Backarcoeducacao2prod16.3.2004— estável
38Falha EF/DBInvalidCastException: Reading as 'System.Object' is not supported for fields havBackdattos (BTG)2prod, local15.4.11, 16.3.2104— estável
39Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path 'd:\ipiranga\ttl\import\SFTP\ConBackipiranga1prod16.3.20, 16.3.2213— estável
40Arquivo ausente (PDF/staging)(none): Unhandled exception on /query: IO Error: No files found that match the pDataEngineNoWebsite3other, local16.4.033NOVO