QA Telemetry — 2026-06-14 12:19

Janela: últimas 24h e 72h · Tenants afetados: 20 (24h) / 75 (72h) de 161 · Queries Loki: 115 · Método: count_over_time (totais reais)

Leia antes do número. Snapshot de DOMINGO (14/06): a janela de 24h cai num fim de semana — só o Back tem erros (236, jobs de background); Query, DataEngine, Pipeline, Matching e Front zeraram em 24h por AUSÊNCIA de atividade de cliente, não por correção. Use a janela de 72h pra tendência. O total de 72h caiu pra 2.963 (de 8.225) porque o stress de 30K arquivos terminou e a atividade de dias úteis saiu da janela. Persistem reais: matching_<id> inexistente no serviço de consulta (516/72h, ainda o #1, propaga pro Back via HTTP), fluxos Hangfire barrados por status (224, agibank-pesado), polling de e-mail/agenda falhando na conexão (EntityException 300 + EntityCommand 85) e SELECT INTO com alias vazio (SqlException 223). Novos: e-mail sem destinatário (27) e validação de pasta em eng-hotfix (12). 24h afetou 20 tenants; 72h, 75 de 161.
Erros (24h)
236
▼ 88% vs anterior
Erros (72h)
2.963
▼ 64% vs anterior
Tenants afetados
20 / 161
75 em 72h
Categorias
14
10 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

🧭 Onde acontece
Acontece na conciliação/matching, quando a tela ou o passo pede o resultado do cruzamento ao serviço de consulta.
👁 O que o usuário percebe
A conciliação não carrega o resultado: o passo de matching aparece com erro ou fica sem dados.
🤔 Desconfiança
O serviço de consulta procura a tabela combinada de matching (matching_<id>) mas só existem as tabelas dos lados (side_a_<id>) — a etapa que monta a tabela de matching não rodou ou usa outro nome. Concentrado na 16.3.22+ e em vários nós ao mesmo tempo: cheira a regressão de versão, não a problema de um cliente.hipótese forte
🧭 Onde acontece
Rotina interna de segundo plano que faz polling (fila de e-mails, regras de agendamento) — roda o tempo todo, sem ação do usuário.
👁 O que o usuário percebe
Nada direto na tela; se persistir, e-mails e execuções agendadas podem atrasar.
🤔 Desconfiança
Falha intermitente ao abrir conexão com o banco durante o polling — instabilidade de conexão, não erro de configuração de um cliente.hipótese média
🧭 Onde acontece
Acontece quando o serviço de dados roda em máquina local de desenvolvedor e tenta conectar na fila de mensagens de dev.
👁 O que o usuário percebe
Nenhum — não toca produção nem cliente.
🤔 Desconfiança
A fila de dev (rabbit-dev) não está sendo alcançada das máquinas locais — configuração/instabilidade de ambiente. Ruído de dev.hipótese forte
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo.
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
O fluxo é disparado enquanto a execução anterior ainda não terminou (trava de status impede rodar duas vezes). Concentrado no agibank — possível agendamento mais frequente que a duração da execução.hipótese média
🧭 Onde acontece
Acontece durante o processamento da análise, quando um job monta tabelas internas a partir da configuração do fluxo.
👁 O que o usuário percebe
O job falha e o resultado da análise não é gerado.
🤔 Desconfiança
Alguma coluna do fluxo ficou sem nome (alias vazio) — provavelmente coluna renomeada para vazio ou fórmula sem rótulo, gerando SQL inválido (SELECT INTO).hipótese média
🧭 Onde acontece
Acontece na conciliação/matching — é o backend repassando para o fluxo o erro vindo do serviço de consulta.
👁 O que o usuário percebe
O passo de conciliação falha com mensagem técnica de tabela não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor #1 do serviço de consulta: o fluxo pede a tabela combinada de matching que não foi criada. Perfil de regressão de versão (16.3.22+).hipótese forte
🧭 Onde acontece
Preparação de dados / conciliação, quando a tela pede a amostra ou o resultado de um passo ao serviço de consulta.
👁 O que o usuário percebe
A amostra/visualização do passo não carrega e o passo aparece com erro.
🤔 Desconfiança
Conjunto de erros de schema na consulta (coluna inexistente, sintaxe) — cauda de fluxos com referência desatualizada à fonte.hipótese média
🧭 Onde acontece
Acontece na inicialização do novo gateway de dados, ao abrir sessão de conexão (ex.: usuário postgres).
👁 O que o usuário percebe
Nenhum impacto visível em cliente por enquanto, mas o serviço novo está falhando de forma recorrente.
🤔 Desconfiança
O gateway novo tenta iniciar sessão contra um host que não responde (host=postgres) — configuração/conectividade do serviço 16.4.0 ainda incompleta. Acompanhar antes de ir pra produção.hipótese média
Erro de frontend (null/undefined)FrontException: Cauda diversa: Cannot read properties of undefined ('cla0 24h · 101 72h
🧭 Onde acontece
Acontece ao abrir/transicionar telas — componentes tentam ler dados antes deles chegarem ou navegação é cancelada.
👁 O que o usuário percebe
Erro silencioso de tela na maioria; informações podem não aparecer; parte é ruído de navegação (usuário trocou de tela antes de carregar).
🤔 Desconfiança
Telas lendo propriedade de objeto ainda não carregado (falta proteção pro estado carregando) + ruído de navigation-cancelled do Vue Router. Cauda diversa, não um único bug.hipótese média
🧭 Onde acontece
Rotina interna de polling em segundo plano (fila de e-mails).
👁 O que o usuário percebe
Nada direto na tela; risco de atraso no envio de e-mails se persistir.
🤔 Desconfiança
Variação do mesmo problema de conexão/leitura do polling — o comando falha durante a execução. Estável.hipótese média
🧭 Onde acontece
Acontece durante o processamento da análise, quando o backend chama o serviço de transformação/preparação de dados.
👁 O que o usuário percebe
A análise falha ou fica presa em processando sem mensagem clara.
🤔 Desconfiança
Duas causas misturadas: área de staging que sumiu (Catalog Error) e, agora também, tempo limite esperando a fila do Pipeline (queue wait timeout) — sinal de backpressure quando há fila acumulada. Vale observar a saúde da fila do Pipeline.hipótese média
🧭 Onde acontece
Acontece na gravação de registros durante operações simultâneas — por exemplo, atualização de status de execuções.
👁 O que o usuário percebe
A ação parece concluir, mas o registro não atualiza; telas podem ficar com status pendurado.
🤔 Desconfiança
Dois processos gravando o mesmo registro ao mesmo tempo (colisão de concorrência). Já vimos esse padrão travar o status de conciliações sob execuções paralelas.hipótese média
🧭 Onde acontece
Acontece na importação/preparação quando o sistema tenta abrir um arquivo Excel enviado.
👁 O que o usuário percebe
O arquivo não é lido e a importação falha com mensagem de negócio na tela.
🤔 Desconfiança
Arquivo Excel em formato que nenhum dos leitores suporta (corrompido, protegido ou variante de xlsx não reconhecida). Concentrado em ambientes internos — possível teste com arquivos atípicos.hipótese média
🧭 Onde acontece
Acontece na leitura/atualização de status de arquivos importados, quando o backend consulta o storage externo.
👁 O que o usuário percebe
O arquivo importado pode sumir da lista ou ficar com status de erro.
🤔 Desconfiança
O backend pede ao storage um arquivo que já foi removido/movido — descompasso entre o que o sistema acha que existe e o que o storage tem. Saiu do contexto de stress (30K) e agora aparece em arquivos reais.hipótese média
🧭 Onde acontece
Acontece no envio automático de e-mails (notificação de fluxo, relatório agendado).
👁 O que o usuário percebe
O e-mail não é enviado; o destinatário esperado não recebe a notificação/relatório.
🤔 Desconfiança
Configuração de envio sem destinatário preenchido — fluxo ou agendamento com campo de e-mail vazio. Acionável via CS/config do cliente.hipótese média
Mudanças vs snapshot anterior

Atual: 2026-06-14 12:19 · Anterior: 2026-06-12 14:43 · Delta: 2d atrás

⊕ Erros novos / ressurgidos

·
Arquivo ausente (PDF/staging)(none) storage NotFound: [GetFileContentAsync] External storage API retu · csf-qa, app, eng-hotfix, +1
41
·
Falha de envio de e-mailArgumentException (sem destinatário): Erro ao enviar e-mail. Destinatári · travelex, dattos (BTG), eng-release-fix, +1
27

⊖ Erros que pararam (extintos)

·
Stress 30K arquivos (SetFileStatusAsync NotFound) · Stress de 30K encerrado — só 1 hit/24h. O storage-NotFound que sobra migrou pra arquivos reais (ver grupo 'storage NotFound')
−1.553
·
Bloqueio SSRF (trycloudflare) · Proteção SSRF parou de disparar — sem URLs trycloudflare em refresh de amostra nas últimas 72h
−44
·
PostgresException 42601 (SQL custom BTG) · Sintaxe SQL custom inválida no BTG cessou
−62
·
Chunk failed/skipped (extração Pipeline) · Falhas de chunk na extração sumiram com a queda de atividade ETL no fim de semana
−28
·
session-init user=chirpstack (gateway) · Variante chirpstack cessou; volume migrou todo pra user=postgres (gw_sessioninit)
−4
·
Falha de login AD/LDAP (data 52e) · Sem novas falhas de autenticação AD/LDAP nas últimas 72h
−9
Distribuição de impacto
Por ambiente

Produção · 24 grupos · 1.649 hits

Eng interno (hotfix/release-fix/portal) · 15 grupos · 1.392 hits

Outros (NoWebsite/nós de serviço) · 10 grupos · 1.485 hits

Dev (eng-develop) · 6 grupos · 614 hits

Homolog/UAT · 3 grupos · 312 hits

Demo/trial · 1 grupos · 27 hits

Local · 11 grupos · 1.296 hits

Categorias
  Erro de schema ETL (DuckDB)3 grupos · 729 hits
Continua o ofensor #1 por volume: a consulta pede a tabela matching_<id> que não existe (engine sugere side_a_<id>). 516/72h (era 714, segue quente). 0/24h é só o fim de semana, não resolução. Propaga pro Back via HttpRequestException (httpreq).
Resto do serviço de consulta (tudo menos o matching_<id>): 186/72h. Cauda variada de erros ASGI/binder/parser.
Erros de schema no pipeline (Binder Error 'Aux not found', etc). Absorve os antigos pl_parser/pl_conversion/pl_xlsx (cauda ETL consolidada). 27/72h (era ~82).
  Falha EF/DB6 grupos · 507 hits
Polling de background falhando na abertura de conexão (transient SQL). Amostra agora em GetPendingEmailsAsync (fila de e-mails). 300/72h (era 622, caindo). 100/24h — único ofensor recorrente ativo no fim de semana (rotina interna).
Mesma família do polling (GetPendingEmailsAsync) — falha de execução do comando no data reader. 85/72h (era 221).
Optimistic concurrency EF (Store update affected 0 rows) — mesmo padrão do bug de stats do Matching sob paralelismo. Estável (53/72h).
Erro de rede ao resolver tenant em jobs (NoWebsite). 27/72h, 17/24h — único sub-padrão de InvalidOp ativo no fim de semana (jobs de background).
Argumento nulo em GetSideATableName(AnalysisMatchingConfig) — config de matching sem lado A definido (amostra mudou de 'columnA'). 25/72h.
NRE agora em SamlRequest.GetAuthRedirectUrl (login SAML) — antes em GetDesignStagingId. 17/72h, espalhado em 9 tenants.
  Job/fluxo Hangfire falhando1 grupos · 224 hits
Fluxo agendado não roda porque o status do anterior impede (Hangfire). Top: agibank (73/224), yamaha (36), kryptonbpo (31). Estável. 2/24h pelo fim de semana.
  Erro de banco/SQL2 grupos · 236 hits
SELECT INTO com coluna sem nome/alias vazio em job. Estável (62% agibank). 35/24h.
Timeout/leitura de importação externa no BTG (IsTransient). Baixo volume (13/72h).
  Falha HTTP downstream4 grupos · 287 hits
Backend repassando o erro matching_<id> do serviço de consulta (mesma raiz do q_match_catalog). 193/72h (era 357). 18 tenants.
Backend chamando o serviço de pipeline. Amostra recente mudou pra 'Tempo limite excedido aguardando a fila de processamento' (queue wait timeout, 13/72h) — possível backpressure na fila do Pipeline, além dos Catalog Error de staging. 85/72h (era 442).
SetFileStatusAsync cancelado (MFT-CARREFOUR). Baixo volume.
Host remoto fechou a conexão durante request (0x800704CD) — transitório de rede do cliente. 4/72h.
  Conexão Rabbit (dev timeout)1 grupos · 225 hits
Timeout de conexão no rabbit-dev a partir de máquinas locais de dev. 225/72h, 0/24h. Ambiente, não produto — maior ofensor do DataEngine mas é ruído de dev.
  Gateway session-init (novo MS)1 grupos · 117 hits
Gateway novo (16.4.0) não consegue iniciar sessão (user=postgres host=postgres). 117/72h (era 221). Sem website associado — serviço de plataforma.
  Pool shutdown race (Pika/multiproc)1 grupos · 49 hits
Pool shutdown race (Pika/multiproc) somando Pipeline+Matching+DataEngine. 49/72h (era 164) — caiu junto com a atividade de fim de semana.
  Falha de envio de e-mail2 grupos · 94 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). 67/72h, 15/24h. Customer-specific BTG.
NOVO: envio de e-mail falha porque o destinatário não está definido (config de notificação/relatório sem e-mail de destino). Top travelex (44%), BTG, eng-release-fix. 27/72h.
  Erro de negócio (validação)2 grupos · 59 hits
Mudou de perfil: agora dominado por 'não conseguimos abrir o arquivo Excel' (leitor de Excel falhou) — antes era licença/Classificação Regras. 64% eng-release-fix. 47/72h.
NOVO: execução barrada por validação de pasta ('pasta atual não é válida de acordo com as pastas configuradas') — 100% eng-hotfix/16.3.23, cheira a teste interno de permissão de pasta. 12/72h.
  Arquivo ausente (PDF/staging)5 grupos · 100 hits
Ressurgido após o fim do stress 30K: o storage devolve NotFound, mas agora pra arquivos REAIS de cliente (GERA/PROD, MFT-CARREFOUR, Qualicorp), não mais o C30K (1/24h). 41/72h.
Path SFTP ausente no CCR (van_getnet; antes Cielo_MetroBahia). FileCopyProcessJob. Customer-specific CCR. 30/72h, 9/24h.
Arquivo XML do portal ausente no storage Ttl (import PAN). 100% BTG. 16/72h.
Staging DuckDB inexistente na leitura (Matching). 9/72h (era 67) — caiu com o fim de semana.
Access denied em cópia/exclusão de arquivo SFTP (EXTBANES, Ipiranga). Raro.
  Erro de frontend (null/undefined)1 grupos · 101 hits
Cauda diversa de erros de tela (sem bug único): null/undefined 'class' (9x), 't is not defined' (8x), Network Error (4x), 'aprovação em massa em execução' (4x), navigation-cancelled (3x). 101/72h.
  Erro de DI (Autofac)1 grupos · 13 hits
IStepExecutor 'Matching' não registrado no DI ao processar IOutputStep. 13/72h (era 106) — caiu bastante. 100% eng-release-fix/16.4.0.
  Timeout Redis (sessão)1 grupos · 4 hits
Timeout Redis agora em PROD (gaspar, GET 5688ms) — antes só eng-hotfix. Baixo volume (4/72h) mas atenção pra k8s/sessão (RedisConnectionString como switch cross-pod).
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Erro de schema ETL (DuckDB)Catalog Error (matching_<id> não existe): Unhandled exception on /staging/matchiQuerydattos-data-engine-query-aws-16-36other, eng-internal16.3.22, 16.3.230516▼ 28%
2Falha EF/DBEntityException: Failed to execute polling task. Transient failure ao abrir coneBacklocalhost10local, prod15.4.11, 16.3.20100300▼ 52%
3Conexão Rabbit (dev timeout)AMQP/TCP timeout (rabbit-dev): AMQPConnectionWorkflowFailed: TCP connection atteDataEngineNoWebsite3other, local16.3.6, 16.4.00225— estável
4Job/fluxo Hangfire falhandoInvalidOperationException (status Stopped/Running): Failed to process the job: ABackagibank5prod16.3.20, 16.3.212224▼ 57%
5Erro de banco/SQLSqlException: Failed to process the job '679380': An object or column name is miBackagibank12prod, other, local, dev, hom15.4.11, 15.4.1535223▼ 54%
6Falha HTTP downstreamHttpRequestException: Catalog Error: Table with name matching_43422D31 does not Backafextyc18prod, eng-internal, dev, local16.3.22, 16.3.230193▼ 46%
7Erro de schema ETL (DuckDB)ASGI/DuckDB (Query, demais): Exception in ASGI application (demais erros do servQuerydattos-data-engine-query-aws-16-36other, eng-internal16.3.22, 16.3.230186▼ 74%
8Gateway session-init (novo MS)(none): session-init call failed for user=postgres host=postgres Traceback (httpDattos-GatewayNoWebsite1other16.4.00117▼ 47%
9Erro de frontend (null/undefined)FrontException: Cauda diversa: Cannot read properties of undefined ('class'/'DatFrontzaffari20prod, eng-internal, local16.3.20, 16.3.220101▼ 54%
10Falha EF/DBEntityCommandExecutionException: Failed to execute polling task. An error occurrBacklocalhost20local, prod, dev, hom15.4.11, 15.4.15485▼ 62%
11Falha HTTP downstreamInvalidOperationException (calling 'pipeline'): Error calling service 'pipeline'Backagibank20prod, eng-internal, other16.3.20, 16.3.22585▼ 81%
12Falha de envio de e-mailSmtpException: Erro ao enviar e-mail. 4.4.2 Message submission rate for this cliBackdattos (BTG)1prod15.4.111567▼ 34%
13Falha EF/DBInvalidOperationException (optimistic concurrency): Store update, insert, or delBackNoWebsite25other, prod, local, eng-internal15.4.11, 16.3.20053— estável
14Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process matching-16-3 /Pipeline+Matching+DataEngineNoWebsite14other, prod, eng-internal, dev16.3.22, 16.3.23049▼ 70%
15Erro de negócio (validação)BusinessException: Não conseguimos abrir o arquivo Excel com nenhum dos nossos lBackeng-release-fix8eng-internal, prod, dev, local16.3.20, 16.3.21047▼ 58%
16Arquivo ausente (PDF/staging)(none) storage NotFound: [GetFileContentAsync] External storage API returned NotBackcsf-qa4prod, eng-internal14.8.4, 16.3.22341NOVO
17Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.22930— estável
18Erro de schema ETL (DuckDB)Binder/Catalog/Parser Error (Pipeline): Error: Binder Error: Referenced column "Pipelineafextyc7prod, eng-internal, local, demo16.3.22, 16.3.23027▼ 67%
19Falha de envio de e-mailArgumentException (sem destinatário): Erro ao enviar e-mail. Destinatário do e-mBacktravelex4prod, eng-internal15.4.11, 16.3.22027NOVO
20Falha EF/DBInvalidOperationException (tenant retrieval): Error retrieving tenant: network-rBackNoWebsite1other16.3.22, 16.4.01727▼ 77%
21Falha EF/DBArgumentNullException: String reference not set to an instance of a String. ParaBackcea8prod, eng-internal, local16.3.20, 16.3.22025▼ 42%
22Falha EF/DBNullReferenceException: Object reference not set to an instance of an object. TrBackdattos (BTG)9prod, eng-internal, local, dev15.4.11, 16.3.22017▼ 73%
23Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl. FileName: import\PAN\{dataBackdattos (BTG)1prod15.4.11016▼ 41%
24Erro de DI (Autofac)ComponentNotRegisteredException: Error processing IOutputStep 29644. The requestBackeng-release-fix1eng-internal16.4.0013▼ 88%
25Erro de banco/SQLNpgsqlException: Erro durante importação ID 2441038 Exception while reading fromBackdattos (BTG)1prod15.4.11513— estável
26Erro de negócio (validação)AuthorizationException: A pasta atual não é válida de acordo com as pastas confiBackeng-hotfix1eng-internal16.3.23012NOVO
27Arquivo ausente (PDF/staging)IO Error (staging DuckDB read-only): Error: IO Error: Cannot open database "/mntMatchingyamaha3prod16.3.2209▼ 87%
28Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status for /MFT-CBackcsf-qa1prod16.3.2215— estável
29Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path 'd:\ipiranga\ttl\import\SFTP\...Backipiranga2prod, hom15.4.15, 16.3.2214— estável
30Falha HTTP downstreamHttpException: The remote host closed the connection. The error code is 0x800704Backzaffari1prod16.3.2204▼ 33%
31Timeout Redis (sessão)RedisTimeoutException: Timeout awaiting response (GET, 5688ms elapsed, timeout iBackgaspar2prod, other16.3.2304— estável