QA Telemetry — 2026-06-12 14:43

Janela: últimas 24h e 72h · Tenants afetados: 61 (24h) / 105 (72h) de 160 · Queries Loki: 165 · Método: count_over_time (totais reais)

Leia antes do número. O ofensor que mais cresce mudou de cara: o serviço de consulta passou a falhar em massa com "tabela de conciliação não encontrada" (matching_X — "você quis dizer side_a_X?"), 390 erros nas últimas 24h, concentrado na versão 16.3.22 e propagando para mais de 20 clientes via backend. O antigo erro de coluna "ÁREA DE NEGOCIO NOVO" recuou (de centenas para ~12). Em paralelo: timeout de fila rabbit-dev a partir de máquinas locais quase dobrou (ruído de ambiente, não cliente), e o stress interno de 30 mil arquivos praticamente parou. Tudo abaixo são hipóteses do snapshot — confirme no Loki antes de agir.
Erros (24h)
1.911
▲ 12% vs anterior
Erros (72h)
8.225
— estável
Tenants afetados
61 / 160
105 em 72h
Categorias
19
9 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

🧭 Onde acontece
Stress interno de carga de 30 mil arquivos no eng-hotfix — não é fluxo de cliente.
👁 O que o usuário percebe
Nenhum impacto em cliente; ruído de ambiente interno de teste.
🤔 Desconfiança
Teste consulta status de arquivos que o storage já descartou. Parou nas últimas 24h (9 hits) — tende à extinção, mas ainda pesa no acumulado de 72h.hipótese forte
🧭 Onde acontece
Acontece na conciliação/matching, quando a tela ou o passo pede o resultado do cruzamento ao serviço de consulta.
👁 O que o usuário percebe
A conciliação não carrega o resultado: o passo de matching aparece com erro ou fica sem dados.
🤔 Desconfiança
O serviço de consulta procura a tabela combinada de matching (matching_<id>) mas só existem as tabelas dos lados (side_a_<id>) — a etapa que monta a tabela de matching não rodou ou usa outro nome. Concentrado na 16.3.22 e em vários clientes ao mesmo tempo: cheira a regressão da versão, não a problema de um cliente.hipótese forte
🧭 Onde acontece
Preparação de dados / conciliação, quando a tela pede a amostra ou o resultado de um passo ao serviço de consulta.
👁 O que o usuário percebe
A amostra/visualização do passo não carrega e o passo aparece com erro.
🤔 Desconfiança
Conjunto de erros de schema na consulta (coluna inexistente, sintaxe). O caso "ÁREA DE NEGOCIO NOVO" caiu bastante; o que sobra é cauda variada de fluxos com referência desatualizada à fonte.hipótese média
🧭 Onde acontece
Acontece em rotina interna de segundo plano que verifica regras de agendamento de análises — roda o tempo todo, sem ação do usuário.
👁 O que o usuário percebe
Nada direto na tela; se persistir, execuções agendadas podem atrasar ou não disparar.
🤔 Desconfiança
Falha intermitente ao abrir conexão com o banco na verificação de agendamentos — instabilidade de conexão, não erro de configuração de cliente.hipótese média
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo.
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
O fluxo é disparado enquanto a execução anterior ainda não terminou (trava de status impede rodar duas vezes). Concentrado no agibank — possível agendamento mais frequente que a duração da execução.hipótese média
🧭 Onde acontece
Acontece durante o processamento da análise, quando um job monta tabelas internas a partir da configuração do fluxo.
👁 O que o usuário percebe
O job falha e o resultado da análise não é gerado.
🤔 Desconfiança
Alguma coluna do fluxo ficou sem nome (alias vazio) — provavelmente coluna renomeada para vazio ou fórmula sem rótulo, gerando SQL inválido (SELECT INTO).hipótese média
🧭 Onde acontece
Normalmente acontece durante o processamento da análise, quando o backend chama o serviço de transformação de dados.
👁 O que o usuário percebe
A análise falha ou fica presa em processando sem mensagem clara.
🤔 Desconfiança
A área temporária de dados esperada não existe mais quando a transformação roda — dessincronização entre as etapas do fluxo (staging), problema conhecido e ainda quente.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching — é o backend repassando para o fluxo o erro vindo do serviço de consulta.
👁 O que o usuário percebe
O passo de conciliação falha com mensagem técnica de tabela não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor #1 do serviço de consulta: o fluxo pede a tabela combinada de matching que não foi criada. Vários clientes na 16.3.22 — perfil de regressão de versão.hipótese forte
🧭 Onde acontece
Acontece quando o serviço de dados roda em máquina local de desenvolvedor e tenta conectar na fila de mensagens de dev.
👁 O que o usuário percebe
Nenhum — não toca produção nem cliente.
🤔 Desconfiança
A fila de dev (rabbit-dev) não está sendo alcançada das máquinas locais — configuração/instabilidade de ambiente. Subiu bastante no período, mas segue sendo ruído de dev.hipótese forte
Gateway session-init (novo MS)(none): session-init call failed for user=postgres host=postgres Traceba108 24h · 221 72h
🧭 Onde acontece
Acontece na inicialização do novo gateway de dados, ao abrir sessão de conexão (ex.: usuário postgres).
👁 O que o usuário percebe
Nenhum impacto visível em cliente por enquanto, mas o serviço novo está falhando de forma recorrente.
🤔 Desconfiança
O gateway novo tenta iniciar sessão contra um host que não responde (host=postgres) — configuração/conectividade do serviço 16.4.0 ainda incompleta. Acelerou nas últimas 24h: vale acompanhar antes de ir pra produção.hipótese média
🧭 Onde acontece
Rotina interna de leitura de dados em segundo plano (família da verificação de agendamentos).
👁 O que o usuário percebe
Nada direto na tela; risco de atraso em execuções agendadas se persistir.
🤔 Desconfiança
Variação do mesmo problema de banco do polling — o comando falha durante a leitura; metade dos hits no BTG.hipótese média
Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'class' / '85 24h · 220 72h
🧭 Onde acontece
Acontece ao abrir telas — componentes tentam ler dados antes deles chegarem.
👁 O que o usuário percebe
Erro silencioso de tela na maioria; informações podem não aparecer (licença, classificação, etc).
🤔 Desconfiança
Telas lendo propriedade de objeto ainda não carregado — falta proteção pro estado "carregando" em vários componentes. Cauda diversa, não um único bug.hipótese média
🧭 Onde acontece
Acontece na edição de componentes de ETL (atualizar amostra) e na validação de licença ao usar o sistema.
👁 O que o usuário percebe
Pede ao usuário re-salvar o componente; em licença, avisos na tela.
🤔 Desconfiança
Amostra de componente ficou inconsistente (precisa re-salvar) e validação de licença instável — concentrado em ambientes internos de engenharia.hipótese média
🧭 Onde acontece
Acontece na gravação de registros durante operações simultâneas — por exemplo, atualização de status de execuções.
👁 O que o usuário percebe
A ação parece concluir, mas o registro não atualiza; telas podem ficar com status pendurado.
🤔 Desconfiança
Dois processos gravando o mesmo registro ao mesmo tempo (colisão de concorrência). Já vimos esse padrão travar o status de conciliações sob execuções paralelas.hipótese média
Mudanças vs snapshot anterior

Atual: 2026-06-12 14:43 · Anterior: 2026-06-12 09:24 · Delta: 5h atrás

⊕ Erros novos / ressurgidos

·
Erro de schema ETL (DuckDB)Catalog Error (matching_X não existe): Unhandled exception on /staging/m · dattos-data-engine-query-aws-16-3, dattos-data-engine-query-aws-3-16-3, dattos-data-engine-query-aws-4-16-3, +2
714
·
Erro de schema ETL (DuckDB)Parser Error (Pipeline): Error: Parser Error: SELECT clause without sele · afextyc, sales, holambracoop
24
·
Falha de autenticação (LDAP/AD)(none): The user name or password is incorrect. ExtendedErrorMessage: 80 · NoWebsite, internal
9

⊖ Erros que pararam (extintos)

·
DataEngine: parquet de saída não encontrado no datalake (/query) · Ambiente local/dev (Maiglon/Denis) — sem hits novos
−3
Distribuição de impacto
Por ambiente

Produção · 33 grupos · 5.693 hits

Eng interno (hotfix/release-fix/portal) · 20 grupos · 5.633 hits

Outros (NoWebsite/nós de serviço) · 15 grupos · 4.106 hits

Dev (eng-develop) · 7 grupos · 1.337 hits

Homolog/UAT · 7 grupos · 1.115 hits

Demo/trial · 9 grupos · 964 hits

Local · 16 grupos · 2.699 hits

Categorias
  Erro de schema ETL (DuckDB)5 grupos · 1.543 hits
NOVO ofensor dominante: consulta pede a tabela matching_<id> que não existe (engine sugere side_a_<id>). 390 hits/24h, 645/72h só na 16.3.22. Propaga pro Back via HttpRequestException (httpreq). Substituiu o binder "ÁREA DE NEGOCIO NOVO" como erro #1 do serviço de consulta.
Resto do serviço de consulta (tudo menos o matching_X). O binder "ÁREA DE NEGOCIO NOVO" que dominava recuou para ~12/72h. Ainda 708/72h de outros erros ASGI/binder.
Binder/Catalog Error no pipeline (schema ETL). Estável.
NOVO grupo: Parser Error no pipeline (SELECT sem lista de seleção / sintaxe perto de OUTER) — SQL gerado inválido em transform.
CAST falhando (string vazia/SET → INT32). 0 hits/24h.
  Job/fluxo Hangfire falhando1 grupos · 515 hits
Fluxo agendado não roda porque o status do anterior impede (Hangfire). Top: agibank (241/72h). Estável.
  Falha EF/DB5 grupos · 900 hits
Polling de regras de agendamento falhando na abertura da conexão (GetActiveScheduleRulesAsync). Estável vs anterior.
Erro de rede ao resolver tenant (connection establishment) em contexto de job. Estável (8/117).
NRE em GetDesignStagingId(AnalysisMatchingConfig) — espalhado em 11 tenants. Amostra recente trouxe também NRE no Login (raro).
Optimistic concurrency EF (Store update affected 0 rows) — mesmo padrão do bug de stats do Matching sob paralelismo. Estável (21/55).
Value cannot be null: columnA no construtor de AnalysisMatchingRelationship (config de matching). 10 tenants. Amostra mudou de 'entity' pra 'columnA'.
  Erro de banco/SQL7 grupos · 802 hits
SELECT INTO com coluna sem nome/alias vazio em job. Estável (44% agibank).
Falha de leitura do data reader (família do polling/agendamento). ~48% BTG. Estável.
SQL custom inválido no BTG (42601 syntax error). 0 hits/24h — cessou.
Timeout/leitura de importação externa no BTG (IsTransient). Baixo volume.
Importação externa recusada — login failed no banco do cliente (GRUPOBRSA). Acionável via CS. Estável (3/9).
Conflito de collation em job (JOIN entre fontes com collations distintas). Estável.
DataTypeName super não suportado em teste de layout (Redshift). Raro, 0/24h.
  Falha HTTP downstream5 grupos · 838 hits
Backend chamando serviço pipeline e recebendo Catalog Error (ETL_<id> não existe) — dessincronização de staging segue quente.
Backend repassando o erro do serviço de consulta. Amostra mudou de "ÁREA DE NEGOCIO NOVO" para "matching_<id> não existe (side_a_<id>?)" — mesma raiz do q_match_catalog. Top clientes: afextyc, yamaha, conciliadorrm.
DataEngine devolvendo 502 nginx em staging query. 1 hit/24h — cessando.
Host remoto fechou a conexão durante request (0x800704CD) — transitório de rede do cliente. 0 hits/24h.
SetFileStatusAsync cancelado (MFT-CARREFOUR). Baixo volume.
  Pool shutdown race (Pika/multiproc)1 grupos · 164 hits
Pool shutdown race (Pika/multiproc), pool crash 94 + StreamLost 70 = 164/72h. Levemente acima do anterior (116).
  Conexão Rabbit (dev timeout)1 grupos · 261 hits
Timeout de conexão no rabbit-dev a partir de máquinas locais. QUASE DOBROU (162/24h vs 84). Ambiente, não produto.
  Erro de frontend (null/undefined)1 grupos · 220 hits
Erros de tela diversos: dominante é null/undefined (51/24h, props 'class'/'currentSizeGB'/'Data'); + Network Error e mensagens de "aprovação em massa/execução em andamento" caindo como FrontException. 33 tenants.
  Gateway session-init (novo MS)2 grupos · 225 hits
SUBIU forte: 108 hits/24h (era 4). Agora user=postgres host=postgres — o gateway novo (16.4.0) não consegue iniciar sessão. Sem website associado.
Variante antiga do session-init (user=chirpstack, host vazio) praticamente cessou — o volume migrou pra user=postgres (gw_sessioninit).
  Erro de DI (Autofac)1 grupos · 106 hits
IStepExecutor "Matching" não registrado no DI ao processar IOutputStep. 87% internal/eng. Estável.
  Arquivo ausente (PDF/staging)4 grupos · 134 hits
Staging DuckDB inexistente na leitura (Matching/Pipeline/DataEngine). 9/24h, 67/72h.
Path SFTP Cielo_MetroBahia ausente no CCR (FileCopyProcessJob). Customer-specific.
Arquivo XML do portal ausente no storage Ttl (import PAN). 89% BTG.
Access denied em cópia de arquivo SFTP/share (I4PRO, Ipiranga). Raro.
  Arquivo fonte inválido (ETL)1 grupos · 18 hits
Arquivo fonte inválido — xlsx não suportado / worksheet ausente. 0 hits/24h.
  Falha de chunk (extração)1 grupos · 28 hits
Chunk failed/skipped na extração — concentrado nas últimas 24h (27 de 28).
  Erro de negócio (validação)1 grupos · 111 hits
Mistura: amostra de componente ETL pedindo re-salvar (Classificação Regras) + validação de licença online indisponível. 50% eng-release-fix.
  Falha de SMTP1 grupos · 101 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). Estável.
  Stress test (30K arquivos)1 grupos · 1.553 hits
Stress de 30K arquivos no eng-hotfix PRATICAMENTE PAROU — 9 hits/24h vs 1.553 acumulados em 72h. Ainda infla o total de 72h.
  Timeout Redis (sessão)1 grupos · 5 hits
PSETEX 5000ms em redis-dev via eng-hotfix — sessão via Redis (atenção k8s). 0 hits/24h.
  Bloqueio SSRF (proteção)1 grupos · 44 hits
Bloqueio SSRF de URLs trycloudflare em refresh de amostra — proteção operando como esperado. 0 hits/24h.
  Falha de autenticação (LDAP/AD)1 grupos · 9 hits
NOVO: falha de autenticação contra AD/LDAP (data 52e = credencial inválida). Baixo volume (9/72h) — relacionado ao login AD por grupo CN (PRD-9127). Acompanhar.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Stress test (30K arquivos)(none): [SetFileStatusAsync] External storage API returned NotFound, file /30KFIBackeng-hotfix2eng-internal, prod16.3.22, 14.8.491.553— estável
2Erro de schema ETL (DuckDB)Catalog Error (matching_X não existe): Unhandled exception on /staging/matching_Querydattos-data-engine-query-aws-16-36other, eng-internal16.3.22, 16.3.21390714NOVO
3Erro de schema ETL (DuckDB)ASGI/DuckDB (Query, demais): Exception in ASGI application (demais erros do servQuerydattos-data-engine-query-aws-16-37other, eng-internal16.3.21, 16.3.22120708▼ 50%
4Falha EF/DBEntityException: Failed to execute polling task. The underlying provider failed Backlocalhost31local, prod, other, eng-internal16.3.20, 16.3.21182622— estável
5Job/fluxo Hangfire falhandoInvalidOperationException: Failed to process the job: A execução do fluxo não foBackagibank5prod16.3.20, 16.3.21156515— estável
6Erro de banco/SQLSqlException: Failed to process the job '677064': An object or column name is miBackagibank16prod, other, local, dev, hom15.4.11, 15.4.15104486— estável
7Falha HTTP downstreamInvalidOperationException: Error calling service 'pipeline', operation 'transforBackagibank20prod, eng-internal, other16.3.20, 16.3.2142442— estável
8Falha HTTP downstreamHttpRequestException: Catalog Error: Table with name matching_32363731325F4954 dBackafextyc24prod, eng-internal, local, demo, dev16.3.20, 16.3.21144357— estável
9Conexão Rabbit (dev timeout)AMQP/TCP timeout: AMQPConnectionWorkflowFailed: TCP connection attempt timed outDataEngineNoWebsite5other, local, prod16.3.21, 16.3.6162261▲ 118%
10Gateway session-init (novo MS)(none): session-init call failed for user=postgres host=postgres Traceback (httpDattos-GatewayNoWebsite1other16.4.0108221▲ 89%
11Erro de banco/SQLEntityCommandExecutionException: An error occurred while reading from the store Backdattos (BTG)36prod, local, eng-internal, dev, other, hom, demo15.4.11, 15.4.1559221— estável
12Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'class' / 'currentSFrontzaffari33prod, hom, eng-internal15.4.11, 16.3.1485220— estável
13Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process matching-16-3: Pipeline+Matching+DataEngineNoWebsite21prod, other, eng-internal, local, demo16.3.21, 16.3.2232164▲ 41%
14Falha EF/DBInvalidOperationException: Error retrieving tenant: network-related error establBackNoWebsite1other16.3.21, 16.3.228117— estável
15Erro de negócio (validação)BusinessException: Erro ao atualizar a amostra do componente Classificação RegraBackeng-release-fix15eng-internal, local, prod, dev15.4.11, 16.3.2044111— estável
16Erro de DI (Autofac)ComponentNotRegisteredException: Error processing IOutputStep 29644. The requestBackinternal2local, eng-internal16.3.22, 16.4.013106— estável
17Falha de SMTPSmtpException: Erro ao enviar e-mail. 4.4.2 Message submission rate for this cliBackdattos (BTG)2prod, hom15.4.11, 16.3.2230101— estável
18Erro de schema ETL (DuckDB)Catalog/Binder Error: Binder Error: Values list ETL_<A>_<B> does not have a coluPipelineafextyc7prod, eng-internal, local, demo16.3.21, 16.3.22682— estável
19Arquivo ausente (PDF/staging)IO Error (staging DuckDB read-only): Error: IO Error: Cannot open database "/mntMatchingNoWebsite15other, local, prod, eng-internal16.3.21, 16.3.22967▲ 458%
20Falha EF/DBNullReferenceException: Object reference not set to an instance of an object. TrBackeng-release-fix11eng-internal, prod, local, dev15.4.11, 16.3.201063— estável
21Erro de banco/SQLPostgresException: 42601: syntax error at or near "db_cadastral_analytics" in coBackdattos (BTG)1prod15.4.11062— estável
22Falha EF/DBInvalidOperationException: Store update, insert, or delete statement affected anBackNoWebsite30other, prod, local, eng-internal, demo, hom, dev15.4.11, 15.4.152155— estável
23Bloqueio SSRF (proteção)SsrfException: Error refreshing sample from step. The URL 'https://...trycloudflBackeng-develop3dev, eng-internal, prod16.3.21, 16.3.22044— estável
24Falha EF/DBArgumentNullException: Value cannot be null. Parameter name: columnA. Trace: at Backcea10prod, eng-internal, local15.4.11, 16.3.201543▲ 34%
25Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.221236— estável
26Falha de chunk (extração)Chunk failed/skipped (Pipeline): -> Chunk 1 failed / Chunk too small or max deptPipelineafextyc8prod, local, demo, eng-internal16.3.21, 16.3.222728— estável
27Falha HTTP downstreamJsonReaderException: DataEngine returned non-parseable JSON on route 'staging/stBackeng-hotfix4eng-internal, hom, prod16.3.22128— estável
28Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl. FileName: import\PAN\{dataBackdattos (BTG)2prod15.4.11, 16.3.22727— estável
29Erro de schema ETL (DuckDB)Parser Error (Pipeline): Error: Parser Error: SELECT clause without selection liPipelineafextyc5prod, local, demo16.3.21, 16.3.22424NOVO
30Arquivo fonte inválido (ETL)xlsx/worksheet (Pipeline): Error: Excel xlsx file; not supported / Worksheet namPipelinetbmtextil5prod, demo16.3.21, 16.3.22018— estável
31Erro de schema ETL (DuckDB)Conversion Error: Conversion Error: Could not convert string '' / 'SET' to INT32PipelineNoWebsite10other, prod, demo16.3.21, 16.3.22015— estável
32Erro de banco/SQLNpgsqlException: Erro durante importação ID 2437924 Exception while reading fromBackdattos (BTG)1prod15.4.11615— estável
33Falha de autenticação (LDAP/AD)(none): The user name or password is incorrect. ExtendedErrorMessage: 8009030C: BackNoWebsite2other, local16.3.22, 16.4.019NOVO
34Erro de banco/SQL(none): Login failed for user 'grupobrsa\sys.rend.dattos.aplh'. (importação exteBackbrsa1prod39— estável
35Erro de banco/SQL(none): Failed to process the job: Cannot resolve the collation conflict betweenBack1prod26— estável
36Falha HTTP downstreamHttpException: The remote host closed the connection. The error code is 0x800704Backzaffari3prod16.3.20, 16.3.2206— estável
37Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status for /MFT-CBackcsf-qa2prod16.3.2215— estável
38Timeout Redis (sessão)RedisTimeoutException: Timeout performing PSETEX (5000ms) ... session:user ... sBackeng-hotfix1eng-internal16.3.2205— estável
39Gateway session-init (novo MS)(none): session-init call failed for user=chirpstack host= (host vazio)Dattos-GatewayNoWebsite1other16.4.004NOVO
40Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path '\\dsapc0232pfs\Credito\6 INSURABackipiranga2prod, hom15.4.15, 16.3.2224▲ 33%
41Erro de banco/SQLInvalidCastException: Reading as 'System.Object' is not supported for fields havBackdattos (BTG)1prod15.4.1103▼ 25%