QA Telemetry — 2026-06-11 08:42

Janela: últimas 24h e 72h · Tenants afetados: 71 (24h) / 103 (72h) de 158 · Queries Loki: 127 · Método: count_over_time (totais reais)

Leia antes do número. O salto de 2.211 → 4.360 erros/24h é majoritariamente exercício interno: o stress de 30K arquivos voltou a rodar no eng-hotfix (1.544 hits/24h, ontem 0) e o Dattos-Gateway 16.4.0 voltou a falhar session-init sob probe do zabbix (110/24h). No lado produto a atenção real é o trio de dessincronização de staging: Query MS com Catalog Error de matching ausente (480 hits/72h), 'Error calling service pipeline' ▲82% e EntityException de polling ▲63%.
Erros (24h)
4.360
▲ 97% vs anterior
Erros (72h)
27.158
▲ 11% vs anterior
Tenants afetados
71 / 158
103 em 72h
Categorias
18
12 prováveis bugs
Mudanças vs snapshot anterior

Atual: 2026-06-11 08:42 · Anterior: 2026-06-10 14:44 · Delta: 18h atrás

⊕ Erros novos / ressurgidos

·
Erro de schema ETL (DuckDB)Binder/DuckDB (edit rows): Failed to update rows in 'test_table': Binder · local-maiglon, localhost
6

⊖ Erros que pararam (extintos)

Nenhum.

Distribuição de impacto
Por ambiente

Produção · 31 grupos · 4.739 hits

Eng interno (hotfix/release-fix/portal) · 18 grupos · 25.270 hits

Outros (NoWebsite/nós de serviço) · 13 grupos · 4.184 hits

Dev (eng-develop) · 1 grupos · 39 hits

Homolog/UAT · 3 grupos · 425 hits

Demo/trial · 8 grupos · 2.204 hits

Local · 15 grupos · 2.844 hits

Categorias
  Stress test (30K arquivos)1 grupos · 20.328 hits
Storm RESSURGIU: 1.544 hits nas últimas 24h (ontem estava em 0). Teste de stress com 30K arquivos voltou a rodar no eng-hotfix — 35% de todo o volume 24h. Ruído de exercício interno, não incidente.
  Erro de schema ETL (DuckDB)4 grupos · 1.244 hits
▲ 48% (807 → 1.191). Dos 1.191, 480 são Catalog Error de matching_<ID> ausente (análise consultada antes do matching materializar — espelha o HttpRequestException do Back); o resto é ASGI envelopando Parser/Binder. 47% no nó query-aws-16-3.
Segue vivo (28 → 32): view referenciando step antigo (±1 no ID) no lado Pipeline. É a mesma raiz do bk_pipelinecall que está ▲82% no Back.
Voltou: 15 hits, todos nas últimas 24h (ontem o resíduo tinha saído da janela). CAST de string vazia/'SET' para INT32 em transform — erro de dado/config do ETL.
NOVO (e claramente intencional): testes locais do Maiglon exercitando edit-rows com coluna inexistente/constraint violation no DataEngine — dev testing, não incidente.
  Job/fluxo Hangfire falhando2 grupos · 565 hits
Leve alta (519 → 562 em 72h). Top tenants: agibank (235), BTG (54), bayer (41). IOE total do Back é 702/1.528 — os 3 padrões filtrados (status, pipeline-call, tenant) cobrem ~77%; o resto é cauda variada.
Criação de job de e-mail falhando no Hangfire (CSF) — 0 hits em 24h.
  Falha EF/DB6 grupos · 756 hits
▲ 63% (292 → 475) e segue espalhando (31 tenants, nenhum concentra >8%). Polling falhando com erro transient de conexão — terceiro dia em alta; investigar saúde do SQL/pool de conexões.
▲ 113% (63 → 134) e 83 só nas 24h. Falha de conexão ao resolver tenant em contexto de job — acompanhar junto com a EntityException de polling: ambos cheiram a saúde do pool de conexões SQL.
▲ 39% (51 → 71). Amostra mudou: NRE no Dispose do DataEngineCustomRowExtractor — falha no cleanup pós-import (provavelmente mascarando a exceção original do import).
Estável (57 → 62). Entity null no adapter EF (operação sobre registro já removido?) — espalhado em 15 tenants, volume baixo.
Amostra mudou: agora é o tipo 'super' do Redshift não suportado no teste de layout de import — gap real de suporte a tipo, volume mínimo.
Estável (6 → 6), 0 hits em 24h: API key fora de contexto de tenant.
  Erro de banco/SQL6 grupos · 972 hits
▲ 26% (411 → 516), agibank concentra 38%. Mesmo padrão dos últimos dias: SQL gerado com alias vazio em SELECT INTO — provável config de processo, não regressão de produto.
▲ 29% (252 → 324), BTG concentra 71%. Amostra atual: polling de e-mails pendentes (GetPendingEmailsAsync) falhando — mesmo cluster de saúde de conexão SQL do be01poll.
▲ 110% (49 → 103), 100% BTG. Amostra: 'select * db_cadastral_analytics' sem FROM — query externa do cliente com syntax error, não produto.
Estável (12 → 13), 100% BTG: timeout na importação de fonte externa Postgres/Redshift.
NOVO como grupo destacado: login do conector de import falhando no DB externo AB_CONTABIL (GRUPOBRSA) — credencial do cliente expirada/sem acesso; também aparece conflito de collation no mesmo tenant. Acionar CS.
Estável (8 → 8), 100% BTG: host MySQL externo inacessível na importação.
  Erro de DI (Autofac)1 grupos · 93 hits
Burst diário recorrente: 92 hits/24h hoje, mesmo padrão de ontem. Resolução Autofac de IRefreshStepProvider com chave de step '27884' não registrada — 99% internal, ainda não atingiu prod, mas é determinístico e repetitivo: vale card.
  Falha HTTP downstream5 grupos · 835 hits
▲ 82% em 72h (268 → 487) e acelerando (284 só nas 24h). VIEW apontando pra tabela de step N enquanto o staging tem N+1 — race/dessincronização de versão de step no transform. Mesmo fenômeno visto no Pipeline (pl_catalog) e no Query MS.
▲ 37% (218 → 298). Amostra mudou: Binder Error com coluna truncada no candidate binding ('axa Total Contratual' sem o T) — cheiro de header corrompido/truncado na fonte do afextyc. Antes era matching_<ID> ausente.
Estável (39 → 42): nginx 502 na rota de query do staging — upstream do DataEngine caindo sob carga, maioria em eng-internal.
Cliente fechou a conexão durante o response — ruído de rede do lado do usuário.
Timeout/cancel na chamada ao Agent durante refresh de amostra — volume mínimo.
  Erro de frontend (null/undefined)1 grupos · 281 hits
▲ 11% (254 → 281), 34 tenants. Amostra atual: 'leftInputColumn' undefined em handler de v-autocomplete (config de regra de matching no editor?) — null-guard ausente em componente compartilhado.
  Conexão Rabbit (dev timeout)1 grupos · 148 hits
Estável (123 → 148). Timeout do rabbit-dev em ambiente local/dev — ruído de desenvolvimento.
  Pool shutdown race (Pika/multiproc)1 grupos · 719 hits
▲ 50% (480 → 719). Race conhecida de shutdown do pool Pika nos MS Python (Pipeline + Matching; DataEngine soma +7 pool_crash). ConnectionResetError 104 ao fechar conexão Rabbit.
  Arquivo ausente (PDF/staging)3 grupos · 95 hits
Estável (37 → 40). Arquivo de upload-stage ausente no storage (BTG/Allcare) — import referenciando arquivo já removido.
Estável (36 → 36), 100% CCR: diretório SFTP de origem (Cielo_MetroBahia) segue ausente — config de FileCopy apontando pra pasta inexistente; vale avisar CS.
Segue (19 → 19): staging DuckDB sumiu antes da leitura. Liga com o padrão de staging perdido/limpo no Pipeline MS e com o Catalog Error do Query.
  Erro de negócio (validação)2 grupos · 308 hits
Composição mudou de novo: agora dominada por ValidateAddress(toRow) no ClosedXmlExcelWriter — export Excel com range inválido (planilha vazia?). 61% no internal, mas BTG/Travelex/MBenz aparecem.
Estável (121 → 137). Amostra atual: SendEmailJob reprocessando e-mail já enviado — idempotência funcionando (a exceção É o guard), mas o reenfileiramento duplicado merece olhar se crescer.
  Falha de SMTP1 grupos · 102 hits
Estável (87 → 102), 98% BTG: rate limit do servidor SMTP do cliente — throttle de envio, não bug do produto.
  Gateway session-init (novo MS)1 grupos · 118 hits
RESSURGIU: 110 hits nas 24h (ontem: 3). Agora o user é 'zabbix' — probe de monitoração batendo num session-init quebrado do novo MS 16.4.0. Ou o probe está mal configurado, ou o gateway voltou a falhar; checar com quem opera o zabbix.
  Permissão negada (RBAC)1 grupos · 9 hits
RBAC negando configuração de processo — comportamento esperado, 0 hits em 24h.
  Bloqueio SSRF (proteção)1 grupos · 39 hits
Estável (37 → 39), 95% eng-develop: proteção SSRF bloqueando chamada interna ao portal-dev — comportamento esperado da proteção; integração dev segue tentando rota interna.
  Falha de storage (S3)1 grupos · 3 hits
Assinatura S3 inválida no CSF — 0 hits em 24h.
  Erro de mapeamento (AutoMapper)1 grupos · 3 hits
▼ 75% (12 → 3), confinado ao eng-release-fix, 0 hits em 24h.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Stress test (30K arquivos)(none): [SetFileStatusAsync] External storage API returned NotFound, file /30KFIBackeng-hotfix2eng-internal16.3.21, 16.3.221.54420.328— estável
2Erro de schema ETL (DuckDB)ASGI/DuckDB (Query): Catalog Error: Table with name matching_<ID> does not existQuerydattos-data-engine-query-aws-16-36other, eng-internal16.3.21, 16.3.225461.191▲ 48%
3Pool shutdown race (Pika/multiproc)StreamLostError: Unexpected connection close detected: StreamLostError: Stream cPipeline+Matchingeng-release-fix24eng-internal, prod, other, local, demo16.3.11, 16.3.21226719▲ 50%
4Job/fluxo Hangfire falhandoInvalidOperationException: A execução do fluxo não foi realizada porque seu statBackagibank30prod16.3.20, 16.3.21203562— estável
5Erro de banco/SQLSqlException: An object or column name is missing or empty (SELECT INTO / alias Backagibank19prod, other, eng-internal, demo15.4.11, 15.4.4178516▲ 26%
6Falha HTTP downstreamInvalidOperationException: Error calling service 'pipeline', operation 'transforBackagibank20prod, eng-internal, other16.3.20, 16.3.21284487▲ 82%
7Falha EF/DBEntityException: Failed to execute polling task. Transient failure (SqlAzureExecBacklocal-maiglon31local, prod, other, eng-internal16.3.20, 16.3.21184475▲ 63%
8Erro de banco/SQLEntityCommandExecutionException: An error occurred while executing the command dBackdattos (BTG)32prod, eng-internal, demo, other, local15.4.11, 16.3.1492324▲ 29%
9Falha HTTP downstreamHttpRequestException: Binder Error: Referenced column 'Taxa Total Contratual (%)Backafextyc19prod, eng-internal, demo, local16.3.14, 16.3.20130298▲ 37%
10Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'leftInputColumn') Frontedenred34prod, hom, eng-internal, demo, local15.4.11, 16.3.1487281— estável
11Erro de negócio (validação)ArgumentException: toRow — ClosedXmlExcelWriter.ValidateAddress (export Excel coBackinternal8local, prod, eng-internal15.4.11, 16.3.20130171— estável
12Conexão Rabbit (dev timeout)AMQP/TCP timeout: AMQPConnectionWorkflowFailed: TCP connection attempt timed outDataEnginelocal-maiglon4local, other, prod16.3.21, 16.3.625148▲ 20%
13Erro de negócio (validação)BusinessException: O e-mail de ID {0} já foi processado — SendEmailJobBackeng-release-fix14eng-internal, local, prod15.4.11, 16.3.1441137— estável
14Falha EF/DBInvalidOperationException: Error retrieving tenant: network-related error establBackNoWebsite1other16.3.21, 16.3.2283134▲ 113%
15Gateway session-init (novo MS)(none): session-init call failed for user=zabbix host= (httpx) — Dattos-Gateway Dattos-GatewayNoWebsite1other16.4.0110118— estável
16Erro de banco/SQLPostgresException: 42601: syntax error at or near 'db_cadastral_analytics' in coBackdattos (BTG)1prod15.4.1162103▲ 110%
17Falha de SMTPSmtpException: 4.4.2 Message submission rate for this client has exceeded the coBackdattos (BTG)3prod, hom15.4.11, 16.3.2029102— estável
18Erro de DI (Autofac)ComponentNotRegisteredException: The requested service '27884 (IRefreshStepProviBackinternal2local, eng-internal16.3.21, 16.3.229293— estável
19Falha EF/DBNullReferenceException: Object reference not set — DataEngineCustomRowExtractor.Backdattos (BTG)12prod, eng-internal, local15.4.11, 16.3.203271▲ 39%
20Falha EF/DBArgumentNullException: Value cannot be null. Parameter name: entity — DbEntitySeBackgaspar15prod, eng-internal, local15.4.11, 16.3.142262— estável
21Falha HTTP downstreamJsonReaderException: DataEngine returned non-parseable JSON on route 'staging/stBackeng-release-fix4eng-internal, hom, prod16.3.21, 16.3.222742— estável
22Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl — upload-stage\27\ALLCARE_ABackdattos (BTG)4prod, eng-internal15.4.11, 16.3.20940— estável
23Bloqueio SSRF (proteção)SsrfException: URL 'https://eng-portal-dev...' blocked by SSRF protection (only Backeng-develop3dev, prod16.3.21, 16.3.222439— estável
24Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.20, 16.3.221236— estável
25Erro de schema ETL (DuckDB)Catalog Error: Catalog Error: Table with name ETL_<A>_<B>_<C> does not exist! DiPipelineNoWebsite21other, eng-internal, prod, demo, local16.3.21, 16.3.22832— estável
26Arquivo ausente (PDF/staging)IO Error (read-only): IO Error: Cannot open database '<staging>.duckdb' in read-Matching+DataEngineNoWebsite15other, local, prod, demo16.3.21, 16.3.221119— estável
27Erro de schema ETL (DuckDB)Conversion Error: Conversion Error: Could not convert string '' / 'SET' to INT32PipelineNoWebsite10other, prod, demo16.3.21, 16.3.221515▲ 114%
28Erro de banco/SQLNpgsqlException: Erro durante importação — The operation has timed out (IsTransiBackdattos (BTG)1prod15.4.11613— estável
29Permissão negada (RBAC)AuthorizationException: Você não tem permissão para configurar um Processo (AnalBackfinanceiro3prod16.3.20, 16.3.2109— estável
30Erro de banco/SQL(none): Erro durante importação ID <ID> — Cannot open database 'AB_CONTABIL': LoBackapp1prod14.8.448NOVO
31Falha EF/DBInvalidCastException: Reading as 'System.Object' is not supported for fields havBackinternal2local, prod15.4.11, 16.3.2138▲ 60%
32Erro de banco/SQLMySqlException: Unable to connect to any of the specified MySQL hosts (import exBackdattos (BTG)1prod15.4.1128— estável
33Erro de schema ETL (DuckDB)Binder/DuckDB (edit rows): Failed to update rows in 'test_table': Binder Error: DataEnginelocal-maiglon2local16.3.2166NOVO
34Falha EF/DBDependencyResolutionException: Exception activating ApiKeyService -> DattosDbConBackNoWebsite1other16.3.2006— estável
35Falha HTTP downstreamHttpException: The remote host closed the connection (0x800704CD)Backzaffari3prod16.3.20, 16.3.2245▲ 25%
36Falha HTTP downstreamTaskCanceledException: Error refreshing sample — Uma tarefa foi cancelada (AgentBackgaspar2prod16.3.20, 16.3.2223— estável
37Falha de storage (S3)AmazonS3Exception: The request signature we calculated does not match the signatBackcsf1prod16.3.2103— estável
38Job/fluxo Hangfire falhandoBackgroundJobClientException: Failed to execute job ISendEmailJob. Background joBackcsf1prod16.3.2103— estável
39Erro de mapeamento (AutoMapper)TargetInvocationException: Exception thrown by the target of an invocation — MapBackeng-release-fix1eng-internal16.3.2103▼ 75%