QA Telemetry — 2026-06-12 08:57

Janela: últimas 24h e 72h · Tenants afetados: 63 (24h) / 104 (72h) de 160 · Queries Loki: 165 · Método: count_over_time (totais reais)

Leia antes do número. Volume caiu 71% em 72h (27,2K → 8,0K) — mas é a storm de 30K arquivos no eng-hotfix terminando (20,3K → 1,5K, só 9 hits nas 24h): ruído de teste interno saindo da janela, NÃO melhora de produto. Tirando a storm, a saúde de SQL/EF do Back é o ofensor real e PIOROU — EntityException (polling transient) subiu ~30% pra 622, e o Query MS segue com 1.413 Catalog Errors de coluna/tabela ausente (+18%). Hangfire (525, agibank concentra 239) e pipeline-call/DuckDB (465) em platô alto. Novo: burst de 'Chunk failed' na extração do Pipeline (28 nas 24h).
Erros (24h)
1.718
▼ 58% vs anterior
Erros (72h)
8.018
▼ 71% vs anterior
Tenants afetados
63 / 160
104 em 72h
Categorias
19
9 prováveis bugs
Mudanças vs snapshot anterior

Atual: 2026-06-12 08:57 · Anterior: 2026-06-11 14:43 · Delta: 18h atrás

⊕ Erros novos / ressurgidos

·
Falha de chunk (extração)Chunk failed/skipped (Pipeline): -> Chunk 1 failed / Chunk too small or · afextyc, sales, holambracoop, +1
28

⊖ Erros que pararam (extintos)

·
DependencyResolutionException: activating ApiKeyService -> DattosDbConte · API key fora de contexto de tenant — extinto na janela
−6
·
Binder Error: update column nonexistent_col not found (DataEngine edit-r · testes locais de edit-rows — sem hits novos
−6
·
BackgroundJobClientException: Failed to execute job ISendEmailJob (Hangf · criação de job de e-mail no Hangfire — extinto
−3
Distribuição de impacto
Por ambiente

Produção · 30 grupos · 5.627 hits

Eng interno (hotfix/release-fix/portal) · 19 grupos · 5.708 hits

Outros (NoWebsite/nós de serviço) · 11 grupos · 3.713 hits

Dev (eng-develop) · 5 grupos · 1.096 hits

Homolog/UAT · 4 grupos · 604 hits

Demo/trial · 8 grupos · 1.349 hits

Local · 16 grupos · 2.815 hits

Categorias
  Stress test (30K arquivos)1 grupos · 1.553 hits
▼ 92% (20.328 → 1.553) — a storm ACABOU: só 9 hits nas 24h, o resto é cauda saindo da janela de 72h. Foi o teste de 30K arquivos no eng-hotfix; ruído de exercício interno, não incidente. É a causa quase inteira da queda global de volume.
  Erro de schema ETL (DuckDB)3 grupos · 1.519 hits
▲ 18% (1.197 → 1.413) — agora é o maior ofensor real do dia. ASGI do Query MS envelopando Binder Error (coluna do header não bate com o layout esperado, ex. 'ÁREA DE NEGOCIO NOVO') e Catalog Error de matching_<ID>/tabela ETL ainda não materializada. 45% no nó query-aws-16-3.
Estável (95 → 91). Values list sem coluna / tabela ETL_ ausente no Pipeline — mesma família de step dessincronizado do bk_pipelinecall e do Query MS; afextyc na frente.
Estável (15 → 15): CAST de string vazia/'SET' para INT32 em transform — erro de dado/config do ETL.
  Job/fluxo Hangfire falhando1 grupos · 525 hits
Platô (533 → 525), 151 nas 24h. Top 72h: agibank 239, BTG 41, bayer 36, brpartners 35, krypton 28. Job de fluxo rejeitado porque o status já era Stopped/Running — re-disparo competindo com execução em andamento; agibank concentra a maior fatia.
  Falha EF/DB5 grupos · 844 hits
▲ ~30% (480 → 622), 187 nas 24h — PIOROU e é o ofensor de produto mais quente sob a storm. 'provider failed on Open' ao buscar regras de agendamento ativas: a tarefa de polling não consegue abrir conexão. 31 tenants, nenhum domina. Saúde do SQL/pool de conexões em alerta.
▼ (134 → 117), só 8 nas 24h. Falha de conexão ao resolver tenant em contexto de job (sem website) — mesmo cluster de saúde do pool SQL do be01poll/entcmd.
Estável (74 → 69). NRE em GetDesignStagingId(AnalysisMatchingConfig) — null-check ausente ao resolver o staging do matching; espalhado, volume moderado. Vale card.
▼ (58 → 32). Entity null no adapter EF (operação sobre registro já removido?) — espalhado, volume baixo.
Estável (7 → 4): tipo 'super' do Redshift sem suporte no teste de layout de import — gap real de tipo, volume mínimo.
  Erro de banco/SQL4 grupos · 799 hits
Leve queda (528 → 492), agibank 43%. SQL gerado com alias vazio em SELECT INTO + agora conflitos de collation (CP1_CI_AS vs Latin1_General) — config de processo/dado, não regressão de produto.
▼ 30% (320 → 225), BTG 48%. Mesmo cluster de saúde de conexão SQL do be01poll (polling/schedule rules) — caiu, mas o EntityException irmão subiu; o problema de pool só mudou de roupa.
▼ (92 → 68), 0 nas 24h, 100% BTG: query externa do cliente com syntax error ('select * db_cadastral_analytics' sem FROM) — não é produto.
Estável (12 → 14), 100% BTG: timeout na importação de fonte externa Postgres/Redshift.
  Falha HTTP downstream4 grupos · 860 hits
Platô alto (467 → 465), 61 nas 24h. VIEW apontando pra tabela de step N enquanto o staging tem N+1 — mesma família dessincronizada dos Catalog/Binder do Pipeline e do Query MS. Liga com pl_catalog.
▲ 18% (308 → 362). Back chamando o DataEngine e recebendo Binder Error de coluna fora do FROM — header da fonte não bate com o layout esperado pela fórmula. Espalhado (24 tenants), yamaha/afextyc na frente.
Estável (31 → 28), 0 nas 24h: nginx 502 na rota de query do staging — upstream do DataEngine, maioria em eng-internal.
Estável (5 → 5): SetFileStatusAsync cancelado em arquivo MFT-CARREFOUR (csf-qa) — timeout na API de storage.
  Pool shutdown race (Pika/multiproc)1 grupos · 116 hits
▼ 80% (318 → 63) e 0 nas 24h — a onda saiu da janela. Crash de pool multiproc + StreamLost entre Pipeline/Matching/DataEngine no shutdown; agora residual.
  Erro de frontend (null/undefined)1 grupos · 247 hits
Estável (240 → 247). Amostra: 'Cannot read properties of undefined (reading find)' em v-on handler de v-select — acesso a propriedade de objeto ainda não carregado. Espalhado por 33 tenants; vale card de frontend (null-guard no handler).
  Conexão Rabbit (dev timeout)1 grupos · 120 hits
84 das 120 ocorrências nas últimas 24h — timeout de TCP no rabbit-dev no DataEngine, ainda batendo forte. O resto do source (133/24h) inclui ASGI e IO Error de parquet ausente no datalake. Checar saúde do rabbit-dev.
  Erro de DI (Autofac)1 grupos · 100 hits
Platô (94 → 100) mas só 8 nas 24h. Resolução Autofac de 'Matching (IStepExecutor)' não registrada ao processar IOutputStep — confinado a internal/eng-release-fix (provável ambiente sem o módulo Matching carregado).
  Arquivo ausente (PDF/staging)4 grupos · 77 hits
Metrônomo (36 → 36), 100% CCR: pasta SFTP de origem (Cielo_MetroBahia) segue inexistente — config de FileCopy; avisar CS.
▼ (45 → 27). XML do portal PAN ausente no storage (BTG 85%) — import referenciando arquivo já removido.
▲ (50 → 73, agora 100% no Matching). Matching tentando abrir staging DuckDB read-only que não existe (load ainda não materializado ou já limpo) — liga com o limite de storage capacity do Pipeline MS.
Estável (3 → 3), 100% ipiranga: acesso negado ao deletar arquivo SFTP (EXTBAMPM*.TXT) — permissão de filesystem no servidor.
  Arquivo fonte inválido (ETL)1 grupos · 20 hits
Estável (24 → 20): .xlsx não suportado (provável .xls renomeado/corrompido) + worksheet 'PosicaoFinanceira' ausente — arquivo fonte fora do layout; erro de dado do cliente.
  Falha de chunk (extração)1 grupos · 28 hits
NOVO: burst de 'Chunk 1 failed' + 'Chunk too small or max depth reached. Skipping.' no Pipeline — todos os 28 hits nas últimas 24h. Parece falha/skip de chunk na extração (PDF/AI ou particionamento de carga); confirmar se degrada o resultado ou é só log de retry. Monitorar.
  Erro de negócio (validação)2 grupos · 296 hits
Estável (186 → 167), 20 nas 24h. Notificação configurada sem destinatário — 'Destinatário do e-mail não definido' no SendEmailJob; internal concentra 63%.
Estável (140 → 128). Mix de validações de negócio funcionando como guard (licença online indisponível, agendamento duplicado) — a exceção É a regra; maioria em eng-release-fix.
  Falha de SMTP1 grupos · 104 hits
Estável (101 → 104), 99% BTG: rate limit do servidor SMTP do cliente — throttle de envio, não bug do produto.
  Gateway session-init (novo MS)1 grupos · 117 hits
Platô (118 → 117) mas só 4 nas 24h — o ritmo caiu hoje. user agora é 'chirpstack' (antes sonar/zabbix): probes batendo em session-init quebrado do MS 16.4.0. Segue sem dono; escalar pra quem opera o gateway.
  Timeout Redis (sessão)1 grupos · 5 hits
Mesmo volume (5 → 5), eng-hotfix 16.3.22. PSETEX de sessão dando timeout (5s) contra redis-dev. Atenção: Redis é o switch de cross-pod safety da migração k8s — se redis-dev degrada, sessão e locks vão junto. Volume baixo, mas monitorar.
  Bloqueio SSRF (proteção)1 grupos · 45 hits
Estável (50 → 45). Bloqueio de URL trycloudflare (túnel de dev) ao atualizar amostra de step — proteção SSRF funcionando; 78% eng-develop.
  Permissão negada (RBAC)1 grupos · 4 hits
▼ (9 → 4), 0 nas 24h: RBAC negando configuração de processo — comportamento esperado.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Stress test (30K arquivos)(none): [SetFileStatusAsync] External storage API returned NotFound, file /30KFIBackeng-hotfix2eng-internal, prod16.3.22, 14.8.491.553▼ 92%
2Erro de schema ETL (DuckDB)ASGI/DuckDB (Query): Binder Error: Referenced column "ÁREA DE NEGOCIO NOVO" not Querydattos-data-engine-query-aws-16-37other, eng-internal16.3.21, 16.3.224351.413— estável
3Falha EF/DBEntityException: Failed to execute polling task. The underlying provider failed Backlocalhost31local, prod, other, eng-internal16.3.20, 16.3.21187622▲ 30%
4Job/fluxo Hangfire falhandoInvalidOperationException: Failed to process the job: A execução do fluxo não foBackagibank30prod16.3.20, 16.3.21151525— estável
5Erro de banco/SQLSqlException: An object or column name is missing or empty (SELECT INTO / alias Backagibank17prod, other, local, dev, demo15.4.11, 15.4.4116492— estável
6Falha HTTP downstreamInvalidOperationException: Error calling service 'pipeline', operation 'transforBackagibank20prod, eng-internal, other16.3.20, 16.3.2158465— estável
7Falha HTTP downstreamHttpRequestException: Binder Error: Referenced column "ÁREA DE NEGOCIO NOVO" notBackyamaha24prod, eng-internal, local, demo, dev16.3.20, 16.3.21139362— estável
8Erro de frontend (null/undefined)FrontException: Cannot read properties of undefined (reading 'find') — vue-compoFrontedenred33prod, hom, eng-internal, local15.4.11, 16.3.1478247— estável
9Erro de banco/SQLEntityCommandExecutionException: An error occurred while executing the command dBackdattos (BTG)35prod, local, eng-internal, other, hom, demo15.4.11, 15.4.1559225▼ 30%
10Erro de negócio (validação)ArgumentException: Erro ao enviar e-mail. Destinatário do e-mail não definido (SBackinternal9local, prod, eng-internal15.4.11, 16.3.2020168— estável
11Erro de negócio (validação)BusinessException: Não foi possível obter a licença online para validação / Já eBackeng-release-fix14eng-internal, local, prod, dev15.4.11, 16.3.2144128— estável
12Conexão Rabbit (dev timeout)AMQP/TCP timeout: AMQPConnectionWorkflowFailed: TCP connection attempt timed outDataEngineNoWebsite5other, local, prod16.3.21, 16.3.684120▼ 43%
13Falha EF/DBInvalidOperationException: Error retrieving tenant: network-related error establBackNoWebsite1other16.3.21, 16.3.228117— estável
14Gateway session-init (novo MS)(none): session-init call failed for user=chirpstack host= (httpx) — Dattos-GateDattos-GatewayNoWebsite1other16.4.04117— estável
15Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process: can only test Pipeline+Matching+DataEngineNoWebsite21prod, other, eng-internal, local, demo16.3.21, 16.3.2216116▼ 64%
16Falha de SMTPSmtpException: 4.4.2 Message submission rate for this client has exceeded the coBackdattos (BTG)2prod, hom15.4.11, 16.3.2231104— estável
17Erro de DI (Autofac)ComponentNotRegisteredException: Error processing IOutputStep 29644. The requestBackinternal2local, eng-internal16.3.22, 16.4.08100— estável
18Erro de schema ETL (DuckDB)Catalog/Binder Error: Binder Error: Values list ETL_<A>_<B> does not have a coluPipelineafextyc7prod, eng-internal, local, demo16.3.21, 16.3.22991— estável
19Falha EF/DBNullReferenceException: Object reference not set — DataEngineExtensions.GetDesigBackeng-release-fix12eng-internal, prod, local, dev15.4.11, 16.3.201369— estável
20Erro de banco/SQLPostgresException: 42601: syntax error at or near 'db_cadastral_analytics' in coBackdattos (BTG)1prod15.4.11068▼ 26%
21Bloqueio SSRF (proteção)SsrfException: URL 'https://*.trycloudflare.com/...' was blocked by SSRF protectBackeng-develop4dev, eng-internal, prod16.3.21, 16.3.221145— estável
22Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.20, 16.3.221236— estável
23Falha EF/DBArgumentNullException: Value cannot be null. Parameter name: entity — DbEntitySeBackcea8prod, eng-internal, local15.4.11, 16.3.20732▼ 45%
24Falha HTTP downstreamJsonReaderException: DataEngine returned non-parseable JSON on route 'staging/stBackeng-hotfix4eng-internal, hom, prod16.3.21, 16.3.22028— estável
25Falha de chunk (extração)Chunk failed/skipped (Pipeline): -> Chunk 1 failed / Chunk too small or max deptPipelineafextyc8prod, local, demo, eng-internal16.3.21, 16.3.222828NOVO
26Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl — import\PAN\{data}\portal\Backdattos (BTG)3prod15.4.11, 16.3.201127▼ 40%
27Arquivo fonte inválido (ETL)xlsx/worksheet (Pipeline): Error: Excel xlsx file; not supported / Worksheet namPipelinetbmtextil5prod, demo16.3.21, 16.3.221520— estável
28Erro de schema ETL (DuckDB)Conversion Error: Conversion Error: Could not convert string '' / 'SET' to INT32PipelineNoWebsite10other, prod, demo16.3.21, 16.3.22015— estável
29Erro de banco/SQLNpgsqlException: Erro durante importação — The operation has timed out (IsTransiBackdattos (BTG)1prod15.4.11514— estável
30Arquivo ausente (PDF/staging)IO Error (staging DuckDB): IO Error: Cannot open database '/mnt/staging/<uuid>/<MatchingNoWebsite15other, local, prod, eng-internal16.3.21, 16.3.22711▼ 78%
31Timeout Redis (sessão)RedisTimeoutException: Timeout performing PSETEX (5000ms) — <uuid>:session:user:Backeng-hotfix1eng-internal16.3.2255— estável
32Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status — /MFT-CARBackcsf-qa2prod16.3.2235— estável
33Permissão negada (RBAC)AuthorizationException: Você não tem permissão para configurar um Processo (AnalBackarcoeducacao2prod16.3.2004▼ 56%
34Falha EF/DBInvalidCastException: Reading as 'System.Object' is not supported for fields havBackdattos (BTG)2prod, local15.4.11, 16.3.2104▼ 43%
35Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path 'd:\ipiranga\ttl\import\SFTP\ConBackipiranga1prod16.3.20, 16.3.2213— estável