QA Telemetry — 2026-06-09 14:42

Janela: últimas 24h e 72h · Tenants afetados: 67 (24h) / 78 (72h) de 127 · Queries Loki: 170 · Método: count_over_time (totais reais)

Leia antes do número. Leia descontando a storm. Dos 20.886 erros/24h, ~18.784 (90%) são RUÍDO do teste de carga 30K em eng-hotfix (SetFileStatusAsync NotFound) — segue no mesmo ritmo da manhã. Volume real ≈ 2.102/24h. Movers reais nas últimas 24h: (1) pool-crash multiproc cross-service SUBIU 123→202/24h, puxado pelo rabbit-dev voltando a flapar (214/24h, quase tudo NoWebsite+dev local); (2) EntityCommand BTG segue em alta (155/24h, 77% BTG, leitura do data reader EF); (3) Hangfire 'status Stopped/Running' segue subindo (174/24h, prod sistêmico); (4) Query DuckDB 285/24h com NOVO flavor 'replace(DOUBLE,...)' (72/24h) somado ao Catalog Error de sempre (135). 1 grupo novo de baixo volume: DELETE FK em AnalysisMatchingExecutionStatistics (4, internal).
Erros (24h)
20.886
— estável
Erros (72h)
25.971
— estável
Tenants afetados
67 / 127
78 em 72h
Categorias
18
13 prováveis bugs
Mudanças vs snapshot anterior

Atual: 2026-06-09 14:42 · Anterior: 2026-06-09 08:42 · Delta: 6h atrás

⊕ Erros novos / ressurgidos

⊖ Erros que pararam (extintos)

Nenhum.

Distribuição de impacto
Por ambiente

Produção · 24 grupos · 5.883 hits

Eng interno (hotfix/release-fix/portal) · 16 grupos · 24.518 hits

Outros (NoWebsite/nós de serviço) · 8 grupos · 5.131 hits

Dev (eng-develop) · 2 grupos · 3.724 hits

Demo/trial · 5 grupos · 1.259 hits

Local · 12 grupos · 4.859 hits

Categorias
  Stress test (30K arquivos)1 grupos · 19.112 hits
RUÍDO DE LOAD TEST. Storm 30K em eng-hotfix segue no mesmo patamar da manhã (18.784/24h, 08:42 estava em 18.784). Sozinha responde por ~90% de TODO o volume 24h. Breakdown: file_30k=18.784, SetFileStatusAsync=18.783, storage_notfound=18.744 — mesma linha. A storage API devolve NotFound p/ os C30K-*.xlsx. NÃO é bug de produção. Descontando, o volume real 24h é ~2.102.
  Conexão Rabbit (dev timeout)1 grupos · 3.718 hits
rabbit-dev (TCP timeout) cross-service SUBIU 24h: 214 (DataEngine 142 + Matching 72) vs 112 só-DataEngine na manhã. 72h=3.718 (85% NoWebsite=nós de serviço, + local-denis 408, local-maiglon 117 — dev). gaspar (prod) só 30. É a MESMA raiz que derruba o pool (mc001): rabbit-dev cai → worker multiproc morre. Predominantemente infra dev/interna.
  Pool shutdown race (Pika/multiproc)1 grupos · 536 hits
SUBIU forte: 202/24h (vs 123 na manhã, +64%), 536/72h. Por source 24h: Matching 87 + Pipeline 85 + DataEngine 30. Race no shutdown do pool multiproc, acionada pela queda do rabbit-dev (de01rabb). Toca pipelines demo/prod (sales/mbenz/solinftec), mas o gatilho é a instabilidade do rabbit-dev. Maior mover real do dia (fora ruído).
  Erro de schema ETL (DuckDB)1 grupos · 417 hits
Nós Query (DuckDB) SUBIRAM de novo: 285/24h (vs 216 na manhã). Breakdown 24h: 'Catalog Error: Table matching_* does not exist' 135 (segue dominando — tabela de matching ausente no staging quando a query roda), + NOVO flavor 'No function matches replace(DOUBLE, STRING, STRING)' 72 (query gerada chama replace() sobre coluna numérica sem cast), + Parser Error 51. Tudo dentro de 'Exception in ASGI' (95). Mesma família de geração de query defeituosa vista no Back (httpreq/76a34453).
  Job/fluxo Hangfire falhando2 grupos · 326 hits
Job Hangfire dispara fluxo cujo status é Stopped/Stopping/Running. SEGUE EM ALTA: 174/24h (manhã 189, anteontem 146, antes 41) — patamar elevado sustentado. 72h subiu p/ 323. Sistêmico ~22 tenants prod; top 72h: agibank 100, tbmtextil 33, BTG 32, bayer 29, brpartners 24. Vale investigar idempotência do enqueue: scheduler dispara fluxos já parados em lote.
Criação de job Hangfire ISendEmailJob falha (csf). Estável e baixo (3/24h). Liga com a fila de e-mail/Hangfire — possível indisponibilidade do storage Hangfire/Redis no enqueue, e com b4892080 (SMTP rate limit do mesmo csf/BTG).
  Erro de frontend (null/undefined)1 grupos · 181 hits
Front DIVERSO (105/24h, 26 tenants, edenred 17%, sem ofensor único). Breakdown 24h: reading 'class' (ProcessTag) 14 (voltou a subir, estava 2 na manhã), Network Error 12, 'calendarId' undefined 8, 'toastError is not defined' 4, 'CanvasDrawerContent' 2 (StepFormSqlTransform). O 'toastError is not defined' segue cheirando bug de build/import.
  Falha HTTP downstream3 grupos · 281 hits
Chamadas HTTP a downstream (DataEngine query). SUBIU 24h (95 vs 76). Flavor: 'Binder Error: Referenced column VALOR_AJUSTADO not found' (coluna não existe na FROM gerada). 17 tenants. Mesmo problema de geração de query do q02catalog/76a34453 — coluna/alias inexistente na SQL gerada.
Chamada ao serviço pipeline (operation transform) falhando: 69/24h, 130/72h (~estável vs manhã 83). Liga direto com mc001/de01rabb — quando o pool/rabbit caem, o transform falha. Sintoma, não raiz.
DataEngine devolve JSON não-parseável (HTTP 503 nginx). CAIU 24h (4 vs 14), 16/72h. 94% eng-release-fix. DataEngine indisponível em janelas pontuais.
  Erro de banco/SQL5 grupos · 468 hits
SqlException 145/24h (manhã 140), 236/72h. Breakdown: 'object or column name missing for SELECT INTO' (alias vazio na SQL gerada) 69/24h — dominante; deadlock 0; timeout 7. 59% agibank. Mesma família de geração de query defeituosa do httpreq/q02catalog.
SEGUE ELEVADO: 155/24h (manhã 158), 171/72h e 24h≈72h ⇒ concentrado nas últimas 24h. 77% BTG (data reader EF em AnalysisLoadRepository.GetByKey / LoadStepsAsync) — provável timeout/queda de conexão SQL do BTG sob pressão (liga com 76a34453 e bk_npgtimeout, mesmo banco BTG).
100% BTG v15.4.11. Flavor agora '42601 syntax error at end of input' (Redshift, posição 1397 — SQL gerada incompleta/truncada). Estável (30/24h, 42/72h). Saúde de geração de query do BTG segue instável — vigiar junto de entcmd/bk_npgtimeout.
Timeout de importação Postgres (transient), 100% BTG v15.4.11. Estável (13/72h). Parte do quadro de pressão no banco BTG.
Conexão externa MySQL falha (transient), 100% BTG, importação de dado externo. Estável e baixo (6/72h).
  Falha EF/DB7 grupos · 172 hits
Backend não abre conexão SQL ao resolver o tenant (resolver multi-tenant, sem website). Estável (25/24h, 49/72h). Liga com bk_depresolve (ApiKeyService → TenantContext) — resolução de tenant instável.
Flavor agora 'columnA' null no construtor de AnalysisMatchingRelationship (config de matching com coluna ausente). Estável 24h (30 vs 37). 10 tenants, gaspar 39%. Liga ao motor de conciliação Análise/Construtor.
100% local-maiglon (dev local). Polling de regras de agendamento falha ao abrir conexão de banco — ambiente local de dev sem banco no ar. 40/24h==40/72h ⇒ tudo nas últimas 24h. Ruído de dev, não cliente.
NRE em MatchingService.ValidateContextAuthorization (linha 1161) — opera sem objeto carregado. SUBIU 24h (21 vs 15). 9 tenants, BTG 48%. Candidato a guard-clause.
DI (Autofac) falha ao ativar ApiKeyService porque a cadeia DattosDbContext → ITenantContext não resolve (sem website). Estável (6). Bate com bk_tenantconn — autenticação por API key num contexto sem tenant resolvido.
Cast de MatchingStep p/ AnalysisMatchingStep estoura — confusão entre os dois motores de conciliação (legado MatchingStep vs Análise/Construtor AnalysisMatchingStep). Baixo volume (4, internal) e estável, mas é o tipo de erro de tipagem que vira incidente se chegar num fluxo prod misto.
NOVO. DELETE de AnalysisMatchingRule conflita com a FK de AnalysisMatchingExecutionStatistics (apaga a regra com estatística de execução ainda referenciando). 4/24h, 100% internal v16.3.21. É a face de INTEGRIDADE do bug de stats de matching já conhecido (registro 47749 / race optimistic concurrency em AnalysisMatchingExecutionStatistics): falta limpar/cascatear stats antes de deletar a regra. Baixo volume e dev, mas é bug de modelo de dados — vigiar se aparece em prod.
  Erro de negócio (validação)2 grupos · 112 hits
SUBIU: 73/24h (vs 52 na manhã). Breakdown: 'Não foi possível obter a licença online para validação' 41/24h (validação de licença falhando — endpoint de licença flapando); 'relatório >1M linhas' só 4 (guard esperado). 44% local-maiglon mas também cea/gaspar/csf/BTG. Se a validação de licença online cai pode bloquear operações em prod — vigiar se passa de dev/local.
Flavor mudou de novo — agora 'toRow' inválido em ClosedXmlExcelWriter.ValidateAddress (endereço de célula inválido na geração de Excel; antes era 'id' em GetEtlByIdAsync). Estável 24h (32 vs 24). 51% BTG. Geração de relatório Excel com range fora do limite.
  Bloqueio de import (pipeline)1 grupos · 60 hits
ACALMOU: 4/24h (vs 40 na manhã), 60/72h. O executor rejeita 'import glob' no código do pipeline (sandbox hardening). A queda no ritmo 24h sugere que os pipelines que batiam nisso pararam de rodar (ou foram ajustados). Ainda confirmar com produto se é hardening esperado ou regressão que precisa allowlist.
  Falha de SMTP1 grupos · 53 hits
Limite de envio do servidor SMTP (rate exceeded) — 98% BTG. Estável 24h (30), 53/72h. Liga com bk_bgjob (job de e-mail) — o BTG segue estourando o rate limit de e-mail.
  Arquivo ausente (PDF/staging)2 grupos · 64 hits
Diretório SFTP ausente (Cielo_MetroBahia), 100% ccr. Estável (33/72h, 12/24h). Customer-specific — pasta de import SFTP não provisionada no ccr.
Arquivo ausente no storage Ttl (import PAN xml). SUBIU 24h (25 vs ~6 visto antes), 24h≈72h. 52% eng-hotfix — pode ser efeito colateral do load test 30K (arquivos sumindo do staging).
  Erro de mapeamento (AutoMapper)1 grupos · 12 hits
Mapper.Map estourando (AutoMapper) — 100% eng-release-fix v16.3.21, build _release-fix. ZERO nas últimas 24h (12/72h estável). Concentração total em release-fix segue sugerindo REGRESSÃO contida em teste antes de promover — confirmar que sumiu mesmo antes do release.
  Gateway session-init (novo MS)1 grupos · 109 hits
Dattos-Gateway (v16.4.0) — 'session-init' a Postgres falha (user=postgres, host=postgres) via httpx. 24h baixo (5) vs 109/72h — o ritmo constante parou. Componente novo; confirmar se a config de conexão foi corrigida ou só ficou ocioso.
  Permissão negada (RBAC)1 grupos · 7 hits
RBAC barrou usuário sem permissão de configurar Processo (financeiro + arcoeducacao). Proteção funcionando (ruído de segurança), MAS vale checar se é usuário legítimo que perdeu role indevidamente — concentração no mesmo tenant pode ser UX de permissão confusa.
  Falha de storage (S3)1 grupos · 3 hits
Assinatura S3 não confere (csf) — credencial/secret errada ou relógio fora de sync. Baixo volume (3) mas é config/credencial: se a chave do csf expirou/rotacionou errado, uploads/downloads de arquivo do cliente falham. Verificar credencial S3 do csf (mesmo tenant de bk_bgjob).
  Bloqueio SSRF (proteção)1 grupos · 6 hits
Proteção SSRF bloqueou URL eng-portal-dev (funcionando como esperado). 6/24h, eng-develop 83% + sergio. Ruído de proteção em dev.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Stress test (30K arquivos)(none): [SetFileStatusAsync] External storage API returned NotFound, file /30KFIBackeng-hotfix2eng-internal16.3.2118.78419.112— estável
2Conexão Rabbit (dev timeout)AMQP/TCP timeout: AMQPConnectionWorkflowFailed: TCP connection attempt timed outDataEngine+MatchingNoWebsite6other, local, prod, dev, eng-internal16.3.6, 16.3.212143.718▲ 30%
3Pool shutdown race (Pika/multiproc)AssertionError/StreamLost: [!] Critical error in pool process matching-16-3/pipePipeline+Matching+DataEngineNoWebsite12other, eng-internal, prod, demo, local16.3.21, 16.3.11202536▲ 44%
4Erro de schema ETL (DuckDB)DuckDB/ASGI (Query): Catalog Error: Table 'matching_<HASH>' does not exist + NOVQuerydattos-data-engine-query-aws-16-34other16.3.21285417▲ 85%
5Job/fluxo Hangfire falhandoInvalidOperationException: Failed to process the job: A execução do fluxo não foBackagibank22prod16.3.20, 16.3.9174323▲ 37%
6Erro de banco/SQLSqlException: An object or column name is missing for SELECT INTO (Failed to proBackagibank13prod, other, eng-internal, demo15.4.11, 15.4.4145236▲ 21%
7Erro de frontend (null/undefined)FrontException: Diverso: reading 'class' (ProcessTag) + Network Error + 'calendaFrontedenred26prod, demo, eng-internal, local16.3.21, 16.3.20105181▲ 59%
8Erro de banco/SQLEntityCommandExecutionException: An error occurred while reading from the store Backdattos (BTG)14prod, eng-internal, demo15.4.11, 16.3.14155171— estável
9Falha HTTP downstreamHttpRequestException: Binder Error: Referenced column 'VALOR_AJUSTADO' not foundBackgaspar17prod, eng-internal, local, demo16.3.14, 16.3.2095135▲ 45%
10Falha HTTP downstreamInvalidOperationException: Error calling service 'pipeline', operation 'transforBackagibank8prod, eng-internal16.3.20, 16.3.2169130▲ 38%
11Gateway session-init (novo MS)(none): session-init call failed for user=postgres host=postgres (httpx map_httpDattos-GatewayNoWebsite1other16.4.05109— estável
12Erro de negócio (validação)BusinessException: Não foi possível obter a licença online para validação (+ relBacklocal-maiglon9local, eng-internal, prod15.4.11, 16.3.147375▲ 32%
13Bloqueio de import (pipeline)PipelineCodeError: Error: Importação de 'glob' não é permitida no código do pipePipelineNoWebsite6other, eng-internal, prod, local16.3.21, 16.3.11460— estável
14Falha de SMTPSmtpException: Service not available — 4.4.2 Message submission rate for this clBackdattos (BTG)2prod15.4.11, 16.3.203053▲ 26%
15Falha EF/DBInvalidOperationException: Error retrieving tenant: network-related error establBackNoWebsite1other16.3.202549— estável
16Erro de banco/SQLPostgresException: 42601: syntax error at end of input (Redshift, position 1397)Backdattos (BTG)1prod15.4.113042— estável
17Falha EF/DBArgumentNullException: Valor não pode ser nulo. Nome do parâmetro: columnA (AnalBackgaspar10prod, eng-internal, local16.3.14, 16.3.153041— estável
18Falha EF/DBEntityException: Failed to execute polling task. The underlying provider failed Backlocal-maiglon1local16.3.214040— estável
19Erro de negócio (validação)ArgumentException: toRow inválido — ClosedXmlExcelWriter.ValidateAddress (geraçãBackdattos (BTG)5prod, eng-internal, local15.4.11, 16.3.203237▲ 42%
20Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.201233— estável
21Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl — import\PAN\{data}\portal\Backeng-hotfix4eng-internal, prod15.4.11, 16.3.202531▲ 29%
22Falha EF/DBNullReferenceException: Object reference not set — MatchingService.ValidateConteBackdattos (BTG)9prod, eng-internal, local15.4.11, 16.3.202127▲ 50%
23Falha HTTP downstreamJsonReaderException: DataEngine returned non-parseable JSON on route 'staging/stBackeng-release-fix2eng-internal, prod16.3.20, 16.3.21416— estável
24Erro de banco/SQLNpgsqlException: Erro durante importação — The operation has timed out (IsTransiBackdattos (BTG)1prod15.4.11313— estável
25Erro de mapeamento (AutoMapper)TargetInvocationException: Exception has been thrown by the target of an invocatBackeng-release-fix1eng-internal16.3.21012— estável
26Permissão negada (RBAC)AuthorizationException: Você não tem permissão para configurar um Processo (AnalBackfinanceiro2prod16.3.20, 16.3.2177▲ 40%
27Erro de banco/SQLMySqlException: Unable to connect to any of the specified MySQL hosts (IsTransieBackdattos (BTG)1prod15.4.1136— estável
28Falha EF/DBDependencyResolutionException: Exception activating ApiKeyService -> DattosDbConBackNoWebsite1other16.3.2066— estável
29Bloqueio SSRF (proteção)SsrfException: The URL 'https://eng-portal-dev.dattos.com.br/...' was blocked byBackeng-develop2dev, prod16.3.2166— estável
30Falha EF/DBInvalidCastException: Unable to cast 'MatchingStep' to 'AnalysisMatchingStep' (EBackinternal1local16.3.2145▲ 25%
31Falha EF/DBInvalidOperationException: Erro ao atualizar objeto: DELETE conflitou com FK_AnaBackinternal1local16.3.2144NOVO
32Job/fluxo Hangfire falhandoBackgroundJobClientException: Failed to execute job ISendEmailJob. Background joBackcsf1prod16.3.2133— estável
33Falha de storage (S3)AmazonS3Exception: The request signature we calculated does not match the signatBackcsf1prod16.3.2133— estável