QA Telemetry — 2026-06-15 14:44

Janela: últimas 24h e 72h · Tenants afetados: 46 (24h) / 70 (72h) de 160 · Queries Loki: 206 · Método: count_over_time (totais reais)

Leia antes do número. Pico tríplice de infraestrutura iniciado HOJE entre a manhã (09:28) e a tarde: total de erros saltou de ~1.000 para 4.811/24h. (1) Pipeline 3→1.263 — staging DuckDB pedido em read-only que não existe (corrida de criação/limpeza de staging), atingindo prod (afextyc, yamaha, holambracoop, gruposanta). (2) Matching 0→1.215 — broker RabbitMQ derrubando conexões por acesso negado (ProbableAccessDeniedError). (3) DataEngine 754→1.358 — timeout do rabbit-dev de máquina local de dev (ruído, mas crescendo). Os dois primeiros são containers de produção e podem ter gatilho comum (broker/staging) — investigar antes do número assustar. O resto da telemetria (Hangfire, SQL, downstream HTTP) segue o padrão estável dos snapshots anteriores.
Erros (24h)
4.811
▲ 380% vs anterior
Erros (72h)
5.601
▲ 117% vs anterior
Tenants afetados
46 / 160
70 em 72h
Categorias
17
9 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

Staging DuckDB read-only (storm)IO Error (staging read-only): Error: IO Error: Cannot open database "/mn1.263 24h · 1.279 72h
🧭 Onde acontece
Acontece na preparação/processamento da análise (ETL), quando o serviço de pipeline tenta ler a área de trabalho temporária (staging) de um passo.
👁 O que o usuário percebe
A análise falha ou fica presa em processando: o passo não encontra os dados intermediários e não conclui.
🤔 Desconfiança
A área de staging (banco DuckDB do passo) foi descartada/limpa antes da leitura, ou nunca foi criada — corrida sob carga, ou limpeza agressiva de staging. O volume disparado hoje sugere gatilho recente (deploy 16.3.22+/16.4.0 ou pressão de capacidade no Pipeline MS). Confirmar no Loki e cruzar com o storm do Matching.hipótese média
Conexão Rabbit (dev timeout)AMQP/TCP timeout (rabbit-dev): Error in _create_connection(): pika AMQPC1.249 24h · 1.249 72h
🧭 Onde acontece
Acontece quando o serviço de dados (DataEngine) roda em máquina local de desenvolvedor e tenta conectar na fila de mensagens de dev (rabbit-dev).
👁 O que o usuário percebe
Nenhum — não toca produção nem cliente. É um processo de dev tentando reconectar em loop.
🤔 Desconfiança
A fila de dev (rabbit-dev) está fora do ar ou inacessível da máquina local, e o processo fica reconectando — gerando milhares de timeouts. Pedir pro dev parar/derrubar o processo local elimina o ruído.hipótese forte
Conexão Rabbit (broker recusando)AMQP ProbableAccessDeniedError: pika ProbableAccessDeniedError: Client w1.215 24h · 1.216 72h
🧭 Onde acontece
Acontece na conciliação/matching, quando o serviço de matching tenta se conectar à fila de mensagens (RabbitMQ) para receber/processar trabalho.
👁 O que o usuário percebe
Conciliações podem ficar paradas/sem processar enquanto o serviço não consegue manter conexão com a fila.
🤔 Desconfiança
O broker recusa a conexão do Matching com acesso negado — credencial/usuário da fila inválido, vhost removido ou broker reiniciado sem reprovisionar permissão. Começou hoje em volume alto: tratar como incidente de infraestrutura, não bug de código.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching, quando a tela ou o passo pede o resultado do cruzamento ao serviço de consulta.
👁 O que o usuário percebe
A conciliação não carrega o resultado: o passo de matching aparece com erro ou fica sem dados.
🤔 Desconfiança
O serviço de consulta procura a tabela combinada de matching (matching_<id>) mas só existem as tabelas dos lados (side_a_<id>) — a etapa que monta a tabela de matching não rodou ou usa outro nome. Concentrado na 16.3.22+ e em vários nós: cheira a regressão de versão, não a problema de um cliente.hipótese forte
🧭 Onde acontece
Acontece durante o processamento de jobs em segundo plano (BackgroundServerProcess), ao abrir conexão com o banco SQL Server.
👁 O que o usuário percebe
Jobs falham e ficam em retry; resultados de análise/importação podem atrasar.
🤔 Desconfiança
Instabilidade de rede/conexão com o SQL Server (servidor não encontrado ou inacessível) — não é erro de configuração de um cliente. Concentrado no agibank mas espalhado. Pode compartilhar gatilho com o pico de infra de hoje.hipótese média
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo.
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
O fluxo é disparado enquanto a execução anterior ainda não terminou (trava de status impede rodar duas vezes). Concentrado no agibank — possível agendamento mais frequente que a duração da execução.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching — é o backend repassando para o fluxo o erro vindo do serviço de consulta.
👁 O que o usuário percebe
O passo de conciliação falha com mensagem técnica de tabela não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor do serviço de consulta: o fluxo pede a tabela combinada de matching que não foi criada. Perfil de regressão de versão (16.3.22+).hipótese forte
🧭 Onde acontece
Rotina interna de segundo plano que faz polling (fila de e-mails, regras de agendamento) — roda o tempo todo, sem ação do usuário.
👁 O que o usuário percebe
Nada direto na tela; se persistir, e-mails e execuções agendadas podem atrasar.
🤔 Desconfiança
Falha intermitente ao abrir conexão com o banco durante o polling — instabilidade de conexão, não erro de configuração de um cliente. Espalhado em vários tenants.hipótese média
Erro de frontend (null/undefined)FrontException: Cauda diversa de tela: 'toastError is not defined', Cann53 24h · 59 72h
🧭 Onde acontece
Acontece ao abrir/transicionar telas — componentes tentam ler dados antes deles chegarem, ou a navegação é cancelada.
👁 O que o usuário percebe
Erro silencioso de tela na maioria; informações podem não aparecer; parte é ruído de navegação.
🤔 Desconfiança
'toastError is not defined' sugere um handler de erro de tela chamando função fora de escopo (bug de empacotamento/import) — vale olhar. O resto é cauda diversa de estado não-carregado + navigation-cancelled do Vue Router.hipótese média
🧭 Onde acontece
Acontece no envio automático de e-mails (notificações de fluxo, relatórios agendados).
👁 O que o usuário percebe
Alguns e-mails não saem na hora; tendem a ser reentregues quando o limite reseta.
🤔 Desconfiança
O BTG estoura o limite de taxa de envio do servidor SMTP por volume concentrado — não é bug, é throttling do provedor de e-mail. Espalhar o envio no tempo resolve.hipótese forte
🧭 Onde acontece
Acontece durante o processamento da análise, quando o backend chama o serviço de transformação/preparação de dados.
👁 O que o usuário percebe
A análise falha ou fica presa em processando sem mensagem clara.
🤔 Desconfiança
Tempo limite esperando a fila do Pipeline (queue wait timeout) — sinal de backpressure. Hoje pode estar amplificado pelo storm de staging DuckDB do Pipeline MS.hipótese média
🧭 Onde acontece
Acontece na inicialização do novo gateway de dados, ao abrir sessão de conexão.
👁 O que o usuário percebe
Nenhum impacto visível em cliente por enquanto, mas o serviço novo está falhando de forma recorrente.
🤔 Desconfiança
O gateway novo tenta iniciar sessão contra um host vazio/indisponível (config de conexão do 16.4.0 ainda incompleta). Acompanhar antes de ir pra produção.hipótese média
Mudanças vs snapshot anterior

Atual: 2026-06-15 14:44 · Anterior: 2026-06-15 09:28 · Delta: 5h atrás

⊕ Erros novos / ressurgidos

·
Staging DuckDB read-only (storm)IO Error (staging read-only): Error: IO Error: Cannot open database "/mn · NoWebsite, afextyc, yamaha, +3
1.279
·
Conexão Rabbit (broker recusando)AMQP ProbableAccessDeniedError: pika ProbableAccessDeniedError: Client w · NoWebsite, holambracoop
1.216
·
Erro de negócio (validação)IndexOutOfRangeException: Erro durante importação ID <id> Index was outs · martins, bayer, conciliadorrm
4

⊖ Erros que pararam (extintos)

·
ComponentNotRegisteredException: IStepExecutor 'Matching' não registrado · Caiu abaixo do limiar (era 6/72h, 100% eng-release-fix/16.4.0). Provável que o build interno tenha registrado o step.
−6
Distribuição de impacto
Por ambiente

Produção · 27 grupos · 3.649 hits

Eng interno (hotfix/release-fix/portal) · 9 grupos · 1.982 hits

Outros (NoWebsite/nós de serviço) · 12 grupos · 4.632 hits

Dev (eng-develop) · 1 grupos · 19 hits

Homolog/UAT · 2 grupos · 37 hits

Local · 4 grupos · 382 hits

Categorias
  Staging DuckDB read-only (storm)1 grupos · 1.279 hits
EXPLODIU hoje (manhã→tarde): Pipeline saiu de ~3 para 1.263 erros/24h. O passo pede o staging DuckDB em modo read-only e ele não existe ('database does not exist') — corrida entre a criação/limpeza da área de staging e a leitura do step_N. Atinge prod (afextyc, yamaha, holambracoop, gruposanta). Mesma família do Target #1 / capacidade de staging do Pipeline MS. PRIORIDADE.
  Conexão Rabbit (broker recusando)1 grupos · 1.216 hits
EXPLODIU hoje: Matching saiu de ~0 para 1.215 erros/24h. NÃO é o ruído de dev do DataEngine — aqui o broker RabbitMQ DERRUBA a conexão por acesso negado (ProbableAccessDeniedError / ConnectionClosedByBroker / handshake) dentro do container de produção. Cheira a credencial/permissão de fila rotacionada, vhost indisponível ou broker reiniciado pro Matching MS. Possível gatilho comum com o storm do Pipeline. INVESTIGAR BROKER.
  Conexão Rabbit (dev timeout)1 grupos · 1.249 hits
Maior volume por contagem mas RUÍDO DE DEV: máquina local de dev (path a:\git...venv) não alcança rabbit-dev e reconecta em loop. Cresceu 926→1.073. Não toca produção (NoWebsite/v16.3.6). É o #1 por volume, não é incidente de cliente.
  Erro de schema ETL (DuckDB)1 grupos · 447 hits
Serviço de consulta: a query pede a tabela combinada matching_<id> que não existe (engine sugere side_a_<id>) + cauda de erros ASGI/binder. 408→453, ainda quente. Propaga pro Back via HttpRequestException (httpreq). Perfil de regressão 16.3.22+, vários nós aws/azure.
  Job/fluxo Hangfire falhando1 grupos · 211 hits
Fluxo agendado não roda porque o status do anterior impede (Hangfire). Top: agibank (72), BTG (40), yamaha (15), brpartners/krypton (14). 214 estável. Principal ofensor de cliente ativo.
  Erro de banco/SQL3 grupos · 332 hits
MUDOU de cara vs manhã: antes 'object or column name missing' (SELECT INTO), agora dominado por falha de conexão com o SQL Server (BackgroundServerProcess retry, rede/instância). 269 no 72h; 68%→46% agibank. Vale cruzar com o storm de infra.
Timeout de leitura de importação externa no BTG (IsTransient). 14→15 estável.
NOVO: relação 'pan_contabil.too_seguros' não existe (42P01) no BTG. Tabela/schema referenciado por um fluxo não existe no Postgres — provável fonte renomeada/removida. 100% BTG/15.4.11.
  Falha EF/DB5 grupos · 207 hits
Polling de background falhando na abertura de conexão (transient SQL), na fila de e-mails (GetPendingEmailsAsync). 113→114 no 72h mas só 1 nas últimas 24h — praticamente parou no período recente.
Falha de execução/leitura do comando no data reader (AnalysisLoadRepository). 45 estável.
Erro de rede ao resolver tenant em jobs (NoWebsite). 26 estável.
Argumento nulo (columnA) ao montar relação de matching — config de conciliação com coluna A vazia. 13 no 72h.
NRE ao montar expressão SQL do DataEngine (GetExpressionData) — antes era login SAML. 6 no 72h.
  Falha HTTP downstream4 grupos · 168 hits
Backend repassando o erro matching_<id> do serviço de consulta (mesma raiz do q_match_catalog). 84→120 subindo. 13 tenants. Regressão 16.3.22+.
Backend chamando o serviço de pipeline; queue wait timeout (backpressure na fila). 45→41. Pode ser sintoma de superfície do storm do Pipeline (staging DuckDB).
Host remoto fechou a conexão durante request (0x800704CD) — transitório de rede do cliente (zaffari). 4 no 72h.
SetFileStatusAsync cancelado (MFT-CARREFOUR). 3 no 72h, baixo volume.
  Gateway/serviço novo falhando2 grupos · 18 hits
Gateway novo (16.4.0) não consegue iniciar sessão (user=affine, host vazio, httpx ConnectError). 11 no 72h, sem website. Serviço de plataforma em maturação.
NOVO serviço na telemetria: MCP-HTTP-Gateway com uncaught exception no boot do uvicorn (main.py). 7 no 72h, sem website. Serviço novo falhando ao subir.
  Erro de frontend (null/undefined)1 grupos · 59 hits
Cauda diversa de erros de tela (sem bug único): 'toastError is not defined' agora dominante, + null/undefined 'class', 't is not defined', Network Error, navigation-cancelled. 54→57. Quase tudo no 24h (51) — concentrou hoje.
  Falha de envio de e-mail2 grupos · 60 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). 49→56. Customer-specific BTG.
NOVO: caractere inválido (',') no cabeçalho de e-mail ao enviar (cofco) — provável lista de destinatários mal formatada. 4 no 72h.
  Agendamento (skip logado como erro)1 grupos · 19 hits
Resto do InvalidOperationException fora dos padrões conhecidos: (1) [SchedulePolling] loga 'Skipping rule, calendar excludes today' como ERROR — ruído de log puro; (2) falha de DI ao criar controller; (3) Sequence contains. Nenhum é incidente de produção. Vale baixar o nível do log do skip.
  Arquivo ausente (PDF/staging)5 grupos · 99 hits
Cópia de arquivo (FileCopyProcessJob) recebe path2 absoluto/UNC e quebra. Antes a amostra do ArgumentException era 'destinatário não definido'; agora dominado por path2. 32 no 72h, top travelex.
Path SFTP ausente no CCR (agora Cielo_MetroBahia). FileCopyProcessJob. Customer-specific CCR. 30 estável.
Storage devolve NotFound pra arquivos reais (Qualicorp C30K-001014.xlsx etc). O bucket Back|(none) também tem 'server will be restarted due to server time out' (Hangfire). 22 no 72h.
Arquivo de upload-stage ausente no storage Ttl (Zaffari EPI Fiscal.txt, BTG). 10 no 72h.
Access denied em compartilhamento de rede SFTP (Ipiranga). 3 no 72h, raro.
  Pool shutdown race (Pika/multiproc)1 grupos · 29 hits
Pool shutdown race (Pika/multiproc) no DataEngine: pool crash (8) + StreamLostError (28). Menor que antes (49→36).
  Erro de negócio (validação)3 grupos · 29 hits
Componente referenciado não existe na versão publicada do ETL (refresh de amostra). Antes era 'não conseguimos abrir o Excel'; agora componente fora da versão. 13 no 72h.
Execução barrada por validação de pasta. 100% eng-hotfix/16.3.23 — teste interno de permissão de pasta. 12→12, 0 nas últimas 24h.
NOVO: índice fora do array ao extrair linha na importação (CustomExtractorRowIterator) — layout de arquivo com menos colunas que o esperado. 4 no 72h.
  Erro de DI (Autofac)1 grupos · 4 hits
Ativação do EtlEventJob falha no DI (Autofac). 100% sergio/16.4.0 — provável env de dev nomeado, não cliente real. 4 no 72h.
  Timeout Redis (sessão)1 grupos · 4 hits
Timeout Redis em PROD (gaspar, GET 5688ms). 4→4. Atenção pra k8s/sessão (RedisConnectionString como switch cross-pod).
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Staging DuckDB read-only (storm)IO Error (staging read-only): Error: IO Error: Cannot open database "/mnt/staginPipelineNoWebsite6other, prod, eng-internal16.3.22, 16.3.231.2631.279NOVO
2Conexão Rabbit (dev timeout)AMQP/TCP timeout (rabbit-dev): Error in _create_connection(): pika AMQPConnectioDataEngineNoWebsite1other16.3.6, 16.4.01.2491.249▲ 35%
3Conexão Rabbit (broker recusando)AMQP ProbableAccessDeniedError: pika ProbableAccessDeniedError: Client was discoMatchingNoWebsite2other, prod16.3.22, 16.4.01.2151.216NOVO
4Erro de schema ETL (DuckDB)Catalog/ASGI (matching_<id> não existe): Unhandled exception on /staging/.../queQuerydattos-data-engine-query-aws-16-35other, eng-internal16.3.22, 16.3.23279447▲ 89%
5Erro de banco/SQLSqlException: Execution BackgroundServerProcess is still in the Failed state ...Backagibank9prod, other, local15.4.11, 15.4.4197304▲ 69%
6Job/fluxo Hangfire falhandoInvalidOp (status Stopped/Running): Failed to process the job: A execução do fluBackagibank5prod16.3.20, 16.3.21161211— estável
7Falha HTTP downstreamHttpRequestException: Catalog Error: Table with name matching_<id> does not exisBackeng-hotfix13eng-internal, prod16.3.22, 16.3.2378120▲ 43%
8Falha EF/DBEntityException: Failed to execute polling task. Transient failure ao abrir coneBackccab-agro10prod15.4.11, 16.3.204117— estável
9Erro de frontend (null/undefined)FrontException: Cauda diversa de tela: 'toastError is not defined', Cannot read Frontallcare13prod, local16.3.22, 16.3.95359— estável
10Falha de envio de e-mailSmtpException: Erro ao enviar e-mail. Service not available. 4.4.2 Message submiBackdattos (BTG)1prod15.4.111956— estável
11Falha EF/DBEntityCommandExecutionException: An error occurred while reading from the store Backsergio13prod15.4.11, 16.3.222345— estável
12Falha HTTP downstreamInvalidOp (calling 'pipeline'): Error calling service 'pipeline', operation 'ensBackagibank20prod, eng-internal, other16.3.20, 16.3.221641— estável
13Arquivo ausente (PDF/staging)ArgumentException (FileCopy path2): Second path fragment must not be a drive or Backtravelex6prod, hom15.4.11, 15.4.152334NOVO
14Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.221230— estável
15Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process / StreamLostErrDataEngineNoWebsite2other, eng-internal16.3.6, 16.4.02929▼ 31%
16Falha EF/DBInvalidOp (tenant retrieval): Error retrieving tenant: network-related error estBackNoWebsite1other16.3.22, 16.4.0726— estável
17Arquivo ausente (PDF/staging)(none) storage NotFound: [GetFileContentAsync] External storage API returned NotBackcsf-qa5prod, eng-internal14.8.4, 16.3.221122▲ 47%
18Agendamento (skip logado como erro)InvalidOp (SchedulePolling skip + DI controller): [SchedulePolling] Skipping rulBackNoWebsite17other, prod, eng-internal, dev16.3.22, 16.4.01419▼ 73%
19Erro de banco/SQLNpgsqlException: Erro durante importação ID <id> The operation has timed out (IsBackdattos (BTG)1prod15.4.11815— estável
20Erro de negócio (validação)BusinessException: Error refreshing sample from step: Componente [CD] não existeBackmbenz3prod, local16.3.22, 16.4.01013— estável
21Erro de banco/SQLPostgresException: 42P01: relation "pan_contabil.too_seguros" does not exist POSBackdattos (BTG)1prod15.4.111313NOVO
22Falha EF/DBArgumentNullException: Value cannot be null. Parameter name: columnA (AnalysisMaBackzaffari5prod, eng-internal16.3.22, 16.4.0813▼ 41%
23Erro de negócio (validação)AuthorizationException: A pasta atual não é válida de acordo com as pastas confiBackeng-hotfix1eng-internal16.3.23012— estável
24Gateway/serviço novo falhando(gateway) session-init failed: session-init call failed for user=affine host= TrDattos-GatewayNoWebsite1other16.4.0311▼ 90%
25Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl. FileName: upload-stage\6\ZBackdattos (BTG)2prod15.4.11, 16.3.221010▲ 43%
26Gateway/serviço novo falhando(none) uvicorn uncaught: Uncaught exception Traceback: File "/app/src/mcp_gatewaMCP-HTTP-GatewayNoWebsite1other77NOVO
27Falha EF/DBNullReferenceException: Object reference not set to an instance of an object. TrBackallcare4prod, local16.3.2236— estável
28Falha de envio de e-mailFormatException (mail header): Erro ao enviar e-mail #<id>. An invalid characterBackcofco1prod16.3.2234NOVO
29Erro de negócio (validação)IndexOutOfRangeException: Erro durante importação ID <id> Index was outside the Backmartins3prod16.3.2224NOVO
30Erro de DI (Autofac)DependencyResolutionException: Failed to process the job: An exception was throwBacksergio1prod16.4.044— estável
31Falha HTTP downstreamHttpException: The remote host closed the connection. The error code is 0x800704Backzaffari1prod16.3.2204— estável
32Timeout Redis (sessão)RedisTimeoutException: Timeout awaiting response (GET, 5688ms elapsed, timeout iBackgaspar2prod, other16.3.2304— estável
33Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path '\\dsapc0232pfs\Credito\...\CartBackipiranga2prod, hom15.4.15, 16.3.2213▼ 25%
34Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status for /MFT-CBackcsf-qa1prod16.3.2213— estável