QA Telemetry — 2026-06-15 09:28

Janela: últimas 24h e 72h · Tenants afetados: 32 (24h) / 65 (72h) de 160 · Queries Loki: 197 · Método: count_over_time (totais reais)

Leia antes do número. O salto de erros nas 24h é quase todo RUÍDO DE DEV: o serviço de dados rodando em máquina local de desenvolvedor não conecta no rabbit-dev (≈754/24h, NoWebsite, v16.3.6) — não toca nenhum cliente. Tirando esse ruído, produção entrou a semana mais calma que na sexta: os ofensores de cliente (matching_<id> no serviço de consulta 237/72h, polling de e-mail, Hangfire no agibank) estão TODOS em queda vs o snapshot de sexta. Nenhum incidente novo de produção; os 2 grupos novos são internos (skip de agendamento logado como erro + DI no env do sergio).
Erros (24h)
1.002
▲ 325% vs anterior
Erros (72h)
2.584
▼ 13% vs anterior
Tenants afetados
32 / 160
65 em 72h
Categorias
15
11 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

🧭 Onde acontece
Acontece quando o serviço de dados (DataEngine) roda em máquina local de desenvolvedor e tenta conectar na fila de mensagens de dev (rabbit-dev).
👁 O que o usuário percebe
Nenhum — não toca produção nem cliente. É um processo de dev tentando reconectar em loop.
🤔 Desconfiança
A fila de dev (rabbit-dev) está fora do ar ou inacessível da máquina local, e o processo fica reconectando — gerando milhares de timeouts. Pico de fim de semana de uma estação só. Pedir pro dev parar/derrubar o processo local elimina o ruído.hipótese forte
🧭 Onde acontece
Acontece na conciliação/matching, quando a tela ou o passo pede o resultado do cruzamento ao serviço de consulta.
👁 O que o usuário percebe
A conciliação não carrega o resultado: o passo de matching aparece com erro ou fica sem dados.
🤔 Desconfiança
O serviço de consulta procura a tabela combinada de matching (matching_<id>) mas só existem as tabelas dos lados (side_a_<id>) — a etapa que monta a tabela de matching não rodou ou usa outro nome. Concentrado na 16.3.22+ e em vários nós: cheira a regressão de versão, não a problema de um cliente.hipótese forte
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo.
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
O fluxo é disparado enquanto a execução anterior ainda não terminou (trava de status impede rodar duas vezes). Concentrado no agibank — possível agendamento mais frequente que a duração da execução.hipótese média
🧭 Onde acontece
Acontece durante o processamento da análise, quando um job monta tabelas internas a partir da configuração do fluxo.
👁 O que o usuário percebe
O job falha e o resultado da análise não é gerado.
🤔 Desconfiança
Alguma coluna do fluxo ficou sem nome (alias vazio) — provavelmente coluna renomeada para vazio ou fórmula sem rótulo, gerando SQL inválido (SELECT INTO). Forte concentração no agibank.hipótese média
🧭 Onde acontece
Preparação de dados / conciliação, quando a tela pede a amostra ou o resultado de um passo ao serviço de consulta.
👁 O que o usuário percebe
A amostra/visualização do passo não carrega e o passo aparece com erro.
🤔 Desconfiança
Conjunto de erros de schema na consulta (coluna inexistente, sintaxe) — cauda de fluxos com referência desatualizada à fonte.hipótese média
🧭 Onde acontece
Acontece na inicialização do novo gateway de dados, ao abrir sessão de conexão (ex.: usuário postgres).
👁 O que o usuário percebe
Nenhum impacto visível em cliente por enquanto, mas o serviço novo está falhando de forma recorrente.
🤔 Desconfiança
O gateway novo tenta iniciar sessão contra um host que não responde (host=postgres) — configuração/conectividade do serviço 16.4.0 ainda incompleta. Acompanhar antes de ir pra produção.hipótese média
🧭 Onde acontece
Rotina interna de segundo plano que faz polling (fila de e-mails, regras de agendamento) — roda o tempo todo, sem ação do usuário.
👁 O que o usuário percebe
Nada direto na tela; se persistir, e-mails e execuções agendadas podem atrasar.
🤔 Desconfiança
Falha intermitente ao abrir conexão com o banco durante o polling — instabilidade de conexão, não erro de configuração de um cliente. Espalhado em vários tenants.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching — é o backend repassando para o fluxo o erro vindo do serviço de consulta.
👁 O que o usuário percebe
O passo de conciliação falha com mensagem técnica de tabela não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor do serviço de consulta: o fluxo pede a tabela combinada de matching que não foi criada. Perfil de regressão de versão (16.3.22+).hipótese forte
Agendamento (skip logado como erro)InvalidOp (SchedulePolling skip + controller DI): [SchedulePolling] Erro19 24h · 71 72h
🧭 Onde acontece
Dois lugares: rotina de agendamento (polling de regras) e abertura da tela de análise (criação do controller).
👁 O que o usuário percebe
O skip de agendamento é só ruído de log (nada acontece pro usuário); a falha de criação do controller pode impedir abrir a análise no env afetado (sergio).
🤔 Desconfiança
O agendamento está logando um skip esperado (calendário exclui hoje) no nível ERROR — deveria ser info; e o AnalysisController não resolve dependências/construtor no env do sergio (16.4.0). Ambos internos, não cliente. Vale baixar o nível do log do skip pra parar de poluir a telemetria.hipótese fraca
Erro de frontend (null/undefined)FrontException: Cauda diversa: Cannot read 'class' (9x), 't is not defin9 24h · 54 72h
🧭 Onde acontece
Acontece ao abrir/transicionar telas — componentes tentam ler dados antes deles chegarem, ou a navegação é cancelada.
👁 O que o usuário percebe
Erro silencioso de tela na maioria; informações podem não aparecer; parte é ruído de navegação (usuário trocou de tela antes de carregar).
🤔 Desconfiança
Telas lendo propriedade de objeto ainda não carregado (falta proteção pro estado carregando) + ruído de navigation-cancelled do Vue Router. Cauda diversa, não um único bug.hipótese média
🧭 Onde acontece
Acontece no envio automático de e-mails (notificações de fluxo, relatórios agendados).
👁 O que o usuário percebe
Alguns e-mails não saem na hora; tendem a ser reentregues quando o limite reseta.
🤔 Desconfiança
O BTG estoura o limite de taxa de envio do servidor SMTP por volume concentrado — não é bug, é throttling do provedor de e-mail. Espalhar o envio no tempo resolve.hipótese forte
🧭 Onde acontece
Acontece durante o processamento da análise, quando o backend chama o serviço de transformação/preparação de dados.
👁 O que o usuário percebe
A análise falha ou fica presa em processando sem mensagem clara.
🤔 Desconfiança
Duas causas misturadas: área de staging que sumiu (Catalog Error) e tempo limite esperando a fila do Pipeline (queue wait timeout) — sinal de backpressure quando há fila acumulada.hipótese média
🧭 Onde acontece
Acontece na importação automática via SFTP (job de cópia de arquivos).
👁 O que o usuário percebe
Os arquivos do CCR não são importados naquele ciclo de cópia.
🤔 Desconfiança
A pasta SFTP esperada (van_getnet) não existe no servidor — caminho configurado errado ou diretório não criado pelo parceiro. Específico do CCR.hipótese média
Mudanças vs snapshot anterior

Atual: 2026-06-15 09:28 · Anterior: 2026-06-14 12:19 · Delta: 21h atrás

⊕ Erros novos / ressurgidos

·
Agendamento (skip logado como erro)InvalidOp (SchedulePolling skip + controller DI): [SchedulePolling] Erro · NoWebsite, sergio, dattos (BTG), +2
71

⊖ Erros que pararam (extintos)

Nenhum.

Distribuição de impacto
Por ambiente

Produção · 25 grupos · 1.043 hits

Eng interno (hotfix/release-fix/portal) · 14 grupos · 808 hits

Outros (NoWebsite/nós de serviço) · 10 grupos · 1.816 hits

Dev (eng-develop) · 3 grupos · 146 hits

Homolog/UAT · 2 grupos · 184 hits

Local · 6 grupos · 1.201 hits

Categorias
  Conexão Rabbit (dev timeout)1 grupos · 926 hits
EXPLODIU: 225→926/72h, com 754 só nas últimas 24h. Timeout TCP no rabbit-dev a partir de máquina local de dev (pika _create_connection). RUÍDO DE DEV — NoWebsite/v16.3.6, não toca produção. É o #1 por volume mas não é incidente de cliente.
  Erro de schema ETL (DuckDB)2 grupos · 408 hits
Segue o maior ofensor de cliente por volume: a consulta pede a tabela matching_<id> que não existe (engine sugere side_a_<id>). 516→237/72h (esfriando, mas ainda quente). Propaga pro Back via HttpRequestException (httpreq). Perfil de regressão 16.3.22+.
Resto do serviço de consulta (tudo menos o matching_<id>): 186→171. Cauda variada de erros ASGI/binder/parser.
  Job/fluxo Hangfire falhando1 grupos · 193 hits
Fluxo agendado não roda porque o status do anterior impede (Hangfire). Top: agibank (68), BTG (26), yamaha (25), brpartners/krypton (15). 224→193 estável. Único ofensor de cliente ativo no fim de semana junto do polling.
  Erro de banco/SQL3 grupos · 224 hits
SELECT INTO com coluna sem nome/alias vazio em job. 223→180 estável. 68% agibank.
MUDOU de cara: antes Binder/Catalog Error (DuckDB), agora dominado por 'Login timeout expired' (ODBC Driver 18 SQL Server) — o Pipeline não consegue conectar no SQL. 27→30.
Timeout/leitura de importação externa no BTG (IsTransient). 13→14 estável.
  Falha EF/DB6 grupos · 249 hits
Polling de background falhando na abertura de conexão (transient SQL), na fila de e-mails (GetPendingEmailsAsync). 300→113 caindo bastante. 0/24h no fim de semana.
Falha de execução do comando no data reader; amostra agora em AnalysisLoadRepository.LoadAnalysisLoadDatasetsAsync (antes GetPendingEmails). 85→45.
Optimistic concurrency EF (Store update affected 0 rows). 53→38; concentrou em afextyc (18) e grupomodenaesilva (14). Mesmo padrão do bug de stats do Matching sob paralelismo.
Erro de rede ao resolver tenant em jobs (NoWebsite). 27→26 estável.
Argumento nulo em job; amostra agora 'Parameter name: entity' (DbEntitySetAdapter) — antes GetSideATableName. 25→22.
NRE em login SAML (SamlRequest.GetAuthRedirectUrl). 17→5.
  Falha HTTP downstream4 grupos · 136 hits
Backend repassando o erro matching_<id> do serviço de consulta (mesma raiz do q_match_catalog). 193→84. 10 tenants.
Backend chamando o serviço de pipeline; queue wait timeout (backpressure na fila) + Catalog Error de staging. 85→45.
Host remoto fechou a conexão durante request (0x800704CD) — transitório de rede do cliente. 4→4.
SetFileStatusAsync cancelado (MFT-CARREFOUR). 5→3 baixo volume.
  Gateway session-init (novo MS)1 grupos · 114 hits
Gateway novo (16.4.0) não consegue iniciar sessão (user=postgres host=postgres). 117→114 estável. Sem website — serviço de plataforma. 0/24h no fim de semana.
  Erro de frontend (null/undefined)1 grupos · 54 hits
Cauda diversa de erros de tela (sem bug único): null/undefined 'class' (9x), 't is not defined' (8x), Network Error (5x), 'currentSizeGB'/'length' (5x), navigation-cancelled (3x), 'aprovação em massa em execução' (2x). 101→54.
  Falha de envio de e-mail2 grupos · 63 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). 67→49. Customer-specific BTG.
Envio de e-mail falha porque o destinatário não está definido (config de notificação/relatório sem e-mail de destino). 27→14. Top travelex.
  Agendamento (skip logado como erro)1 grupos · 71 hits
NOVO grupo (resto do InvalidOperationException fora dos padrões conhecidos, 71/72h). Dois sub-padrões: (1) [SchedulePolling] loga 'Skipping rule, calendar excludes today' como ERROR — ruído de log puro (NoWebsite, ~29); (2) falha de DI ao criar AnalysisController sem construtor parameterless (sergio, ~11). Nenhum é incidente de produção.
  Arquivo ausente (PDF/staging)5 grupos · 57 hits
Path SFTP ausente no CCR (van_getnet). FileCopyProcessJob. Customer-specific CCR. 30→30 estável.
Storage devolve NotFound pra arquivos reais (GERA/PROD, Qualicorp, DPW/NFS-e). 41→15 caindo (fim do stress 30K).
Arquivo XML do portal ausente no storage Ttl (import PAN). 100% BTG. 16→7.
Access denied em exclusão de arquivo SFTP (EXTBANES, Ipiranga). 4→4 raro.
Staging DuckDB inexistente na leitura (Matching). 9→1 — praticamente extinto.
  Pool shutdown race (Pika/multiproc)1 grupos · 42 hits
Pool shutdown race (Pika/multiproc) somando Pipeline+Matching+DataEngine. 49→42.
  Erro de negócio (validação)2 grupos · 26 hits
Leitor de Excel falhou ('não conseguimos abrir o arquivo Excel'). 47→14 caindo bastante.
Execução barrada por validação de pasta. 100% eng-hotfix/16.3.23 — teste interno de permissão de pasta. 12→12.
  Erro de DI (Autofac)2 grupos · 10 hits
IStepExecutor 'Matching' não registrado no DI ao processar IOutputStep. 13→6. 100% eng-release-fix/16.4.0.
NOVO errorType: ativação do EtlEventJob falha no DI (Autofac). 100% sergio/16.4.0 — provável env de dev nomeado, não cliente real.
  Timeout Redis (sessão)1 grupos · 4 hits
Timeout Redis em PROD (gaspar, GET 5688ms). 4→4. Atenção pra k8s/sessão (RedisConnectionString como switch cross-pod).
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Conexão Rabbit (dev timeout)AMQP/TCP timeout (rabbit-dev): Connection workflow failed: AMQPConnectionWorkfloDataEngineNoWebsite3other, local16.3.6, 16.4.0754926▲ 312%
2Erro de schema ETL (DuckDB)Catalog Error (matching_<id> não existe): Unhandled exception on /staging/.../quQuerydattos-data-engine-query-aws-3-16-34other, eng-internal16.3.22, 16.3.2312237▼ 54%
3Job/fluxo Hangfire falhandoInvalidOp (status Stopped/Running): Failed to process the job: A execução do fluBackagibank5prod16.3.20, 16.3.2169193— estável
4Erro de banco/SQLSqlException: Failed to process the job: An object or column name is missing or Backagibank10prod, other, hom, local15.4.11, 15.4.1544180— estável
5Erro de schema ETL (DuckDB)ASGI/DuckDB (Query, demais): Exception in ASGI application (demais erros do servQuerydattos-data-engine-query-aws-16-36other, eng-internal16.3.22, 16.3.2321171— estável
6Gateway session-init (novo MS)(gateway) session-init failed: session-init call failed for user=postgres host=pDattos-GatewayNoWebsite1other16.4.00114— estável
7Falha EF/DBEntityException: Failed to execute polling task. Transient failure ao abrir coneBackccab-agro9prod15.4.11, 16.3.200113▼ 62%
8Falha HTTP downstreamHttpRequestException: Catalog Error: Table with name matching_<id> does not exisBackafextyc10prod, eng-internal16.3.22, 16.3.23084▼ 56%
9Agendamento (skip logado como erro)InvalidOp (SchedulePolling skip + controller DI): [SchedulePolling] Error procesBackNoWebsite17other, prod, eng-internal, dev16.3.22, 16.4.01971NOVO
10Erro de frontend (null/undefined)FrontException: Cauda diversa: Cannot read 'class' (9x), 't is not defined' (8x)Frontzaffari12prod, eng-internal, local16.3.20, 16.3.22954▼ 47%
11Falha de envio de e-mailSmtpException: Erro ao enviar e-mail. Service not available. 4.4.2 Message submiBackdattos (BTG)1prod15.4.11549▼ 27%
12Falha EF/DBEntityCommandExecutionException: An error occurred while executing the command dBacksergio13prod, dev15.4.11, 16.3.221345▼ 47%
13Falha HTTP downstreamInvalidOp (calling 'pipeline'): Error calling service 'pipeline', operation 'ensBackagibank20prod, eng-internal, other16.3.20, 16.3.22845▼ 47%
14Pool shutdown race (Pika/multiproc)pool crash / StreamLostError: [!] Critical error in pool process matching-16-3 /Pipeline+Matching+DataEngineNoWebsite2other, eng-internal16.3.6, 16.4.0942— estável
15Falha EF/DBInvalidOp (optimistic concurrency): Store update, insert, or delete statement afBackafextyc5prod16.3.22, 16.3.20038▼ 28%
16Arquivo ausente (PDF/staging)DirectoryNotFoundException: Could not find a part of the path 'd:\ccr\ttl\importBackccr1prod16.3.22930— estável
17Erro de banco/SQLODBC Login timeout (Pipeline→SQL): Error: ('HYT00', '[Microsoft][ODBC Driver 18 Pipelineafextyc8prod, eng-internal, dev16.3.22, 16.3.23330— estável
18Falha EF/DBInvalidOp (tenant retrieval): Error retrieving tenant: network-related error estBackNoWebsite1other16.3.22, 16.4.0726— estável
19Falha EF/DBArgumentNullException: Value cannot be null. Parameter name: entity. Trace: at DBackcea7prod, eng-internal, local16.3.20, 16.3.22422— estável
20Arquivo ausente (PDF/staging)(none) storage NotFound: [GetFileContentAsync] External storage API returned NotBackcsf-qa5prod, eng-internal14.8.4, 16.3.22415▼ 63%
21Erro de negócio (validação)BusinessException: Não conseguimos abrir o arquivo Excel com nenhum dos nossos lBackcea4prod, local16.3.20, 16.3.22614▼ 70%
22Erro de banco/SQLNpgsqlException: Erro durante importação ID <id> Exception while reading from stBackdattos (BTG)1prod15.4.11514— estável
23Falha de envio de e-mailArgumentException (sem destinatário): Erro ao enviar e-mail. Destinatário do e-mBacktravelex3prod, eng-internal15.4.11, 16.3.22014▼ 48%
24Erro de negócio (validação)AuthorizationException: A pasta atual não é válida de acordo com as pastas confiBackeng-hotfix1eng-internal16.3.23012— estável
25Arquivo ausente (PDF/staging)FileNotFoundException: File not found on storage Ttl. FileName: import\PAN\{dataBackdattos (BTG)1prod15.4.1107▼ 56%
26Erro de DI (Autofac)ComponentNotRegisteredException: Error processing IOutputStep. The requested serBackeng-release-fix1eng-internal16.4.006▼ 54%
27Falha EF/DBNullReferenceException: Object reference not set to an instance of an object. TrBackcelcoin5prod, eng-internal, local16.3.22, 16.4.005▼ 71%
28Erro de DI (Autofac)DependencyResolutionException: Failed to process the job: An exception was throwBacksergio1prod16.4.044NOVO
29Arquivo ausente (PDF/staging)UnauthorizedAccessException: Access to the path 'd:\ipiranga\ttl\import\SFTP\...Backipiranga2prod, hom15.4.15, 16.3.2214— estável
30Falha HTTP downstreamHttpException: The remote host closed the connection. The error code is 0x800704Backzaffari1prod16.3.2204— estável
31Timeout Redis (sessão)RedisTimeoutException: Timeout awaiting response (GET, 5688ms elapsed, timeout iBackgaspar2prod, other16.3.2304— estável
32Falha HTTP downstreamTaskCanceledException: [SetFileStatusAsync] Failed to set file status for /MFT-CBackcsf-qa1prod16.3.2213▼ 40%
33Arquivo ausente (PDF/staging)IO Error (staging DuckDB read-only): Error: IO Error: Cannot open database "/mntMatchingholambracoop1prod16.3.2201▼ 89%