QA Telemetry — 2026-06-17 14:43

Janela: últimas 24h e 72h · Tenants afetados: 58 (24h) / 82 (72h) de 92 · Queries Loki: 139 · Método: count_over_time (totais reais)

Leia antes do número. O salto de 1.865→4.195 erros em 24h é quase todo RUÍDO DE DEV: o broker RabbitMQ de desenvolvimento (rabbit-dev) ficou inacessível e os workers de dev reconectam em loop — 1.939 dos 2.533 hits do DataEngine, em NoWebsite e máquinas locais. Descontando isso, produção segue estável. O ofensor real que persiste e PIORA é a tabela matching_<id> ausente (regressão 16.3.22+): o serviço de consulta (564 hits 24h) e o backend (154) não acham a tabela combinada de conciliação, afetando o resultado do matching em vários tenants. Em segundo, o fluxo Hangfire que não dispara por status Stopped (170 hits, top agibank).
Erros (24h)
4.195
▲ 125% vs anterior
Erros (72h)
11.081
▲ 39% vs anterior
Tenants afetados
58 / 92
82 em 72h
Categorias
15
7 prováveis bugs
Diagnóstico de negócio

Leitura dos principais ofensores na linguagem de quem usa a plataforma: onde o erro acontece no fluxo, o que o usuário percebe e qual a desconfiança provável. São hipóteses do snapshot — confirme no Loki antes de agir.

Conexão Rabbit (dev timeout)AMQPConnectionWorkflowFailed (rabbit-dev): [!] Critical error in pool pr2.533 24h · 4.354 72h
🧭 Onde acontece
Acontece em máquinas locais de desenvolvedor e workers sem tenant, quando o serviço de dados (DataEngine) tenta abrir conexão com a fila de mensagens de desenvolvimento (rabbit-dev).
👁 O que o usuário percebe
Nenhum em produção ou cliente — é o broker de mensagens de desenvolvimento fora do ar e os workers de dev tentando reconectar em loop.
🤔 Desconfiança
O broker RabbitMQ de desenvolvimento (rabbit-dev.dattos.com.br) ficou inacessível na janela e os workers de dev reconectam repetidamente (TCP connection timeout), gerando ~1.900 eventos em 24h. É a causa quase inteira do salto de 1.865→4.195 erros. Ruído de infraestrutura de dev — vale checar se o pod do rabbit-dev caiu, mas não afeta cliente.hipótese forte
Conexão Rabbit (broker recusando)AMQPHeartbeatTimeout (matching): Error: IO Error: Cannot open database "58 24h · 1.362 72h
🧭 Onde acontece
Acontece na conciliação/matching, quando o serviço mantém conexão com a fila de mensagens (RabbitMQ).
👁 O que o usuário percebe
Baixo no recente: o storm que derrubava conexões por acesso negado parou; restam quedas ocasionais por inatividade.
🤔 Desconfiança
O incidente de infraestrutura de 06-15 (broker recusando conexão do Matching) foi resolvido ou se estabilizou. O resíduo atual é heartbeat ocioso, padrão benigno. Confirmar que não há reincidência de ProbableAccessDeniedError no Loki.hipótese média
Staging DuckDB read-only (storm)IO Error (staging read-only) + Parser: Error: Catalog Error: Table with 37 24h · 1.328 72h
🧭 Onde acontece
Acontece na preparação/processamento da análise (ETL), quando o Pipeline lê a área de staging DuckDB de um passo ou executa o script de transformação.
👁 O que o usuário percebe
No recente, baixo: o storm que travava análises parou. Resta uma falha pontual de sintaxe em transformação ('at or near Valor').
🤔 Desconfiança
O storm de corrida no staging (database does not exist) se estabilizou — provável correção ou alívio de capacidade no Pipeline MS. O Parser Error é outro problema: um passo de transformação com expressão/coluna 'Valor' mal formada. Monitorar se o storm reincide.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching, quando a tela ou o passo pede o resultado do cruzamento ao serviço de consulta.
👁 O que o usuário percebe
A conciliação não carrega o resultado: o passo de matching aparece com erro ou fica sem dados.
🤔 Desconfiança
O serviço de consulta procura a tabela combinada matching_<id> mas só existem as tabelas dos lados (side_a_<id>) — a etapa que monta a tabela de matching não rodou ou mudou de nome. Continua subindo desde 06-15 e está em vários nós aws/azure: regressão da 16.3.22+, NÃO problema de um cliente. Vale isolar o commit.hipótese forte
🧭 Onde acontece
Acontece na execução agendada de fluxos/tarefas, quando o robô tenta disparar um fluxo cujo anterior ainda não terminou (status Stopped/Running).
👁 O que o usuário percebe
O fluxo agendado não roda naquele disparo; o usuário pode notar atraso no resultado esperado.
🤔 Desconfiança
Disparos agendados colidindo com execuções em curso (trava de status impede rodar duas vezes) seguem dominando, concentrados no agibank. Em segundo plano, parte deste grupo agora é o backend chamando o matching/export e batendo no staging read-only — mesma família do storm de DuckDB. Investigar o agibank e separar as duas caras.hipótese média
🧭 Onde acontece
Acontece no processamento de importação e em jobs de fundo que montam tabelas temporárias (SELECT INTO) no SQL Server.
👁 O que o usuário percebe
Importações e jobs falham; resultados podem ficar incompletos ou atrasados.
🤔 Desconfiança
A tabela de staging da importação (ImportRow_<id>) não existe quando o job a consulta — corrida entre criação e leitura, ou limpeza precoce. O 'SELECT INTO sem alias' no BI do agibank é uma consulta gerada com coluna sem nome. São dois problemas distintos sob o mesmo errorType.hipótese média
Gateway/serviço novo falhandosession-init failed (postgres host): session-init call failed for user=p212 24h · 422 72h
🧭 Onde acontece
Acontece na inicialização do novo Dattos-Gateway (16.4.0), ao abrir sessão de conexão contra o host de banco (postgres).
👁 O que o usuário percebe
Sem impacto visível em cliente ainda — é serviço novo, sem tenant. Mas falha de forma recorrente.
🤔 Desconfiança
A config de conexão do gateway aponta para host inválido/incompleto ("host=postgres"), provocando ConnectError em loop. Config de ambiente do 16.4.0 ainda incompleta — resolver antes de expor a cliente.hipótese média
🧭 Onde acontece
Acontece na conciliação/matching — é o backend repassando ao fluxo o erro vindo do serviço de consulta.
👁 O que o usuário percebe
O passo de conciliação falha com mensagem técnica de tabela não encontrada.
🤔 Desconfiança
Mesma raiz do ofensor do serviço de consulta: a tabela combinada de matching não foi criada. Cresce em paralelo ao Query (q_match_catalog). Tratar como um único incidente de regressão de versão.hipótese forte
Erro de frontend (null/undefined)FrontException (null/undefined): Cannot read properties of undefined (re82 24h · 205 72h
🧭 Onde acontece
Acontece ao abrir/interagir com telas — componentes tentam ler dados antes deles chegarem, ou um handler de erro chama função fora de escopo.
👁 O que o usuário percebe
Erro silencioso de tela na maioria; informações podem não aparecer ou um botão pode não responder.
🤔 Desconfiança
'toastError is not defined' segue sugerindo handler de erro chamando função não importada (bug de empacotamento) — vale corrigir. O 'reading code' no v-radio-group é estado não-carregado. Cauda crônica, não um pico.hipótese média
🧭 Onde acontece
Acontece no envio automático de e-mails (notificações de fluxo, relatórios agendados).
👁 O que o usuário percebe
Alguns e-mails não saem na hora; tendem a ser reentregues quando o limite reseta.
🤔 Desconfiança
O BTG estoura o limite de taxa do servidor SMTP por volume concentrado — throttling do provedor, não bug. Espaçar o envio no tempo resolve.hipótese forte
🧭 Onde acontece
Acontece ao executar um fluxo numa pasta, na validação de permissão de pasta.
👁 O que o usuário percebe
Em produção bloquearia a execução; aqui está concentrado em ambientes internos/locais, sem impacto de cliente.
🤔 Desconfiança
Validação de pasta barrando execução — quase tudo em ambiente interno (internal/local) e demo. Provável teste interno ou config de pasta de dev. Confirmar que não há tenant de produção afetado.hipótese média
🧭 Onde acontece
Acontece no processamento da análise, quando o backend consulta o serviço de dados (DataEngine) para um passo de staging.
👁 O que o usuário percebe
O passo falha com erro técnico; a análise pode não concluir.
🤔 Desconfiança
O DataEngine devolve 502 Bad Gateway (indisponível/sobrecarregado) e o backend não consegue ler a resposta. Novo nesta janela e ligado à pressão sobre o serviço de consulta — vale cruzar com o crescimento do matching_<id>.hipótese média
🧭 Onde acontece
Acontece na importação/consulta de uma fonte externa Oracle do cliente (sinacor).
👁 O que o usuário percebe
A importação dessa fonte falha; os dados do BTG vindos do sinacor não chegam.
🤔 Desconfiança
A consulta referencia a coluna IN_SITUAC que não existe na origem Oracle do BTG — coluna renomeada/removida no sinacor, ou alias errado na consulta gerada. Customer-specific BTG.hipótese forte
Mudanças vs snapshot anterior

Atual: 2026-06-17 14:43 · Anterior: 2026-06-17 11:34 · Delta: 3h atrás

⊕ Erros novos / ressurgidos

Nenhum grupo novo.

⊖ Erros que pararam (extintos)

Nenhum.

Distribuição de impacto
Por ambiente

Produção · 28 grupos · 9.422 hits

Eng interno (hotfix/release-fix/portal) · 7 grupos · 2.784 hits

Outros (NoWebsite/nós de serviço) · 10 grupos · 10.056 hits

Homolog/UAT · 4 grupos · 1.008 hits

Demo/trial · 5 grupos · 2.770 hits

Local · 11 grupos · 7.724 hits

Categorias
  Conexão Rabbit (dev timeout)1 grupos · 4.354 hits
STORM DE DEV REATIVOU: 24h saltou de 179 para 2.533. Breakdown da janela: 1.939 (77%) = timeout de conexão TCP ao broker de desenvolvimento (rabbit-dev.dattos.com.br inacessível, AMQPConnectionWorkflowFailed); apenas 46 são pool-crash e 54 stream-lost. 97% NoWebsite + máquinas locais (maiglon, denis, sergio), versões de dev (16.3.6). É ruído de ambiente de dev, não incidente de cliente — mas domina o volume bruto do snapshot e explica quase todo o salto de 1.865→4.195.
  Conexão Rabbit (broker recusando)1 grupos · 1.362 hits
O storm de acesso-negado de 06-15 segue cedido: 24h em 58 (era 92 de manhã). O 72h=1.362 ainda carrega o pico antigo. No recente aparece staging read-only (analysis_load_33.duckdb) + heartbeat ocioso. Atinge NoWebsite (98%) + homolog/conciliadorrm/qualicorp.
  Staging DuckDB read-only (storm)1 grupos · 1.328 hits
Storm de staging DuckDB de 06-15 segue cedido: 24h em 37. 72h=1.328 carrega o pico. No recente: "Catalog Error: Table ETL_<id> does not exist" (view de ETL apontando para step inexistente) + staging read-only. 15 tenants, prod (holambracoop, yamaha, martins) + locais.
  Erro de schema ETL (DuckDB)1 grupos · 1.170 hits
PIOROU DE NOVO e segue o principal ofensor ativo não-dev: 24h subiu de 519 para 564, 72h de 930 para 1.170. A consulta pede a tabela combinada matching_<id> que não existe (engine sugere side_a_<id>), com cauda de Exception ASGI. Concentrado nos nós de consulta aws/azure 16.3.22+. Perfil de regressão de versão, não de cliente. PRIORIDADE.
  Job/fluxo Hangfire falhando1 grupos · 842 hits
Hangfire-status ainda domina (170/530): fluxo agendado não roda porque o status do anterior é Stopped/Running (WorkflowExecutorJob), top agibank (168), BTG (82), bayer/yamaha. O pipeline-call cresceu em paralelo (56/130): "Error calling service matching export" batendo no staging DuckDB read-only. 49 tenants — mistura de skip de agendamento com a família do storm de staging.
  Erro de banco/SQL5 grupos · 544 hits
Três caras sob o mesmo errorType: "object or column name is missing (SELECT INTO)" no BI do agibank, "Login failed for user GRUPOBRSA\\sys.rend..." abrindo AB_CONTABIL (importação BRSA) e "collation conflict" em join. 24h=100, 72h=503, top NoWebsite (41%).
Leitura de importação externa falhando ('Exception while reading from stream', IsTransient) no BTG. 24h=4, 72h=18, 100% BTG.
Esfriou (24h=0): 'operator does not exist: boolean = integer' (42883) e 'relation pan_contabil.too_seguros does not exist' (42P01) no BTG. Consulta com tipo/relação incompatível. 72h=15, 100% BTG/15.4.11.
'ORA-00904: IN_SITUAC: invalid identifier' contra a fonte Oracle do BTG (sinacor-prd1/cnc). 24h=5, 72h=5, 100% BTG/15.4.11. Coluna IN_SITUAC referenciada por uma consulta não existe na origem Oracle — provável mudança de schema na fonte do cliente.
'SqlDateTime overflow. Must be between 1/1/1753 and 12/31/9999' — uma data fora do intervalo aceito pelo SQL Server. 24h=0, 72h=3, top colgate. Provável campo de data com valor inválido/zerado num arquivo importado.
  Gateway/serviço novo falhando2 grupos · 429 hits
Estabilizou no 24h (de 312 para 212) mas segue alto. O gateway novo (16.4.0) falha ao iniciar sessão contra o host de banco — "session-init call failed for user=postgres host=postgres" (httpx ConnectError). 100% NoWebsite, serviço de plataforma em maturação, ainda não toca cliente.
Serviço novo MCP-HTTP-Gateway com uncaught exception no boot do uvicorn (mcp_gateway/main). 24h=0, 72h=7, sem website. Esfriou.
  Falha HTTP downstream4 grupos · 334 hits
Cresceu junto com o Query: 24h de 129 para 154, 72h de 230 para 311. É o backend repassando o mesmo erro matching_<id> do serviço de consulta (DataEngineQueryService.StagingQueryAsync). 24 tenants, top edenred. Mesma raiz do q_match_catalog — regressão 16.3.22+.
Host remoto fechou a conexão durante request (0x800704CD). 24h=0, 72h=9, top zaffari (89%). Transitório de rede.
o backend recebe HTTP 502 Bad Gateway do DataEngine na rota staging/step_<id>/query e não consegue parsear ('non-parseable JSON, Raw body: Bad Gateway'). 24h=4, 72h=7, top allcare. Provável sintoma de sobrecarga do serviço de consulta (mesma família do storm matching_<id>).
GetStoragesAsync/SetFileStatusAsync cancelados (MFT-CARREFOUR). 24h=0, 72h=7, top csf-qa.
  Erro de frontend (null/undefined)1 grupos · 205 hits
Cauda diversa de tela: agora aparece "Cannot read properties of undefined (reading componentId)" no CanvasMain (editor do Construtor) + "reading code" (v-radio-group) + "toastError is not defined". 24h=82, 72h=205, 31 tenants, top zaffari. Mistura de estado não-carregado e handler de erro fora de escopo.
  Erro de negócio (validação)4 grupos · 158 hits
Mistura sob o mesmo errorType: 'Destinatário do e-mail não definido' (SendEmailJob), 'Anexo informado não existe' (Tasklist) e 'Erro ao obter campo do filtro' (MatchingFilter). 24h=28, 72h=73, top BTG (48%). Cada uma é uma config/validação distinta.
Cresceu (0→30 no 24h) mas é interno: 'A pasta atual não é válida de acordo com as pastas configuradas' (ValidateFolderExecutionPermission), 72% em internal/local + demo. Cheira a teste de permissão de pasta em ambiente interno, não incidente de cliente.
Duas validações de negócio: 'expressão condicional da regra: coluna TIPO VI não encontrada' e 'Já existe outra execução agendada para o fluxo na pasta'. 24h=11, 72h=32, top holambracoop.
Índice fora do array no DataEngineSqlBuilder e na extração de linha (CustomExtractorRowIterator) — layout de arquivo com menos colunas que o esperado. 24h=0, 72h=3
  Falha EF/DB4 grupos · 112 hits
Falha de leitura do comando no data reader. 24h=25, 72h=63, top sergio (28%).
agora NRE em MatchingService.ValidateContextAuthorizationAsync (antes era DataEngineSqlBuilder). Cresceu 3→11 no 24h. top BTG (61%).
Argumento nulo (columnA / entity) ao montar relação de matching — config de conciliação com coluna A vazia. 24h=2, 72h=13, top eng-release-fix.
antes polling de e-mail, agora 'underlying provider failed on Open' em CommonController.CheckVersion/GetDbVersion (abertura de conexão DB). 24h=2, 72h=12, top sergio.
  Falha de envio de e-mail2 grupos · 94 hits
Rate limit de SMTP no BTG (4.4.2 submission rate exceeded). 24h=35, 72h=90, 90% BTG. Throttling do provedor, não bug.
Caractere inválido (',') no cabeçalho de e-mail (SendEmailJob) — lista de destinatários mal formatada. 24h=0, 72h=4, 100% cofco.
  Arquivo ausente (PDF/staging)3 grupos · 71 hits
Path SFTP ausente no CCR (agora Cielo_MetroBahia e getnet_metrobahia). FileCopyProcessJob. Customer-specific CCR (89%). 24h=12, 72h=40
Arquivo ausente no storage Ttl (import\PAN\...portal\....xml). 24h=9, 72h=28, top BTG (63%).
Acesso negado a path SFTP/UNC (Ipiranga: EXTBAMPM/EXTBANES; \\dsapc...Carteira). 24h=1, 72h=3, top ipiranga.
  Erros sem tipo (resíduo)1 grupos · 57 hits
Resíduo de logs sem errorType definido, espalhado em 68 tenants (sinal de mistura): fluxo status Stopped, Invalid object name, SELECT INTO. Nada novo — são as mesmas famílias que já têm grupo tipado. Baixo valor de triagem.
  Erro de DI (Autofac)1 grupos · 11 hits
Ativação falha no DI (Autofac): DbMaintenanceJob e ApiKeyService -> DattosDbContext. 24h=0, 72h=11, top NoWebsite.
Tabela completa
#CategoriaErroSourceTop tenantTenantsEnvVersões24h72hTend.Loki
1Conexão Rabbit (dev timeout)AMQPConnectionWorkflowFailed (rabbit-dev): [!] Critical error in pool process maDataEngineNoWebsite4other, local, prod16.3.6, 16.4.02.5334.354▲ 134%
2Conexão Rabbit (broker recusando)AMQPHeartbeatTimeout (matching): Error: IO Error: Cannot open database "/mnt/staMatchingNoWebsite4other, demo, prod16.3.22, 16.4.0581.362— estável
3Staging DuckDB read-only (storm)IO Error (staging read-only) + Parser: Error: Catalog Error: Table with name ETLPipelineNoWebsite15other, prod, local, eng-internal16.3.22, 16.4.0371.328— estável
4Erro de schema ETL (DuckDB)Catalog Error (matching_<id> ausente): Exception in ASGI application + ExceptionQuerydattos-data-engine-query-aws-16-35other16.3.22, 16.4.05641.170▲ 26%
5Job/fluxo Hangfire falhandoInvalidOp (fluxo status Stopped): Error calling service 'matching', operation 'eBackagibank49prod, other, eng-internal, demo, local, hom15.4.11, 15.4.15266842— estável
6Erro de banco/SQLSqlException (objeto/coluna): Failed to process the job '690170': an exception oBackNoWebsite15other, prod, local15.4.11, 15.4.4100503— estável
7Gateway/serviço novo falhandosession-init failed (postgres host): session-init call failed for user=postgres Dattos-GatewayNoWebsite1other16.4.0212422— estável
8Falha HTTP downstreamHttpRequestException (matching_<id>): Catalog Error: Table with name matching_43Backedenred24prod, local, eng-internal, demo16.3.20, 16.3.22154311▲ 35%
9Erro de frontend (null/undefined)FrontException (null/undefined): Cannot read properties of undefined (reading 'cFrontzaffari31prod, demo, eng-internal, local15.4.11, 16.3.2282205▲ 22%
10Falha de envio de e-mailSmtpException (rate limit): Erro ao enviar e-mail #208945. Service not availableBackdattos (BTG)4prod, hom15.4.11, 16.3.223590— estável
11Erro de negócio (validação)ArgumentException (e-mail/anexo/filtro): O valor do campo NextPosition é nulo. TBackdattos (BTG)10prod, hom15.4.11, 15.4.152873▲ 30%
12Falha EF/DBEntityCommandExecutionException: An error occurred while reading from the store Backallcare12prod, local15.4.11, 16.3.222563▲ 47%
13Erros sem tipo (resíduo)Erros sem tipo (resíduo): Error calling service 'matching', operation 'export', Backcsf-qa6prod, eng-internal, other14.8.4, 16.3.222357— estável
14Erro de negócio (validação)AuthorizationException (pasta): A pasta atual não é válida de acordo com as pastBackinternal3local, demo16.3.22, 16.4.01650— estável
15Arquivo ausente (PDF/staging)DirectoryNotFoundException (SFTP CCR): Could not find a part of the path 'd:\ccrBackccr2prod15.4.11, 16.3.221240— estável
16Erro de negócio (validação)BusinessException (regra/agendamento): Error refreshing sample from step ID 485.Backholambracoop14prod, local15.4.11, 16.3.221132— estável
17Arquivo ausente (PDF/staging)FileNotFoundException (storage): File not found on storage Ttl. Details: FileNamBackdattos (BTG)4prod, eng-internal15.4.11, 16.3.22928▲ 47%
18Falha EF/DBNullReferenceException (Matching): Object reference not set to an instance of anBackdattos (BTG)6prod, local15.4.11, 16.3.221224▲ 33%
19Erro de banco/SQLNpgsqlException (import stream): Erro durante importação ID 2448674 Exception whBackdattos (BTG)1prod15.4.11418— estável
20Erro de banco/SQLPostgresException (42883/42P01): Erro durante importação ID 2444146 42883: operaBackdattos (BTG)1prod15.4.11015— estável
21Falha EF/DBArgumentNullException (columnA): Value cannot be null. Parameter name: columnA VBackeng-release-fix4eng-internal, prod16.3.22, 16.4.0213— estável
22Falha EF/DBEntityException (provider Open): The underlying provider failed on Open. The undBacksergio5prod, local16.3.22, 16.4.0212— estável
23Erro de DI (Autofac)DependencyResolutionException (Autofac): Failed to process the job '33540': an eBackNoWebsite2other, prod16.3.22, 16.4.0011— estável
24Falha HTTP downstreamHttpException (host fechou): The remote host closed the connection. The error coBackzaffari2prod16.3.2209— estável
25Falha HTTP downstreamJsonReaderException (DataEngine 502): DataEngine returned non-parseable JSON on Backallcare3prod16.3.2247— estável
26Falha HTTP downstreamTaskCanceledException (storage): [GetStoragesAsync] Failed to get storages. A taBackcsf-qa2prod16.3.2207— estável
27Gateway/serviço novo falhandouvicorn uncaught (boot): Uncaught exception Traceback (most recent call last): FMCP-HTTP-GatewayNoWebsite1other07— estável
28Erro de banco/SQLOracleException (ORA-00904): ORA-00904: "T"."IN_SITUAC": invalid identifier DetaBackdattos (BTG)1prod15.4.1155— estável
29Falha de envio de e-mailFormatException (mail header): Erro ao enviar e-mail #52667. An invalid characteBackcofco1prod16.3.2204— estável
30Arquivo ausente (PDF/staging)UnauthorizedAccessException (SFTP): Access to the path 'd:\ipiranga\ttl\import\SBackipiranga2prod, hom15.4.15, 16.3.2213— estável
31Erro de negócio (validação)IndexOutOfRangeException (extração): Index was outside the bounds of the array. Backbayer3prod16.3.2203— estável
32Erro de banco/SQLSqlTypeException (SqlDateTime overflow): SqlDateTime overflow. Must be between 1Backcolgate2prod15.4.11, 16.3.2203— estável