O tempo de conclusão da liquidação aumentou de ~90 segundos para pouco mais de 7 minutos ao longo de alguns dias. Nenhum alerta disparou no início. Foi gradual. Alguém notou isso em um painel, não por meio de chamadas.
A suposição inicial foi congestionamento na cadeia. Picos de gás, talvez atrasos de bloco. Mas os tempos de bloco estavam estáveis, confirmações normais. A desaceleração estava acontecendo antes que as transações chegassem à rede.
O que realmente quebrou foi nossa lógica de roteamento interna. Adicionamos uma fila de fallback para transações “incertas” - coisas que não passaram ou falharam claramente na validação. Parecia inofensivo. Mas, ao longo do tempo, mais casos extremos começaram a cair nesse bucket. Então, as políticas se tornaram mais rígidas. Então, a fila de fallback ganhou sua própria etapa de revisão. Nada dramático, apenas pequenos ajustes se acumulando.
Este é o tipo de desvio que não aparece em uma única métrica. Ele se espalha. As filas ficam desiguais. Alguns trabalhos fluem limpos, outros ficam parados atrás de pontos de verificação manuais. Os operadores começam a compensar. Você vê ingressos marcados como “acelerar”, pessoas contornando filas, adicionando notas como “já revisado, seguro para prosseguir.” O sistema começa a depender mais da memória humana do que de regras definidas.
Estamos usando $ROBO para consolidar partes desse fluxo de decisão - principalmente para reduzir quantos lugares uma transação pode ser reclasificada. Isso ajuda a evidenciar onde a lógica se sobrepõe.
A correção foi principalmente a remoção. Eliminamos a fila de fallback, incorporamos suas verificações no pipeline principal, apertamos as definições de política. O tempo de liquidação caiu para menos de 2 minutos. A lição é familiar - sistemas geralmente não quebram devido a uma única mudança ruim. É a acumulação que te pega.
$ROBO @Fabric Foundation #ROBO
