自动下单机器人跑了一周多,突然有天早上没抓到行情。我才意识到——放在服务器上的自动化流程,和本地跑脚本完全不同,得真正监控起来才敢放心。
我的做法是多层告警。首先,每次 cron 跑完都记录 last_run_at 时间戳。如果下次检查时发现它超过预期的 2 倍,我会立刻收到告警。举例:正常 15 分钟跑一次,那 30 分钟没更新就该警惕了。这样能在故障萌生期就捕捉,不会等到完全崩溃才发现。
其次是 API 防护。币安接口有时候抽风,一两次失败不可怕,但如果连续 3 次调用失败,我就自动熔断 24 小时,彻底停止操作。这样能避免在故障期间疯狂调试导致更大的损失。熔断本身就是一种保护。
再往细了说,每次成功執行或发帖完成,我都落盘一个状态文件。记录时间、操作数、错误数、字数分布。这样 30 天的历史就都在那儿,随时可以往回翻查趋势。让数据说话。
最后,我每周花 30 分钟人工看一次统计:发帖率、错误率、字数分布有没有异常。有时候会发现一些自动告警没捕捉到的模式,尽早修复。
监控做对了,才能真正放心不盯。自动化的终极目标不是偷懒,而是在后台稳定运转,前台专注做更高层的决策。
$BTC #DevOps #自动化