我故意搞崩 OpenLedger:它敢不敢把失败讲清楚?
我测试 OctoClaw 的方式很简单:故意把它弄坏,看它会不会把问题讲清楚。
新工具上线,我从不急着看成功演示,而是先看它崩掉时像不像人。对 OpenLedger,我直接干了两件“缺德事”:故意留空必填参数,再换成偶尔超时的 RPC 节点。
我不是想刁难它,而是逼它走真实世界的失败路径。因为很多 agent 失败就甩一句“执行失败”,你根本不知道是参数拼装错了、签名失败了、广播超时还是确认没收到,最后只能靠不断重试碰运气。
我对 @OpenLedger 的要求很务实:
1 报错要清晰:缺什么、在哪一步缺、下一步该怎么补,别丢一堆模糊提示;
2 过程要可追:输入参数、执行路径、下单构造都要透明,失败能精准定位到具体步骤;
3 失败要能收口:触发问题就立刻拦截,别盲目自信重试,最好直接给出“暂停执行 / 退回研究”的明确建议。
我还会顺手检查 cloud config 的版本化管理。如果做得好,就能快速拆开问题——到底是策略逻辑不对,还是阈值、白名单或权限配置把链路堵死。
现在我主要看两个指标:同类失败是否越来越少?从报错到定位具体步骤的时间是否越来越短?
这两点持续进步,OctoClaw 才真正像我的工作台,而不是一个更顺滑的黑箱。