结果最后发现。

是我自己把一个旧缓存忘了清。

但这事最烦的地方不是犯蠢。

而是:

你会被它硬生生拖掉半天。

事情一开始其实特别普通。

我那两天一直在重复跑一个小推理任务。

因为最近 OpenLedger 社区里有人重新在聊长期 inference 的一致性问题,我本来只是想自己顺手测一下。

结果昨天中午开始。

有几次返回特别怪。

不是报错。

也不是完全卡住。

而是:

同样的输入。

有时候秒回。

有时候会慢一大截。

最开始我没太在意。

因为 AI 这种东西偶尔波动很正常。

结果后面连续出现几次之后。

我开始觉得不对。

尤其有一段内容。

我连续跑了三遍。

前两次结果差不多。

第三次突然慢很多。

我那时候第一反应其实是:

“是不是有节点负载开始飘了。”

因为之前别的 infra 项目也有过类似情况。

尤其多人同时调用的时候。

延迟会突然不稳定。

于是我后面开始盯调用时间。

还顺手记了几段返回差值。

最离谱的是。

我当时甚至认真到把几个不同时间段单独记下来了。

想着后面看看是不是某个时间点更容易抖。

结果越看越乱。

因为有些请求明明长度差不多。

速度却完全不一样。

后来我开始怀疑:

是不是 prompt 本身的问题。

于是我把几组输入拆开。

重新排列。

结果还是飘。

那时候我已经有点烦了。

因为这种东西特别折磨人。

它不像直接报错。

不会让你立刻停。

而是一直给你一种:

“可能下一次就正常了。”

于是你就会不停重试。

昨天下午我基本什么都没干。

一直在反复跑。

中间我甚至还换过一次浏览器。

因为我怀疑是不是页面缓存的问题。

但换完还是一样。

最搞的是。

我后面开始重新翻之前保存的一些旧调用记录的时候。

突然发现:

有一组历史上下文一直被自动带着。

而且长度越来越长。

我当时一下就明白了。

因为那个缓存我之前测别的东西时留着没清。

结果后面每次请求。

它都在继续往后拼。

问题是。

平时单次调用的时候根本不明显。

但任务一多。

延迟会越来越夸张。

尤其连续跑的时候特别明显。

后面我直接把旧上下文全删了。

重新跑。

速度一下恢复正常。

我那时候坐那边看着返回时间突然掉下来。

整个人有点无语。

因为我前面几个小时。

一直在怀疑节点。

怀疑负载。

怀疑模型。

甚至还怀疑是不是最近调用量开始变高。

结果最后。

只是我自己没清干净。

现在回头看。

AI infra 这种东西有时候最烦人的地方就在这。

很多问题看起来像系统。

其实是你自己前面留下的东西在慢慢累积。

而且这种累积。

不会一下爆。

它会一点点拖。

所以特别容易误判。

尤其长时间连续挂任务的时候。

人会越来越容易把问题往“大故障”方向想。

因为你已经折腾太久了。

脑子会自动开始放大。

我昨天后面甚至还跑去翻社区里别人有没有提类似问题。

结果翻了半天。

没人提。

当时我还以为:

是不是只有我这里出了问题。

现在想想。

大概率别人只是比我先把缓存清了。

最浪费时间的是。

这种问题解决之后。

你不会有那种:

“终于搞定”的爽感。

只会觉得:

“我前面到底在忙什么。”

因为真正的问题其实特别小。

但它会一点点把时间全吃掉。

昨天下午我后面重新整理记录的时候。

发现自己有一半截图其实都没意义。

很多东西根本不是节点波动。

只是历史上下文越拖越长。

但人在连续盯几个小时之后。

很容易自己把事情想复杂。

尤其 OpenLedger 这种连续 inference 场景。

有时候最影响速度的。

反而不是模型本身。

而是你前面那些忘记处理的小东西。

我昨晚重新跑的时候。

特地把上下文长度控制短一点。

结果整体稳定很多。

至少不会再出现那种:

前面正常。

后面突然慢半拍的情况。

不过现在我还是会下意识去看返回时间。

因为昨天那种“忽快忽慢”的感觉。

确实挺容易让人怀疑人生。

尤其当你已经盯了半天的时候。

真的会开始怀疑是不是哪里偷偷出问题了。

结果最后只是一个旧缓存没清掉。

#OpenLedger $OPEN