结果最后发现。
是我自己把一个旧缓存忘了清。
但这事最烦的地方不是犯蠢。
而是:
你会被它硬生生拖掉半天。
事情一开始其实特别普通。

我那两天一直在重复跑一个小推理任务。
因为最近 OpenLedger 社区里有人重新在聊长期 inference 的一致性问题,我本来只是想自己顺手测一下。
结果昨天中午开始。
有几次返回特别怪。
不是报错。
也不是完全卡住。
而是:
同样的输入。
有时候秒回。
有时候会慢一大截。
最开始我没太在意。
因为 AI 这种东西偶尔波动很正常。
结果后面连续出现几次之后。
我开始觉得不对。
尤其有一段内容。
我连续跑了三遍。
前两次结果差不多。
第三次突然慢很多。
我那时候第一反应其实是:

“是不是有节点负载开始飘了。”
因为之前别的 infra 项目也有过类似情况。
尤其多人同时调用的时候。
延迟会突然不稳定。
于是我后面开始盯调用时间。
还顺手记了几段返回差值。
最离谱的是。
我当时甚至认真到把几个不同时间段单独记下来了。
想着后面看看是不是某个时间点更容易抖。
结果越看越乱。
因为有些请求明明长度差不多。
速度却完全不一样。
后来我开始怀疑:
是不是 prompt 本身的问题。
于是我把几组输入拆开。
重新排列。
结果还是飘。
那时候我已经有点烦了。
因为这种东西特别折磨人。
它不像直接报错。
不会让你立刻停。
而是一直给你一种:
“可能下一次就正常了。”
于是你就会不停重试。
昨天下午我基本什么都没干。
一直在反复跑。
中间我甚至还换过一次浏览器。
因为我怀疑是不是页面缓存的问题。
但换完还是一样。
最搞的是。
我后面开始重新翻之前保存的一些旧调用记录的时候。
突然发现:
有一组历史上下文一直被自动带着。
而且长度越来越长。
我当时一下就明白了。
因为那个缓存我之前测别的东西时留着没清。
结果后面每次请求。
它都在继续往后拼。
问题是。
平时单次调用的时候根本不明显。
但任务一多。
延迟会越来越夸张。
尤其连续跑的时候特别明显。
后面我直接把旧上下文全删了。
重新跑。
速度一下恢复正常。
我那时候坐那边看着返回时间突然掉下来。
整个人有点无语。
因为我前面几个小时。
一直在怀疑节点。
怀疑负载。
怀疑模型。
甚至还怀疑是不是最近调用量开始变高。
结果最后。
只是我自己没清干净。
现在回头看。
AI infra 这种东西有时候最烦人的地方就在这。
很多问题看起来像系统。
其实是你自己前面留下的东西在慢慢累积。
而且这种累积。
不会一下爆。
它会一点点拖。
所以特别容易误判。
尤其长时间连续挂任务的时候。
人会越来越容易把问题往“大故障”方向想。
因为你已经折腾太久了。
脑子会自动开始放大。
我昨天后面甚至还跑去翻社区里别人有没有提类似问题。
结果翻了半天。
没人提。
当时我还以为:
是不是只有我这里出了问题。
现在想想。
大概率别人只是比我先把缓存清了。
最浪费时间的是。
这种问题解决之后。
你不会有那种:
“终于搞定”的爽感。
只会觉得:
“我前面到底在忙什么。”
因为真正的问题其实特别小。
但它会一点点把时间全吃掉。
昨天下午我后面重新整理记录的时候。
发现自己有一半截图其实都没意义。
很多东西根本不是节点波动。
只是历史上下文越拖越长。
但人在连续盯几个小时之后。
很容易自己把事情想复杂。
尤其 OpenLedger 这种连续 inference 场景。
有时候最影响速度的。
反而不是模型本身。
而是你前面那些忘记处理的小东西。
我昨晚重新跑的时候。
特地把上下文长度控制短一点。
结果整体稳定很多。
至少不会再出现那种:
前面正常。
后面突然慢半拍的情况。
不过现在我还是会下意识去看返回时间。
因为昨天那种“忽快忽慢”的感觉。
确实挺容易让人怀疑人生。
尤其当你已经盯了半天的时候。
真的会开始怀疑是不是哪里偷偷出问题了。
结果最后只是一个旧缓存没清掉。