Wczoraj po południu prawie myślałem, że w OpenLedger coś zaczyna być niestabilne.

0x随风 · 2026-05-29T15:30:38.000Z

Wynik był taki, że w końcu odkryłem. To ja sam zapomniałem wyczyścić stary cache. Ale najgorsze w tym wszystkim to nie popełnianie głupot. A chodzi o to: Będziesz przez to ciągnięty na pół dnia. Na początku wszystko było całkiem normalne. Przez te dwa dni ciągle powtarzałem małe zadanie inferencyjne. Ponieważ ostatnio w społeczności OpenLedger ktoś znowu poruszył kwestię spójności długoterminowego wnioskowania, chciałem tylko samemu to przetestować. Wynik to, że wczoraj w południe zaczęło się. Kilka razy wyniki były naprawdę dziwne. To nie jest błąd. To też nie jest całkowite zacięcie. A chodzi o to: Te same dane wejściowe. Czasami wraca błyskawicznie.

结果最后发现。
是我自己把一个旧缓存忘了清。
但这事最烦的地方不是犯蠢。
而是：
你会被它硬生生拖掉半天。
事情一开始其实特别普通。
我那两天一直在重复跑一个小推理任务。
因为最近 OpenLedger 社区里有人重新在聊长期 inference 的一致性问题，我本来只是想自己顺手测一下。
结果昨天中午开始。
有几次返回特别怪。
不是报错。
也不是完全卡住。
而是：
同样的输入。
有时候秒回。
有时候会慢一大截。
最开始我没太在意。
因为 AI 这种东西偶尔波动很正常。
结果后面连续出现几次之后。
我开始觉得不对。
尤其有一段内容。
我连续跑了三遍。
前两次结果差不多。
第三次突然慢很多。
我那时候第一反应其实是：
“是不是有节点负载开始飘了。”
因为之前别的 infra 项目也有过类似情况。
尤其多人同时调用的时候。
延迟会突然不稳定。
于是我后面开始盯调用时间。
还顺手记了几段返回差值。
最离谱的是。
我当时甚至认真到把几个不同时间段单独记下来了。
想着后面看看是不是某个时间点更容易抖。
结果越看越乱。
因为有些请求明明长度差不多。
速度却完全不一样。
后来我开始怀疑：
是不是 prompt 本身的问题。
于是我把几组输入拆开。
重新排列。
结果还是飘。
那时候我已经有点烦了。
因为这种东西特别折磨人。
它不像直接报错。
不会让你立刻停。
而是一直给你一种：
“可能下一次就正常了。”
于是你就会不停重试。
昨天下午我基本什么都没干。
一直在反复跑。
中间我甚至还换过一次浏览器。
因为我怀疑是不是页面缓存的问题。
但换完还是一样。
最搞的是。
我后面开始重新翻之前保存的一些旧调用记录的时候。
突然发现：
有一组历史上下文一直被自动带着。
而且长度越来越长。
我当时一下就明白了。
因为那个缓存我之前测别的东西时留着没清。
结果后面每次请求。
它都在继续往后拼。
问题是。
平时单次调用的时候根本不明显。
但任务一多。
延迟会越来越夸张。
尤其连续跑的时候特别明显。
后面我直接把旧上下文全删了。
重新跑。
速度一下恢复正常。
我那时候坐那边看着返回时间突然掉下来。
整个人有点无语。
因为我前面几个小时。
一直在怀疑节点。
怀疑负载。
怀疑模型。
甚至还怀疑是不是最近调用量开始变高。
结果最后。
只是我自己没清干净。
现在回头看。
AI infra 这种东西有时候最烦人的地方就在这。
很多问题看起来像系统。
其实是你自己前面留下的东西在慢慢累积。
而且这种累积。
不会一下爆。
它会一点点拖。
所以特别容易误判。
尤其长时间连续挂任务的时候。
人会越来越容易把问题往“大故障”方向想。
因为你已经折腾太久了。
脑子会自动开始放大。
我昨天后面甚至还跑去翻社区里别人有没有提类似问题。
结果翻了半天。
没人提。
当时我还以为：
是不是只有我这里出了问题。
现在想想。
大概率别人只是比我先把缓存清了。
最浪费时间的是。
这种问题解决之后。
你不会有那种：
“终于搞定”的爽感。
只会觉得：
“我前面到底在忙什么。”
因为真正的问题其实特别小。
但它会一点点把时间全吃掉。
昨天下午我后面重新整理记录的时候。
发现自己有一半截图其实都没意义。
很多东西根本不是节点波动。
只是历史上下文越拖越长。
但人在连续盯几个小时之后。
很容易自己把事情想复杂。
尤其 OpenLedger 这种连续 inference 场景。
有时候最影响速度的。
反而不是模型本身。
而是你前面那些忘记处理的小东西。
我昨晚重新跑的时候。
特地把上下文长度控制短一点。
结果整体稳定很多。
至少不会再出现那种：
前面正常。
后面突然慢半拍的情况。
不过现在我还是会下意识去看返回时间。
因为昨天那种“忽快忽慢”的感觉。
确实挺容易让人怀疑人生。
尤其当你已经盯了半天的时候。
真的会开始怀疑是不是哪里偷偷出问题了。
结果最后只是一个旧缓存没清掉。
#OpenLedger  $OPEN