你有没有觉得小龙虾越用越笨反而 Hermes 越用越聪明、这是为什么?

一切从记忆根源开始,Hermes Agent 不是记住更多,而是记住得刚刚好、反观小龙虾记住了太多、造成混乱!真正的 AI 代理,不是越聪明越好,而是越会管记忆越牛!

//

先说核心哲学:

Prompt 稳定,才是王道!Hermes 的系统 prompt 构建超级抠门。它把稳定前缀(system prompt + 核心指令)冻结住,让 LLM提供商(OpenAI、OpenRouter等)能疯狂缓存,延迟和费用直接起飞。

一切可变、大块、偶尔才用的信息?统统扔给 Tool 调用,别污染 prompt!

这一个决定,就奠定了整个内存架构的基调:热内存要极致小,冷召回要极致准。听起来像数据库分层?没错,AI 代理终于开始像正经后端系统一样玩了。

//

四层记忆系统:像人类大脑一样分层,但更高效!

🔻第 1 层:冻结式 Prompt 记忆(MEMORY.md + USER.md)

这是 Hermes 的“短期+核心长期记忆”,藏在~/.hermes/memories/里,总共才1300 tokens左右(用字符限而不是 token 限,模型无关,绝了)。

• 存什么?用户偏好、环境事实、反复纠正、稳定约定。

• 不存什么?任务进度、临时TODO、单次会话结果(这些让prompt膨胀)。

它在 session 启动时一次性渲染进prompt,然后冻结。中途改了也只落盘,下次 session 才生效。完美保持缓存命中率。工具叫 memory,支持add、replace、remove(用子串匹配就行,不用ID)。还会自动拒绝对prompt注入、凭证泄露等危险内容。毕竟这些记忆以后就是system prompt的一部分,谁敢乱来?

🔻第 2 层:Session Search(SQLite episodic recall)

过去所有对话塞进~/.hermes/state.db,用 FTS5 全文搜索+parent_session_id做血缘追踪。需要回忆“上周我们说过啥”“上次X是怎么处理的”?调用session_search工具,拉出相关记录,总结后再塞回去。

这层是冷记忆,不常驻 prompt,只在需要时唤醒。比那些把整段历史全塞prompt 的方案省钱 100倍,还更准。

🔻第 3 层:压缩前的 Memory Flush(最骚的操作)

长对话要压缩了?Hermes先不急着summarize,而是扔给模型一个临时指令:

“在被压缩前,把真正该永久记住的东西写进MEMORY.md/USER.md!”

模型自己决定什么值得留存→写盘→压缩→重建prompt缓存。

这等于给模型一次临终遗言机会,避免重要细节在压缩里永远消失。真正的智能,不是不丢,而是知道该丢什么。

🔻第 4 层:Skills 作为程序性记忆

不止记“是什么”,还要记“怎么做”。

Skills存成独立文件(~/.hermes/skills/),像可复用工作流文档。发现好workflow、修bug、优化流程?自动存成skill,下次直接调用。

而且不全量注入prompt,只放索引,需要时再拉——token效率拉满。

🔻Bonus 第5层(可选):Honcho深度用户建模

想跨bsession、跨设备、跨平台记住“你”这个人?开启Honcho hybrid模式。它会建用户画像+AI自我画像,第一轮 bake 进 prompt,后续用 turn 级注入,不破坏缓存。

Hermes不仅记你,还在慢慢了解自己、这已经有点赛博朋克了。

//

和小龙虾比,谁更生产级?

OpenClaw 更像 Markdown日记本:每天日志+混合搜索,适合笔记型记忆。

Hermes 则是缓存优先的分层架构:热内存极小、冷召回极准、程序性知识独立、prompt 永不乱。

Hermes 把 prompt 稳定性当做一等公民。大多数 agent还在拼命往 prompt里塞东西,Hermes 却在拼命往外扔,只留最精华的。

//

Hermes 真正牛在哪儿?三点灵魂洞察

1. 热冷分离:永远在 prompt 里的东西极致小,偶尔用的东西极致好查。

2. 缓存友好:冻结快照、延迟更新、turn 级注入……全是为LLM提供商的prompt cache 服务的。

3. 记忆是复数:没有万能存储,只有分层协作。语义画像、情节回忆、程序技能、用户建模各司其职。

//

结论不是记住更多,而是记住得刚刚好、在正确的层级、以正确的成本。这才是生产级 AI代理该有的样子。不是堆 token,不是炫技,而是像一个成熟的工程师在设计系统:优雅、务实、可维护。