你有没有觉得小龙虾越用越笨反而 Hermes 越用越聪明、这是为什么?
一切从记忆根源开始,Hermes Agent 不是记住更多,而是记住得刚刚好、反观小龙虾记住了太多、造成混乱!真正的 AI 代理,不是越聪明越好,而是越会管记忆越牛!
//
先说核心哲学:
Prompt 稳定,才是王道!Hermes 的系统 prompt 构建超级抠门。它把稳定前缀(system prompt + 核心指令)冻结住,让 LLM提供商(OpenAI、OpenRouter等)能疯狂缓存,延迟和费用直接起飞。
一切可变、大块、偶尔才用的信息?统统扔给 Tool 调用,别污染 prompt!
这一个决定,就奠定了整个内存架构的基调:热内存要极致小,冷召回要极致准。听起来像数据库分层?没错,AI 代理终于开始像正经后端系统一样玩了。
//
四层记忆系统:像人类大脑一样分层,但更高效!
🔻第 1 层:冻结式 Prompt 记忆(MEMORY.md + USER.md)
这是 Hermes 的“短期+核心长期记忆”,藏在~/.hermes/memories/里,总共才1300 tokens左右(用字符限而不是 token 限,模型无关,绝了)。
• 存什么?用户偏好、环境事实、反复纠正、稳定约定。
• 不存什么?任务进度、临时TODO、单次会话结果(这些让prompt膨胀)。
它在 session 启动时一次性渲染进prompt,然后冻结。中途改了也只落盘,下次 session 才生效。完美保持缓存命中率。工具叫 memory,支持add、replace、remove(用子串匹配就行,不用ID)。还会自动拒绝对prompt注入、凭证泄露等危险内容。毕竟这些记忆以后就是system prompt的一部分,谁敢乱来?
🔻第 2 层:Session Search(SQLite episodic recall)
过去所有对话塞进~/.hermes/state.db,用 FTS5 全文搜索+parent_session_id做血缘追踪。需要回忆“上周我们说过啥”“上次X是怎么处理的”?调用session_search工具,拉出相关记录,总结后再塞回去。
这层是冷记忆,不常驻 prompt,只在需要时唤醒。比那些把整段历史全塞prompt 的方案省钱 100倍,还更准。
🔻第 3 层:压缩前的 Memory Flush(最骚的操作)
长对话要压缩了?Hermes先不急着summarize,而是扔给模型一个临时指令:
“在被压缩前,把真正该永久记住的东西写进MEMORY.md/USER.md!”
模型自己决定什么值得留存→写盘→压缩→重建prompt缓存。
这等于给模型一次临终遗言机会,避免重要细节在压缩里永远消失。真正的智能,不是不丢,而是知道该丢什么。
🔻第 4 层:Skills 作为程序性记忆
不止记“是什么”,还要记“怎么做”。
Skills存成独立文件(~/.hermes/skills/),像可复用工作流文档。发现好workflow、修bug、优化流程?自动存成skill,下次直接调用。
而且不全量注入prompt,只放索引,需要时再拉——token效率拉满。
🔻Bonus 第5层(可选):Honcho深度用户建模
想跨bsession、跨设备、跨平台记住“你”这个人?开启Honcho hybrid模式。它会建用户画像+AI自我画像,第一轮 bake 进 prompt,后续用 turn 级注入,不破坏缓存。
Hermes不仅记你,还在慢慢了解自己、这已经有点赛博朋克了。
//
和小龙虾比,谁更生产级?
OpenClaw 更像 Markdown日记本:每天日志+混合搜索,适合笔记型记忆。
Hermes 则是缓存优先的分层架构:热内存极小、冷召回极准、程序性知识独立、prompt 永不乱。
Hermes 把 prompt 稳定性当做一等公民。大多数 agent还在拼命往 prompt里塞东西,Hermes 却在拼命往外扔,只留最精华的。
//
Hermes 真正牛在哪儿?三点灵魂洞察
1. 热冷分离:永远在 prompt 里的东西极致小,偶尔用的东西极致好查。
2. 缓存友好:冻结快照、延迟更新、turn 级注入……全是为LLM提供商的prompt cache 服务的。
3. 记忆是复数:没有万能存储,只有分层协作。语义画像、情节回忆、程序技能、用户建模各司其职。
//
结论不是记住更多,而是记住得刚刚好、在正确的层级、以正确的成本。这才是生产级 AI代理该有的样子。不是堆 token,不是炫技,而是像一个成熟的工程师在设计系统:优雅、务实、可维护。
