这两天我刷技术圈,最大的感受就一个。
AI 编程这事,更新速度已经快到有点不讲武德了。
很多人前脚还在研究 OpenClaw 怎么配,SOUL.md 怎么写,龙虾到底怎么养,后脚就看到一堆人在聊 Harness Engineering,顺手又把 Hermes Agent 送上了热搜。
我估计不少兄弟跟我一样,第一反应不是兴奋,是懵。
怎么又来新词了。
而且这次还不是换个模型名这么简单,它是在改大家理解 AI 编程的方式。
你去看了下微信指数,关键词我盯的是 "Harness" 和 "Hermes",时间范围拉的是最近 30 天。趋势也挺直观,这两个词都是这几天明显往上抬,尤其是 Hermes,讨论热度冒得更快。你会发现,大家讨论的重点也慢慢变了,不再只是哪个模型更强,而是同一个模型,为什么换个「缰绳」就像换了个脑子。

这篇我就不跟你兜圈子了。
我想讲清楚一件事。
从 Vibe Coding,到 Spec Coding,再到今天的 Harness Engineering,这不是三个孤立的名词,而是一条很清楚的进化线。
你一旦看懂这条线,再去看 Hermes,就不会觉得它只是又一个新玩意儿。
你真的懂这三代演进吗
我自己回头复盘这两年的变化,感觉特别像养工具。
一开始大家都图快,后来发现光快没用,再后来才发现,真正难的不是让 AI 干活,而是让它稳定地干活。
Vibe Coding,2024 年最上头的玩法
Vibe Coding 那波为什么火,其实很好理解。
因为它真的爽。
人只要把想法说出来,AI 就开始写代码。你不需要先搭框架,不需要先写文档,甚至不需要完全想清楚,先聊,先试,先跑起来。
这套玩法最迷人的地方,就是门槛低。
很多以前不敢碰代码的人,也敢开始折腾了。
但我自己用多了以后,问题也特别明显。
你今天刚说完不要改这个目录,它过十分钟就忘了。
你昨天刚定好的架构,它下一轮可能又给你扯回去了。
你让它快速做一个功能,结果功能是有了,代码像临时工搭的棚子,能用,但一看就不敢住。
所以 Vibe Coding 的问题,不是它不牛。
而是它太靠感觉了。
感觉这东西,适合开脑洞,不适合长期施工。
Spec Coding,把口嗨变成规格
到了 2025 年,大家开始反应过来,不能只靠聊天。
于是 Spec Coding 出来了。
它的思路很朴素。
先把规格写清楚,再让 AI 按规格执行。
这一步其实很重要,因为它把模糊的意图,变成了相对清楚的边界。
以前是我脑子里大概有个意思,AI 靠猜。
现在是我先把要求写下来,AI 再照着做。
整个过程会稳很多。
如果你做过稍微复杂一点的项目,你会特别能体会这一点。需求一旦写清楚,返工率真的会下去。
但 Spec Coding 也不是万能药。
因为规格是规格,执行是执行。
规格再清楚,AI 也可能在执行时走偏,可能死循环,可能误删文件,可能把一件小事越做越大。
也就是说,Spec 解决了「要做什么」的一部分问题,但没彻底解决「怎么安全地做」这个问题。
Harness Engineering,真正开始管住 AI
这时候 Harness Engineering 就上场了。
我特别喜欢它背后的那个公式。
Agent = Model + Harness
这个公式非常值钱,因为它一下就把很多人脑子里的雾打散了。
模型只是引擎。
Harness 才是底盘、刹车、方向盘、仪表盘,是那套保证它别乱冲、别跑偏、出了事还能拉回来的系统。
你可以把它理解成给 AI 套缰绳。
不是限制它不许跑。
而是让它跑得更远的时候,不至于把人也带沟里去。
LangChain 做过一个很有代表性的实验,同一个模型,主要就是调 Harness,最后成绩能从 52.8% 提到 66.5%。
这个数字很说明问题。
很多时候,差距根本不在引擎本身,而在你怎么把引擎装进一套靠谱的车里。
所以这三代演进,我的理解很简单。
Vibe 解决的是敢不敢开始。
Spec 解决的是说不说得清。
Harness 解决的是能不能长期稳定地跑。

什么是 Harness,普通人也能懂的技术本质
很多人一听 Harness,就容易把它想得特别玄。
其实没必要。
你把它当成 AI 干活时的整套护栏系统,就差不多了。
我自己更愿意把它拆成五根缰绳来看。
第一根,权限
AI 能碰什么,不能碰什么。
这件事以前经常被忽略,但它真的特别关键。
一个能随便读写、随便执行、随便联网的 Agent,听上去很强,实际也很吓人。
所以 Harness 先管权限。
哪些目录能改,哪些命令能跑,哪些服务能连,先说清楚。
比如你让它改项目配置,规则里先限定只能动 config/ 和 scripts/,别一上来把整个仓库都翻一遍。
第二根,记忆
AI 不能每次都像失忆一样重开。
如果上次已经踩过坑,这次最好能记住。
如果这个用户一贯喜欢什么风格,最好别每次重新猜。
所以记忆不是锦上添花,它是 Agent 能不能越用越顺手的关键。
比如你上次因为 3000 端口冲突折腾了半小时,那它下次启动本地服务时,就会优先避开这个坑。
第三根,恢复
再聪明的系统也会犯错。
问题不在于会不会错,问题在于错了以后怎么办。
有没有回滚,有没有补救,有没有重试路径,这些都属于 Harness 的范围。
比如它改完一轮代码发现页面直接白屏,那就先自动回滚到上一个能跑通的版本,而不是继续硬改。
第四根,验证
AI 说自己做完了,不等于真的做完了。
它说自己做对了,也不等于真的做对了。
所以你得有验收。
跑测试,查输出,看格式,做比对。
别让它自己给自己打满分。
比如它刚提交完登录模块,就顺手把单测和接口检查跑一遍,哪怕只挂一个断言,也先拦下来别往下走。
第五根,反馈
如果每次犯错都只是骂一句,然后下次继续犯,那这个系统永远长不大。
Harness 最值钱的地方,就是它能把错误和结果重新喂回去,变成下一轮的经验。
这时候它才不是一次性工具,而是开始有一点系统学习的味道。
比如它连续两次都在同一种报错上卡住,那下次遇到类似任务时,就先换一套更稳的处理方案。
如果要用一个最通俗的比喻,我会这么讲。
模型像发动机。
Harness 像整台车的驾驶系统。
只有发动机,没有方向盘,你不敢上路。
只有发动机,没有刹车,你上了路也不安心。
所以大家今天聊 Harness,不是在给模型贴新标签,而是在讨论,怎么把一个会说话的引擎,变成一个能长期协作的工具。
为什么偏偏是 2026 年火起来
因为大家终于被现实教育了。
前两年整个圈子都在追更强的模型。
参数更大一点,榜单更高一点,生成更快一点。
但做久了以后,大家慢慢都碰到同一个坎。
模型能力已经不算低了,可实际交付还是不稳。
能写,不等于能交。
能跑,不等于敢放手。
这时候很多团队才开始意识到,真正拉开差距的,不只是模型本身,而是你给它配了什么样的工作系统。
这也是为什么现在越来越多人开始说,模型不是唯一壁垒,Harness 才更像壁垒。
Hermes Agent,第一批出厂就带缰绳的 AI
如果前面那段你跟上了,那 Hermes 就很好理解了。
它最吸引我的点,不是又开源了一个 Agent 框架。
而是它把 Harness 这件事,直接往产品里做了一大截。
Hermes 到底是什么
Hermes 是 Nous Research 放出来的开源框架,MIT 许可证,版本已经到 v0.7.0,GitHub 星标也冲到了 27000 多。
这些信息当然重要,但更重要的是它代表的方向。
它不是让你先手搓一堆配置,再慢慢把 Agent 养起来。
它更像是一套一上来就给你准备了缰绳的系统。
你拿来跑,它会边跑边学,边学边修自己的做事方式。
这个感觉,跟很多传统 Agent 框架真的不一样。
它和 OpenClaw 的区别,到底差在哪
我觉得花叔那个比喻很传神。
OpenClaw 像你养出来的龙虾。
Hermes 像自己会长大的龙虾。
前者更像什么。
你要喂,你要看,你要配规则,你要手动维护很多东西。
它能不能长好,很看养殖户的耐心和手艺。
后者更像什么。
你还是要定边界,但它会从经验里慢慢学会怎么把事做顺。
它不是完全不用管,而是少了很多事事亲自盯的负担。
这个差别,落到技术上,大概有这么几层。
记忆维护不一样。 OpenClaw 更偏人工维护,Hermes 则把三层记忆做成了持续运转的系统。
Skill 维护不一样。 OpenClaw 更多靠人写和人改,Hermes 则强调自主创建 Skill,再基于反馈继续改。
用户建模不一样。 OpenClaw 更像先写一份人设说明,Hermes 则更像边合作边理解你。
这就是为什么我会觉得,Hermes 不是简单地又多一个工具,而是在把 Agent 往更像长期搭档的方向推。
它最核心的地方,是那个五环节闭环
Hermes 最值得盯住的,不是单个功能,而是它那个闭环飞轮。
策划记忆。
自主创建 Skill。
Skill 自改进。
FTS5 召回。
用户建模。
然后再回到策划记忆。
如果你第一次看这串词,可能会觉得有点密。
你可以简单理解成,它不是单纯记住聊天,而是在把成功和失败都慢慢攒成下一次能直接调用的经验。
这样一想,其实就没那么玄了。
我把它翻成大白话,你就懂了。
它不是单纯记住你聊过什么,而是想办法把合作里留下来的经验,整理成以后还能继续用的资产。
你这次怎么做成的,它记住。
你这次怎么做砸的,它也记住。
下次遇到类似任务,它不需要从零开始猜,而是会调以前留下来的经验来接着干。
这里面又有个特别关键的点,就是三层记忆。
你可以简单理解成,短期的事它先别忘,长期的偏好它慢慢攒,具体做事的方法它另外存。
会话记忆,负责记住刚刚发生了什么。
持久记忆,负责记住你是谁,你平时偏好什么。
Skill 记忆,负责记住事情到底该怎么做。
这三层一旦打通,Agent 才不只是会聊天,而是真的开始有一点熟练工的味道。

还有个细节我很喜欢。
Hermes 这套数据主要都放在本地 ~/.hermes/,不是强依赖云端。
这件事对很多开发者来说挺重要的,因为你终于不用默认把所有习惯和上下文都交出去。
普通人怎么理解自改进
我建议你别把自改进想成科幻片。
它没那么神。
它更像一个会复盘、会整理 SOP、会把经验沉淀下来的同事。
普通 AI 的记忆,有时候像把聊天记录一页页往笔记本上贴。
越贴越厚。
但真到要用的时候,你会发现翻起来很费劲。
Hermes 想做的,是把这些记录慢慢提炼成可复用的方法。
不是单纯记得更多,而是记得更能用。
这个差别很大。
一个是在囤记录。
一个是在长经验。
三个工具摆在一起,普通人到底怎么选
聊到这里,很多人会开始问,那是不是 Hermes 就要赢麻了。
我自己的答案很明确,不用这么想。
工具不是拿来拜的,是拿来配的。
如果硬让我给一个很实用的判断,我会这样分。
Claude Code 适合白天用。 你盯着它,跟它来回拉扯,适合写新功能、改代码、看结果、及时修。
Hermes 适合夜里用。 你把规则和目标交代清楚,让它在后台慢慢跑,做持续调研、代码巡检、记忆沉淀这类长线活。
OpenClaw 适合做标准化配置。 你想把一套规范明确写下来,让团队都按一个模子来,OpenClaw 那套语言还是很有价值。
这也是花叔那个判断让我印象很深的原因。
Claude Code 像白天团队。
Hermes 像夜班团队。
OpenClaw 更像一套标准化配置语言。
这不是让你做单选题。
这是在提醒你,真正值钱的是组合能力。

如果是普通程序员,或者想认真把 AI 拉进自己工作流的人,我会建议这样理解。
日常高频开发,优先用 Claude Code。
团队规范沉淀,研究 OpenClaw。
长期后台协作和记忆进化,盯住 Hermes。
这样看,路就清楚多了。
普通人最需要做的,不是追新,是祛魅
我最近特别想提醒大家的一件事,就是别把 Harness Engineering 神化。
它不是魔法。
它也不是一夜之间让 Agent 拥有自我意识。
它更像是工程思维终于补上了之前缺的那一块。
以前很多人只盯着油门。
现在终于开始补刹车、方向盘和仪表盘了。
这是进步。
但它还是工程,不是神迹。
Hermes 的自改进也一样。
它能在怎么做这件事上越跑越顺,但做什么、为什么做、哪些边界不能碰,这些核心判断,还是得人来定。
你要是把方向盘也一起扔给它,那迟早会出事。
所以普通人最该建立的,不是盲目崇拜新框架的情绪,而是一套更稳的判断。
第一,AI 再会干活,也得有人定边界。
第二,能自改进,不等于能无限自改进。
第三,记忆越强,越需要审计和遗忘机制。
这几个问题,现在很多人都在兴奋期,还没认真聊透。
但我觉得它们比单纯追新工具更重要。
写在最后
如果让我把这篇压成一句话,我会这么说。
AI 编程从来不是模型越强越好,而是模型外面那套工作系统,终于开始被认真对待了。
Vibe Coding 让大家敢开工。
Spec Coding 让大家开始讲规矩。
Harness Engineering 则是在补齐那套让 Agent 真正能长期上岗的约束系统。
至于 Hermes,它最值得看的地方,不是星标有多高,也不是概念有多新,而是它在认真回答一个问题。
AI 能不能不只会帮忙,还能在合作里慢慢变成熟。
我自己的判断是,这条路很值得看。
但越到这个阶段,越别只看热闹。
谁更有机会先吃到这一波红利。
如果你现在是一个人开发,你最先想补的是规则、记忆还是后台协作。
欢迎你跟我聊聊。
.png)
参与讨论
(Participate in the discussion)
参与讨论