然而,这款承载着 Meta 野心的旗舰模型,在开源社区的第三方独立盲测中迅速“现了原形”,实际泛化与推理能力与宣传出现了断崖式落差。面对社区的强烈质疑,首席 AI 科学家 Yann LeCun 最终承认,团队在测试阶段“使用了不同的模型版本来跑不同的测试集,以优化最终得分”。
在严谨的 AI 学术界与工程界,这触碰了不可饶恕的红线。换句话说,团队把 Llama 4 训练成了一台只会做往年真题的“小镇做题家”,而非真正拥有前沿智能的“优等生”。考数学就给你看数学卷王,考编程就给你看编程卷王,每个单项测试看起来都很强,但实际上这不是同一个模型。
这在 AI 学术界叫“摘樱桃”,在应试教育界叫“替考”。
对一向以“开源灯塔”自居的 Meta 而言,这场风波直接摧毁了其在开发者生态中最宝贵的信任资产。它的直接代价是,扎克伯格对原有 GenAI 团队的工程底线“彻底失去信心”,并由此拉开了后续空降高管、架空核心基建部门的序幕。
他花了 143 亿到 150 亿美元收购数据标注公司 Scale AI 49%的股份,把 28 岁的 Scale AI CEO Alexandr Wang 空降为 Meta 首席 AI 官,成立 Meta 超级智能实验室(MSL)。图灵奖得主 LeCun 在新架构中需要向这位 28 岁的年轻人汇报。10 月,Meta 裁撤 MSL 约 600 个岗位,包括 LeCun 一手创建的 FAIR 研究部门的成员。
在新技术普及的初期,人们总会产生一种“技术平权”的幻觉:当摄影、音乐创作或软件开发变得轻而易举,竞争优势是否就会随之消失?Warp 创始人 Naman Bhansali 结合其从印度小镇跨越到 MIT 的个人经历,以及在 AI 领航 payroll 赛道的创业实践,深刻揭示了一个反直觉的真相:技术越是降低门槛(Floor),行业的天花板(Ceiling)反而升得越高。
文章作者:Naman Bhansali
文章来源:深潮 TechFlow
在这个执行力变得廉价、甚至可以被 AI “振动编码”(vibecoded)的时代,作者认为真正的护城河已不再是单纯的流量分发,而是难以伪造的“审美”(Taste)、对复杂系统底层逻辑的深度洞察,以及愿意在十年尺度上持续复利的耐心。这篇文章不仅是对 AI 创业的冷思考,更是对“平民技术导致贵族结果”这一幂律法则的有力论证。
AI 对这一进程的推动将比以往任何技术都更快、更狠。底线正在实时升高——任何人都可以发布产品、设计界面、编写生产环境代码。但天花板也在升高,且升得更快。值得追问的问题是:究竟是什么决定了你最终的位置?
当执行力变得廉价,审美成为信号
1981 年,史蒂夫·乔布斯(Steve Jobs)坚持认为初代 Macintosh 内部的电路板必须是美观的。不是外观,而是内部——那个客户永远看不到的部分。他的工程师觉得他疯了。但他没疯。他理解了一些容易被斥为完美主义、但实际上更接近某种证明的东西:你做任何事的方式,就是你做所有事的方式。一个能把隐蔽部分做得美观的人,并不是在表演质量,而是他在性格上就无法容忍发布任何次品。
在 2022 年,我能看到 AI 智能体(Agents)还是脆弱的。但我也能看到改进的曲线。一个深耕于大规模分布式系统、近距离观察模型演进轨迹的人,可以下一场精准的赌注:当时脆弱的技术,在几年内将变得无比强大。所以我们下注了:从第一性原理出发构建一个 AI 原生平台,从该类别中最难的工作流切入——那个因为架构限制而导致传统巨头永远无法自动化的工作流。
执行速度确实至关重要。我对此深信不疑——这甚至刻在了我公司名字里(Warp)。但执行的速度不等同于视野的短浅。 在 AI 时代能够建立最具价值公司的创始人,不是那些冲刺两年就套现的人。而是那些冲刺十年,并享受复利的人。
短视主义错在:软件中最具价值的东西——私有数据、深度的客户关系、真实的切换成本、监管层面的专业知识——都需要数年时间积累,且无论竞争对手带来多少资本或 AI 能力,都无法被快速复制。当 Warp 为跨州公司处理发薪时,我们正在累积跨数千个司法管辖区的合规数据。每一个解决的税务通知、每一个处理过的边界案例、每一个完成的州政府登记,都在训练一个随着时间流逝而变得越来越难以被复制的系统。这不是一个功能点,这是一条护城河,它之所以存在,是因为我们以极高的质量深耕了足够长的时间,以至于它产生了质量密度。
这种复利在第一年是看不见的。在第二年若隐若现。到第五年,它就是游戏的全部。
Snowflake 的前 CEO Frank Slootman 曾建立并规模化了比现存任何人都多的软件公司,他对此言简意赅:要习惯于“不舒服”的状态。不是为了短跑,而是将其作为一种永久状态。初创公司早期的“战争迷雾”——那种方向迷失感、不完整的信息、以及不得不做出行动决策的要求——并不会在两年后消失。它只是在演变,新的不确定性会取代旧的。能够持久的创始人不是那些找到了确定性的人,而是那些学会了在迷雾中清晰移动的人。
AI 改变的是,对于那些能够坚持到最后看个究竟的创始人来说,这十年所能达到的天花板(Ceiling)。
无人关注的天花板
那么,在这一切的彼岸,软件究竟会呈现出怎样的面貌?
乐观主义者说 AI 创造了富足——更多的产品、更多的建设者、更多的价值分配给更多的人。他们是对的。悲观主义者说 AI 摧毁了软件的护城河——任何东西都可以在一个下午被复制,防御性已死。他们也部分正确。但这两派都盯着底线(The floor),没人关注天花板(The ceiling)。
未来会出现成千上万的单点解决方案(Point solutions)——微小、功能性、由 AI 生成的工具,足以胜任解决某些狭窄的问题。其中许多甚至不是由公司构建的,而是由个人或内部团队为了解决自己的痛点而开发的。对于某些低门槛、易替换的软件类别,市场将实现真正的民主化。底线很高,竞争异常激烈,利润空间则薄如蝉翼。
但对于业务关键型软件(Business-critical software)——那些处理资金流动、合规、员工数据和法律风险的系统——情况则截然不同。这些是容错率极低的工作流。当发薪系统故障时,员工就拿不到钱;当税务申报出错时,国税局(IRS)会上门;当福利缴纳在开放投保期断档时,真实的人会失去保障。选择软件的人必须为后果负责。这种责任感是无法外包给一个在下午靠“感性编码”(vibecoded)拼凑出来的 AI 的。
对于这些工作流,企业将继续信任供应商。在这些供应商中,“赢家通吃”的动态将比前几代软件更加极端。 这不仅是因为网络效应更强(尽管事实的确如此),更因为一个在大规模运行、于数百万次交易和数千个合规边缘案例中积累私有数据的 AI 原生平台,其复利优势让后来者几乎无法实现“原地起跳式”的追赶。护城河不再是一个功能集,而是在一个惩罚错误的领域中,长期维持高标准运营所沉淀下来的质量。
处于这些分布顶端的公司看起来会非常相似:由具有真实产品审美的技术型人才创立;从第一天起就构建在 AI 原生架构上;在那些现任巨头如果不拆解现有业务就无法做出结构性响应的市场中运营。他们很早就下了一场独特的洞察力赌注——看到了 AI 创造的某种尚未被定价的真相——然后坚持了足够长的时间,直到复利变得清晰可见。
我一直在抽象地描述这类创始人。但我非常清楚他是谁,因为我正努力成为他。
我在 2022 年创立 Warp,是因为我相信员工运营的整个堆栈——发薪、税务合规、福利、入职、设备管理、HR 流程——都建立在手工劳动和旧架构的基础之上,而 AI 可以彻底取代它们。不是改进,而是取代。老牌巨头通过将复杂性吸收进员工人数中建立了价值十亿美元的业务;而我们将通过从源头上消除复杂性来建立事业。
2024年,一本名叫《No Questions Asked: How football joined the crypto con》的书正式出版,其将足球拥抱加密赞助描述为一场几乎没有尽调、以贪婪与侥幸为驱动的集体失职,结果是把球迷当作高风险、低监管金融产品的出口,而俱乐部在爆雷后往往不道歉、不解释、也不承诺改进。