下一个杀手级AI产品,是眼镜、是Agent,还是某个尚未命名的“物理世界入口”?这场圆桌没有标准答案,却达成一个共识:单纯套壳大模型的应用注定短命,只有长期在线、连接物理世界、能完成真实交互闭环的产品,才可能成为下一个百亿级赛道。从AI眼镜到具身智能,入口之争已悄然打响。

硬件先行还是生态为王?C端规模还是B端付费?最终指向同一个逻辑:纯套壳应用、弱交互硬件注定被淘汰,只有“多模态底座+AI原生智能体+可穿戴硬件”三位一体,才能让AI从聊天框真正走进现实。

以下为圆桌对话内容,经36氪整理编辑:

刘子豪丨杭州颜柯教育联合创始人(主持)

赵维奇丨乐奇全球开放生态负责人

路少卿丨商汤科技研究院技术管理负责人、多模态产品负责人

刘子豪:各位上午好,我是来自杭州颜柯的刘子豪,欢迎来到这场杀手级的AI产品赌局。今天不聊虚的,只聊一个事:下一个全民级、百亿级的AI产品到底长什么样,又会诞生在哪个赛道。今天有幸请到两位嘉宾,分别代表了不同的赛道,有请两位老师介绍一下自己。

赵维奇:大家好,我是赵维奇,来自乐奇。我是一个持续创业者,之前一直在做多模态和人工智能软硬件设备,to C看得比较多,目前负责乐奇全球开放生态,从芯片、硬件、OS、API、应用到高校、非营利组织,都可以看有没有合作的机会,推动整个行业。

路少卿:大家好,我来自商汤科技,主要负责多模态交互相关技术研发、产品化及产业落地工作。

刘子豪:感谢两位老师。如果必须押注一个赛道会诞生下一个杀手级的AI产品,您会押哪一个?可以用自家落地的案例证明您的判断。赵老师。

赵维奇:先有一个定义,下一个杀手级AI产品一定是长期在线的,跟物理世界能连接的一个入口。从我的角度,这个品类一定是AI可穿戴。可穿戴在不同时间阶段可能有不同的产品出现,目前来说,AI和AR结合的眼镜是最合适的,相对离人更近,在线时间也更长,能够更容易连接物理世界。

人每天看世界的时间应该比看手机的时间长很多,大部分时间是跟物理世界进行交互。如果是杀手级AI产品,一定是高频、刚需并且能够持续使用的。从这个角度,眼镜是最好的长期在线的部分,手机是你主动打开的,不能做成持续在线。

再说AI Agent。有了AI Agent以后,每个人都搞智能体或者其他的解决方案,都希望你的Agent是长期在线的。什么硬件或者什么产品能够让Agent长期在线,并且能陪伴在我们身边,帮助我们处理跟物理世界之间的任务、关联、记录,这个就是杀手级的AI产品。

总结来说,一定是长期在线的、能够跟物理世界相关联的入口,能够保证持续、高频使用,满足刚需。这也是下一代AI的入口,只要是一个入口,就一定是杀手级的产品。

路少卿:很多正确的判断,最后其实会走到相近的方向上。刚才说的内容,跟我想的是类似的。杀手级的应用还可以再抽象一下。无论是从最开始的模型还是到现在演进的Agent,AI从单点介入,到长期、持续的介入,目前的Agent——无论是ChatGPT还是其他,还都是停留在数字世界对话框里的AI,能用到的,在线时长是有限的。

我预期下一步我们能够延伸出一套从数字世界走到物理世界,真正能在物理世界跟人类协作的智能体系统。当然,这套智能体系统可以基于眼镜接入,也可以基于具身机器人接入,这些都是接入的硬件入口。对整个产品乃至技术的最大挑战,是能够真正实现跟真实世界的持续有效交互。

举个例子,比如我现在是一个AI,刚才主持人和嘉宾都说了一段自己的陈述,对现在大多数的AI来说,它是无法分辨谁在说话,什么时候、什么话题需要它响应的。我刚才说的这一套能够跟真实世界交互的Agent,如果解决了这个问题,那么AI才能真正进入物理世界跟大家协作。

刘子豪:作为一名辩手出身,接下来针对两位老师的分享简单做一下追问。赵维奇老师,AI眼镜分为两种路线,一种没有显示,更像是AI耳机加摄像头;另一种是AI加AR有显示的眼镜。您怎么看这两种路线的区分?

赵维奇:硬件形态可以是多样化的,不管是外形还是功能,包括覆盖的人群。有显示、无显示,属于不同阶段、不同场景的产品形态,场景不一样,选择的时候就不一样,就像手机也有很多种。无显示,更多是蓝牙耳机、摄像头的延展,可穿戴蓝牙耳机和摄像头,会更轻一些,应用场景更轻一些。带显示,原来把AR带到了物理世界识别以后,不管是识别语音还是别的什么,一定会有反馈。如果没有显示,只能通过第三个媒介,比如手机、电脑、语音播出。人类大脑接受信息的带宽是很有限的,而视觉是最快的。300字、500字的文章,用眼一看,两秒钟就知道大概的意思;要读出来,有些同学可能都只有七秒的记忆,读到第五、第六句前面就忘了。显示本身就是增强人类带宽的部分。

为什么会有显示和无显示的区别?有显示更多是把AI处理的