拆开 @OpenGradient 和 OpenGradient Chat 的数据处理路径后,有一个问题在我的笔记里停留了很久:当AI越来越擅长理解人类的表达时,它到底需要了解多少关于“这个人”本身的信息。

我日常使用AI整理工作框架、记录零散想法的时候,偶尔会发现一个很微妙的习惯,某些还不成熟的判断,我会下意识改几个词,或者暂时不写进去。这种克制并不是因为AI能力不够,而是用户和AI之间的数据边界还没有被重新定义。

继续拆解 OpenGradient 的设计,我更关注数据进入模型之前发生了什么。用户输入会先在本地设备完成加密与处理,身份相关的信息会在这个阶段被剥离,之后大模型接收的是需要理解和推理的语义内容,而不是一个能够对应到具体用户的身份标签。

这一点让我重新审视AI隐私的方向。过去很多讨论集中在数据如何被保存和管理,而这种设计尝试把问题提前到了数据进入模型之前,降低模型理解内容时对用户身份信息的依赖。

这个思路最终会不会成为未来AI系统的重要方向,我现在还无法下判断。但至少研究 $OPG #OPG 的过程中,我发现自己越来越在意一个问题:未来优秀的AI,也许不只是越来越懂我们,它还应该知道哪些部分不需要被它知道。

#opg $OPG