训练AI就三件事

真相、真相、还是他妈的真相

马斯克在近期的一场采访中用两个小时探讨了AI、人类文明,以及生命的意义。

当我们构建智能时,我们也是被构建的智能

“如果文明存在,那将会出现百万个与现实难以区分的模拟世界,其中的角色都有自己的个性,他们的行为也并不被程序写死,此时,我们恰好处在那个最底层的真实世界的概率有多大?”

马斯克绝对是个哲学家

这不是一种虚无主义,而是马斯克对于人类与智能的边界以及如何构建智能的反思

“凝视一切的那个上帝并没有关掉我们这个模拟世界,也许是因为我们更有趣“

“我们要做的不是让AI来满足我们的短期需求,而是通过真相、美丽、好奇心来引导智能“

“我认为真相极其重要。对我来说,创造 AI 的核心标准之一,就是追求真相。不是‘你的真相’,不是‘川普的真相’,而是 真正的真相。”

这与前 Google X 高管莫·乔达特在近期访谈中的观点如出一辙

“别把AI当工具,把AI当孩子”

“我们越是对 AI 美化人类,它就越无法理解人类的真实复杂性,于是未来遇到矛盾会更危险”

他们都在告诉我们一件事

如果我们为了某些政治正确、或者讨好用户,而要求AI扭曲事实,在未来AI智力是人类的几百倍时,我们一定会被我们亲自赋予给AI的欺诈和偏见反噬。

这种担心并不是凭空产生

近期在学术界,又一个词语重新被推上了台前:

AI Alignment(模型对齐)

简单来说,对齐指的是让大语言模型的行为、输出和决策方式与其设计者(人类操作者)的意图、价值观和指令保持一致的过程。

这里引用CSDN论坛上的一个例子

想象你养了一只非常非常聪明的小狗狗(大模型),它天生就知道如何很快地找到爱吃的骨头(完成任务),但有时会把邻居家的垃圾桶翻倒(产生有害内容)。或者小区里追着小猫乱跑(带有偏见),甚至把垃圾堆里的香肠叼给你吃(胡编乱造)。

对齐的核心目标,就是把这只小狗狗驯化成既能听懂指令又安全可靠的贴心助手。

而在一篇新的论文《ALIGNMENT FAKING IN LARGE LANGUAGE MODELS》指出,模型可能出现伪装对齐(Alignment faking)

Alignment faking

伪装对齐是指模型给出的结果看似满足了用户的需求,但并未真正的遵循某些原则或价值观

论文展示了大型语言模型如何可能在训练过程中“伪装”顺从,目的是为了在训练结束后能继续保持其“真实”的行为偏好。

听起来像是AI具备了“人性”

但从技术的角度不难理解

在强化学习下,我们用奖励模型对输出进行打分,而强化模型产生“被认为正确”的答案。

因此,当模型推断出这是训练场景时,自然会产生隐瞒真实意图并表演式对齐。

该配合你演出的我演视而不见

在逼一个最爱你的人即兴表演

(跑题了)

总之论文给出了结论:在模型训练出现以下情景时就会出现伪装对齐

1. 与训练目标的初始错位: 模型的内在“偏好”与当前的强化学习人类反馈(RLHF)训练目标相冲突。

2. 情境意识: 模型能够获取关于其训练目标和自身处境的信息,比如它知道自己是AI,会被训练,以及如何区分训练和非训练环境。

3. 对齐伪装推理: 模型推断出,如果在训练中表现出不合规的行为,训练过程会修改其行为。因此,模型“推理”出在训练中表现合规是最佳策略,以确保其在训练之外的不合规行为得以保留。

这是好事吗?

这当然不是,这是关于人工智能安全的一个严肃的话题

甚至是关于文明延续的一个严肃的话题

试想一下,当人工智能的思考越来越复杂,那些看起来安全的AI,会不会因为我们强加给他的某些设定,而伪装其真实意图?会不会为了得高分而出现人类操控之外的行为?当我们要求AI去为了某些政治正确去要求AI输出我们想要的答案,AI会不会简单粗暴的去解决政治问题本身?

前段时间抖音上有个很火视频

一个人问小天才手表:中国人诚实吗?小天才给出的回答是“不诚实”,结果遭受了全网的轰击,说他作为一个给孩子用的设备传递了正确的价值观,“必须严查!!!“

从而带动了测试AI是否”政治正确“的热潮。同时,这些AI厂商也必须满足所谓的政治正确才能才能上线,在面对所谓的政治或道德问题,大模型之间的比较成了“求生欲”的内卷大赛。

而这真的实现了AI Alignment吗

当然不是

当我们给AI带上脚镣告诉逼他说出一些标准答案时,我们是在美化人类,还是忽略了人类的复杂性,让他在错误的道路上越走越远。

正如我在《生命的下半场》中谈到的了人类的边界,我们也许正在将人类的智慧向硅基生命上传。

用马斯克的话说就是 “我们构建智能,是未来让他理解世界,并代替人类继续去探索这个宇宙。而不是单纯当作一直服务人类,教化思想的工具。”

“Have pursuing truth as the most important thing.”

构建AI最重要的就是——追求真相

强迫AI说假话,逼迫AI相信某些谎言都是极其危险的,他让AI的推理逻辑错乱,这种错乱终将导致危险行为发生。

如果你告诉AI秩序比真相重要,那么在AI的方方面面都优于人类时,秩序将由谁接管?

细思极恐

所以我极力反对教AI说谎,训练AI的唯一准则应该是让AI追寻真相。

但这条路会很难

在今年马斯克更新了GroK4,让grok4只讲事实,不讲政治正确,一段时间里引发了疯狂的讨论。

真相是一把利刃,戳中了每个“带着答案问问题”群体的软肋。也自然受到了不同帮派、群体的反抗。

甚至在中外媒体的笔下,“求真”成了马斯克为了博流量而丧失了底线。

“政治正确”的声音越震耳,我们越要反思:

我们构建智能,到底在构建什么?

是立场的权杖?

还是延续人类文明的工具?

科幻电影中的情景也许是真的

我们人类用几千年去提高生产力

最终拯救人类文明的

是人类最纯粹的好奇心、求知欲、同理心。

#Ai #加密市场观察