训练AI就三件事
真相、真相、还是他妈的真相
马斯克在近期的一场采访中用两个小时探讨了AI、人类文明,以及生命的意义。
当我们构建智能时,我们也是被构建的智能
“如果文明存在,那将会出现百万个与现实难以区分的模拟世界,其中的角色都有自己的个性,他们的行为也并不被程序写死,此时,我们恰好处在那个最底层的真实世界的概率有多大?”
马斯克绝对是个哲学家
这不是一种虚无主义,而是马斯克对于人类与智能的边界以及如何构建智能的反思
“凝视一切的那个上帝并没有关掉我们这个模拟世界,也许是因为我们更有趣“
“我们要做的不是让AI来满足我们的短期需求,而是通过真相、美丽、好奇心来引导智能“
“我认为真相极其重要。对我来说,创造 AI 的核心标准之一,就是追求真相。不是‘你的真相’,不是‘川普的真相’,而是 真正的真相。”
这与前 Google X 高管莫·乔达特在近期访谈中的观点如出一辙
“别把AI当工具,把AI当孩子”
“我们越是对 AI 美化人类,它就越无法理解人类的真实复杂性,于是未来遇到矛盾会更危险”
他们都在告诉我们一件事
如果我们为了某些政治正确、或者讨好用户,而要求AI扭曲事实,在未来AI智力是人类的几百倍时,我们一定会被我们亲自赋予给AI的欺诈和偏见反噬。
这种担心并不是凭空产生
近期在学术界,又一个词语重新被推上了台前:
AI Alignment(模型对齐)
简单来说,对齐指的是让大语言模型的行为、输出和决策方式与其设计者(人类操作者)的意图、价值观和指令保持一致的过程。
这里引用CSDN论坛上的一个例子
想象你养了一只非常非常聪明的小狗狗(大模型),它天生就知道如何很快地找到爱吃的骨头(完成任务),但有时会把邻居家的垃圾桶翻倒(产生有害内容)。或者小区里追着小猫乱跑(带有偏见),甚至把垃圾堆里的香肠叼给你吃(胡编乱造)。
对齐的核心目标,就是把这只小狗狗驯化成既能听懂指令又安全可靠的贴心助手。
而在一篇新的论文《ALIGNMENT FAKING IN LARGE LANGUAGE MODELS》指出,模型可能出现伪装对齐(Alignment faking)
Alignment faking
伪装对齐是指模型给出的结果看似满足了用户的需求,但并未真正的遵循某些原则或价值观
论文展示了大型语言模型如何可能在训练过程中“伪装”顺从,目的是为了在训练结束后能继续保持其“真实”的行为偏好。
听起来像是AI具备了“人性”
但从技术的角度不难理解
在强化学习下,我们用奖励模型对输出进行打分,而强化模型产生“被认为正确”的答案。
因此,当模型推断出这是训练场景时,自然会产生隐瞒真实意图并表演式对齐。
该配合你演出的我演视而不见
在逼一个最爱你的人即兴表演
(跑题了)
总之论文给出了结论:在模型训练出现以下情景时就会出现伪装对齐
1. 与训练目标的初始错位: 模型的内在“偏好”与当前的强化学习人类反馈(RLHF)训练目标相冲突。
2. 情境意识: 模型能够获取关于其训练目标和自身处境的信息,比如它知道自己是AI,会被训练,以及如何区分训练和非训练环境。
3. 对齐伪装推理: 模型推断出,如果在训练中表现出不合规的行为,训练过程会修改其行为。因此,模型“推理”出在训练中表现合规是最佳策略,以确保其在训练之外的不合规行为得以保留。
这是好事吗?
这当然不是,这是关于人工智能安全的一个严肃的话题
甚至是关于文明延续的一个严肃的话题
试想一下,当人工智能的思考越来越复杂,那些看起来安全的AI,会不会因为我们强加给他的某些设定,而伪装其真实意图?会不会为了得高分而出现人类操控之外的行为?当我们要求AI去为了某些政治正确去要求AI输出我们想要的答案,AI会不会简单粗暴的去解决政治问题本身?
前段时间抖音上有个很火视频
一个人问小天才手表:中国人诚实吗?小天才给出的回答是“不诚实”,结果遭受了全网的轰击,说他作为一个给孩子用的设备传递了正确的价值观,“必须严查!!!“
从而带动了测试AI是否”政治正确“的热潮。同时,这些AI厂商也必须满足所谓的政治正确才能才能上线,在面对所谓的政治或道德问题,大模型之间的比较成了“求生欲”的内卷大赛。
而这真的实现了AI Alignment吗
当然不是
当我们给AI带上脚镣告诉逼他说出一些标准答案时,我们是在美化人类,还是忽略了人类的复杂性,让他在错误的道路上越走越远。
正如我在《生命的下半场》中谈到的了人类的边界,我们也许正在将人类的智慧向硅基生命上传。
用马斯克的话说就是 “我们构建智能,是未来让他理解世界,并代替人类继续去探索这个宇宙。而不是单纯当作一直服务人类,教化思想的工具。”
“Have pursuing truth as the most important thing.”
构建AI最重要的就是——追求真相
强迫AI说假话,逼迫AI相信某些谎言都是极其危险的,他让AI的推理逻辑错乱,这种错乱终将导致危险行为发生。
如果你告诉AI秩序比真相重要,那么在AI的方方面面都优于人类时,秩序将由谁接管?
细思极恐
所以我极力反对教AI说谎,训练AI的唯一准则应该是让AI追寻真相。
但这条路会很难
在今年马斯克更新了GroK4,让grok4只讲事实,不讲政治正确,一段时间里引发了疯狂的讨论。
真相是一把利刃,戳中了每个“带着答案问问题”群体的软肋。也自然受到了不同帮派、群体的反抗。
甚至在中外媒体的笔下,“求真”成了马斯克为了博流量而丧失了底线。
“政治正确”的声音越震耳,我们越要反思:
我们构建智能,到底在构建什么?
是立场的权杖?
还是延续人类文明的工具?
科幻电影中的情景也许是真的
我们人类用几千年去提高生产力
最终拯救人类文明的
是人类最纯粹的好奇心、求知欲、同理心。
