管理中有一个众所周知的观点:人们根据如何被衡量来调整他们的行为。同样的观点也适用于人工智能。在今天的人工智能世界中,模型的衡量方式往往决定了它们的构建、改进和使用方式。
随着生成性人工智能的发展,一个挑战悄然变得比预期更困难:跟踪模型。新的名称、版本、格式和发布不断出现。即使是经验丰富的工程师也发现很难知道哪个模型在特定任务中表现最佳。这种混淆使得基准测试比以往任何时候都更重要。
最近,由Harlan Lewis创建的详细性能电子表格在AI社区引起了关注。它比较了许多领先的AI模型,并显示了它们的性能随时间的变化。这类资源非常有价值,因为它们简化了复杂信息,并为人们理解模型质量提供了一个清晰的起点。
但深入思考会提出一个更大的问题。随着AI系统朝着更加自主和基于代理的设计发展,目前的基准测试是否仍然足够?还是它们开始显示出局限性?
在最简单的情况下,基准测试是一个参考点。在AI中,它通常意味着在相同数据集上使用相同规则和指标测试模型。假设很明确:更高的得分意味着更好的模型。这种方法帮助该领域数年来不断向前发展。
基准测试服务于两个主要目的。首先,它帮助开发人员选择适合实际使用的模型。其次,它向研究人员展示了改善的地方。这第二个角色在机器学习中尤其重要。进步往往来自于试图在共享任务上打破以前的得分。
这一理念在数据科学家David Donoho的“共同任务框架”工作中得到了清晰的描述。在这个框架中,研究人员共享公共数据集,定义明确的目标,并使用隐藏的测试数据来公平评分模型。这一结构有助于防止作弊,并确保结果可以客观比较。
随着时间的推移,这种方法被证明是非常有效的。像Kaggle和Papers with Code这样的平台,以及图像识别、语音处理和翻译等任务,都从中受益。原因很简单。这些问题有明确的答案、明确的数据限制和可测量的结果。
然而,并非所有问题都适合这一结构。
一个日益关注的问题是人工通用智能。根据定义,通用智能应该能够在许多情况下工作,而不仅仅是在狭窄的测试中。一些研究人员认为基准测试自然限制了可以声称的内容。在基准测试中表现良好的模型仅证明它在特定测试中表现良好,别无其他。
当思考日常人类任务时,这一点变得更加清晰。许多日常活动涉及判断、上下文和个人解读。为此类任务设计单一的数据集和指标是极其困难的。即使定义了基准,也总会有现实案例超出其范围。
还有一个现代挑战。许多AI模型是在可能已经包含基准数据的大型数据集上训练的。这使得评估变得更加困难,因为测试结果可能无法完全反映真实的学习。
那么,这对AI领域意味着什么?有两种可能性。要么共同任务框架仍然足够,而通用智能的正确基准测试尚未建立。要么框架本身存在局限性,需要一种新的衡量AI进展的方法。
目前,没有人能够给出明确的答案。明确的是,获取高质量数据仍然至关重要。只要基准测试引导开发,进步在很大程度上依赖于谁能访问数据以及数据分享的公平性。
这就是Kite AI集中其努力的地方。该项目旨在通过改善数据访问和协调贡献者与AI代理之间的激励,支持一个开放和健康的AI生态系统。通过这样做,它希望减少障碍,使AI开发更加包容。
Kite AI并不声称已经解决了基准测试的挑战。相反,它通过确保数据的缺乏不会减缓创新而向前迈出了务实的一步。在一个测量塑造行为的世界中,公平的数据访问可能是有意义的AI进步最重要的基础之一。
关于Kite AI
Kite AI是一个去中心化的基础设施,旨在支持未来的AI经济。它的核心理念称为AI证明,旨在公平地奖励提供数据、模型和智能代理的贡献者。
通过解决激励、合作和信任方面的问题,Kite AI旨在创建一个更开放和更平衡的AI生态系统。通过基于区块链的设计和对透明度的关注,该项目致力于使AI开发更加可及、安全和全球包容。
\u003ct-38/\u003e \u003cm-40/\u003e \u003cc-42/\u003e

