痴迷于速度的 AI 行业不愿在最新的 MLPerf 基准测试中考虑能源成本

人工智能面临的最大挑战之一是执行人工智能的计算机消耗的大量能源。一段时间以来，由于人工智能程序的规模不断扩大，尤其是深度学习类的程序，以及它们消耗的计算资源呈螺旋式上升，该学科的学者们已经对能源成本上升发出了警告。

正如斯坦福大学上周发布的 AI100 报告这一为期五年的新研究指出的那样，“该领域的许多人开始意识到构建如此大型模型的碳足迹”，指的是深度学习程序。

该研究断言：“环境成本很高。”

尽管可持续性是一个紧迫的问题，但许多运行人工智能程序的芯片和系统的领先供应商更关注在原始速度方面实现性能，而不是关注能源效率。

机器学习计算性能的行业标准基准 MLPerf 周三发布了最新的供应商结果，用于对象识别和自然语言处理等机器学习基准测试的性能。

与上一份报告相比，4 月份报告计算 AI 能源成本的提交数量直线下降。

新的基准报告 MLPerf Inference 1.1 版收到了来自 20 家供应商的提交，总计超过 1,800 份提交。其中，只有 350 份提交报告了功耗测量结果。

相比之下，4 月份有 17 个组织提交了 1,994 份报告，其中包括 864 项功率测量。因此，包括功率测量在内的提交比例从之前的报告到最近的报告下降了一半以上。

“数字不会说谎，这次的功率结果比以前少了很多，”当被问及能源测量的急剧下降时，负责监督 MLPerf 的行业联盟 MLCommons 的执行董事大卫坎特告诉 ZDNet。

基准测试结果于周三在 MLCommons 的新闻稿中披露，其中包含指向多个随附电子表格中列出的供应商提交的详细信息的链接。

功率测量值的下降直接与供应商强调性能的追求直接相关，首先也是最重要的是为了吹牛，同时将能耗放在第二位。

消耗的能量和速度方面的性能通常是权衡取舍的：对一个的任何优化都会损害另一个。芯片的电压通常会被提升以提高时钟频率的性能，但电压的提升通常会导致功耗的平方增加。

“你的最佳性能效率将在 Vmin [最小电压] 下，你的最佳性能将在 Fmax [最大频率] 下，”Kanter 说，他指的是最小和最大功率阈值。

与此同时，向 MLPerf 报告结果的任务就像参加考试一样，Nvidia 和其他供应商正在决定将他们的努力放在哪里。

“推理运行需要一定的时间，最少需要十分钟，”坎特谈到收集提交数据所需的程序化测试时说。添加额外的因素（例如测量功率而不仅仅是速度）会增加开销。 “这确实归结为资源，”他说。

MLPerf Inference 1.1 是该基准测试第二次包含功率测量，这是在 4 月份的报告中引入的。该基准测试在机器学习的两个主要部分（即所谓的训练）上评估计算机性能，其中通过在多个实验中改进其设置来构建神经网络；和所谓的推理，完成的神经网络在接收到新数据时做出预测。

Kanter 说，推理功能比训练端消耗更多的能量，因为推理不断地服务于预测请求，而训练是在程序开发过程中离线发生的不太频繁的活动。

“如果你看看 ML 的使用方式，就会发现主要的功耗是在推理方面，”坎特说。这对于执行推理的电池供电设备尤为重要。今年，MLCommons 为此类设备引入了单独的性能和功耗基准。

在今年提交的 20 家机构中，图形处理单元主导 AI 计算的 Nvidia 在大多数类别中都获得了最高荣誉。在 Nvidia 在最终结果中发布的总共 46 份提交的文件中，只有五份附有功率测量结果。

这意味着 11% 的 Nvidia 已发布提交与功率测量有关，是供应商已发布提交的总体平均水平 22% 的一半。多家供应商使用 Nvidia 技术提交了意见书，其中包括戴尔，其中一些包括功率测量。

性能与功耗的权衡归结为供应商将如何使用他们工程师的有限资源，即使对于像英伟达这样拥有大量工程师的公司来说，这也是一个问题。

Nvidia 的 AI 和云高级产品经理 Dave Salvator 告诉 ZDNet，“你正在让你的工程师 24/7 全天候工作”以获得编译的测试结果以提交给 MLPerf。

“衡量性能是一组挑战，你要处理我们有多少时间来衡量性能和功率，”他说。 “在很多情况下，我们决定将重点更多地放在事物的性能方面而不是功率上。”

Salvator 指出，Nvidia 的结果表明，在大多数情况下，该公司在提供领先性能以及更高的每瓦性能（即计算效率）方面“尽了最大努力”。 “我们正在全面展示领先的性能，以及我们认为涵盖大量用途的效率。”

当被问及 MLPerf 是否可以采取任何措施来减少使权力报告半途而废的权衡时，Salvator 回答说：“这是一个很好的问题；我们一直在寻找方法来提交有趣的报告，不仅是数量，还有质量。”

Salvatore 补充说，Nvidia 有“即将推出的新产品，这些产品在效率方面会非常有趣，你可能会看到我们在这方面提交了强大的意见书。”

移动芯片供应商高通公司在执行推理的边缘设备方面努力挑战英伟达，报告了更大比例的功率测量提交，18 个中有 8 个，即 44%，是英伟达提交比例的四倍。

尽管高通在性能得分最高的数量上远远落后于英伟达，但它在能效方面取得了一些显着的胜利。与 8 芯片 Nvidia A100 系统相比，包含 16 个“Cloud AI 100”加速器芯片的高通系统在久负盛名的 Resnet-50 神经网络识别图像测试中的速度提高了三分之一，尽管能耗降低了 40%。

这一成就让高通吹嘘其芯片拥有“最高效的人工智能推理解决方案”。

高通 MLPerf 项目的首席执行官、产品管理高级总监 John Kehrli 谈到功率测量时说：“我们很高兴这个论坛考虑到了这一点，我们认为这很重要，我们将继续关注这一点。”

当被问及功率测量是否因提交太少而变得过时时，MLPerf 的 Kanter 回答说：“如果我们真的没有收到任何功率提交，那么我们所做的就没有增加价值。” 他建议，这可能意味着需要重新考虑如何衡量权力。

同时，坎特说，还有一个“质量胜于数量”的问题。

“归根结底，MLPerf 是为了帮助引导行业保持一致，帮助客户了解该做什么，帮助设计师了解该做什么，”Kanter 说。 “只要我们在履行这一职能，它就很重要。”