为了测量超低功耗 AI，MLPerf 获得了 TinyML 基准

世界即将被人工智能软件所淹没，这些软件可能存在于贴在灯柱上的贴纸中。

所谓的 TinyML 是一项广泛的运动，旨在编写可以在极低功耗设备上运行的人工智能机器学习形式，现在正在获得自己的性能和功耗基准测试套件。

MLPerf 测试是 MLCommons 的创建，MLCommons 是一个行业联盟，已经针对机器学习的两个部分（即所谓的训练）发布了年度计算机基准评估，其中通过在多个实验中改进其设置来构建神经网络 ; 和所谓的推理，完成的神经网络在接收到新数据时做出预测。

然而，这些基准测试主要针对从笔记本电脑到超级计算机的传统计算设备。新考试名为 MLPerf Tiny Inference，它侧重于智能手机上运行的事物的新前沿，甚至可以像邮票一样薄，根本没有电池。

“这完成了微瓦到兆瓦的基准范围，”负责监督 MLPerf 的行业联盟 MLCommons 的执行董事大卫坎特在新闻发布会上说。

这些测试以毫秒为单位测量延迟，以微儒为单位测量功耗，以完成四个具有代表性的机器学习任务，两种情况下越低越好。这是 ML Commons 第二次引入能量测量。 4 月，该小组在现有的 MLPerf 推理测试中引入了一种以瓦特为单位的交流电源测量方法。

TinyML 代表许多使用移动设备的人相当熟悉的任务，例如激活电话的唤醒词，例如“嘿，谷歌”或“嘿，Siri”。（Warden 笑着向观众吐露，他和同事们不得不在办公室里把“嘿，谷歌”称为“嘿，G”，以免彼此的电话不断响起。）

在这种情况下，这四项任务包括关键词发现，还有其他三项：所谓的视觉唤醒词，视野中的物体触发某些活动（想想视频门铃）；在广泛使用的 CIFAR-10 数据集上进行图像分类；异常检测，一种可用于工厂车间的视觉检查系统。

该基准测试是通过参考实现构建的，其中这四个任务在小型嵌入式计算机板上运行，ST Microelectronics 的 Nucleo-L4R5ZI 运行 ARM Cortex-M4 嵌入式处理器。

ML Commons 认为 Nucleo 的使用范围足够广泛，可以代表非常低功耗的设备。 Nucleo 运行谷歌的 TinyML 软件系统，称为 TensorFlow Lite，在这种情况下是专为微控制器设计的版本。

四个小组向基准提交了他们的结果： LatentAI，一家位于加利福尼亚州门洛帕克的研究机构 SRI International 的衍生公司，为 AI 开发开发者 SDK；鹏程实验室，中国深圳的一个研究实验室；和 hls4ml，这是费米实验室、哥伦比亚大学、加州大学圣地亚哥分校和欧洲核子研究中心的研究人员的集合。

Syntiant 在 ARM Cortex-M0 处理器上运行基准测试，而 LatentAI 使用带有 Broardcom 芯片的 Raspberry Pi 4 系统，hls4ml 在 Pynq-Z2 开发板上使用 Xilinx 处理器。

从硬件的角度来看，最有趣的提交可能是鹏城实验室的定制处理器，它由中国中芯国际设计并制造。该部分运行开放的 RISC-V 指令集，这是加州大学伯克利分校的一个项目，作为 ARM 芯片指令的替代方案，它获得了越来越多的支持。

描述该基准的正式论文可在 OpenReview.net 上下载，该论文由该组织的两位学术顾问、哈佛大学的 Colby Banbury 和 Vijay Janapa Reddi 以及多位撰稿人共同撰写。那篇论文已经提交给今年 AI 领域最大的学术会议 NeurIPS。

该基准是在 18 个月的时间里通过 ML Commons 工作成员的集体输入创建的，这些成员包括 CERN、哥伦比亚大学和加州大学圣地亚哥分校、谷歌、芯片制造商英飞凌、高通、Silicon Labs、STMicro 和 Renesas 的代表，AI 初创公司 SambaNova 系统和芯片设计软件制造商 Synopsys 等。

哈佛大学的雷迪说，设计是这些顾问投票的结果，也是从建议中进行选择的过程。

“这是由投票驱动的，但我们确实想了解消费者或客户的反馈是什么，”Reddi 说。

坎特说：“有一个群体共识的要素，也有一个可行性的要素，”意思是处理在实践中可以用于测试的数据集的局限性。 “如果你不是在真实的数据集上进行评估，你就不会得到非常有意义的结果，”他说。他补充说，CIFAR-10 等数据集可确保结果“具有可比性和公认性”。

“这是一个门控因素，”坎特在谈到数据集问题时说。 “我们希望能够在很多应用程序上衡量性能，但最终，你会看到有哪些可用资源，尤其是考虑到这是一项初步工作。”

对 TinyML 进行基准测试的最大挑战之一是软件堆栈，从硬件指令集到机器学习框架（例如 Google 的 TensorFlow Lite）的所有编码层，构成了比通常在使用 TensorFlow、PyTorch 和 Nvidia 的 CUDA 软件引擎为 PC 和超级计算机编写的程序。

这些测试允许提交的公司使用他们自己版本的神经网络算法，或使用标准模型，与其他人一样，分别称为“开放”或“封闭”基准测试结果。

另一个复杂问题是定义精确的功率范围。 “测量基于电池的系统的功率非常具有挑战性，”Kanter 指出。测试套件中使用的嵌入式电路板系统在受控测试设置中运行，在该设置中，它们用于任务的绝对运行时功率被功率监视器“拦截”，实际上，功率监视器提供功率。

“我们只是切断了整个电池子系统，”嵌入式微处理器基准测试联盟主席 Peter Torelli 说，该组织几十年来一直在测量嵌入式系统的性能，致力于基准测试的能量部分。

在现实世界中，任何实际在手机或工厂车间设备中运行的设备都会遇到各种各样的情况。谷歌的 TinyML 开发主管 Pete Warden 认为，TinyML 的努力应该集中在电池供电的设备上，没有墙上插座连接。

Warden 建议，甚至更简单的 TinyML 设备也可以使用能量收集，因此它们甚至没有电池，而是通过太阳或附近的发热生物体或结构提供能量。

尽管原则上 ML Commons 与 Warden 的观点一致，即许多 TinyML 设备将只有电池供电或能量收集，但基准测试包括可能使用壁式电源的 Raspberri Pi 等设备。 Raspberri Pi 的功率为 3.5 瓦，比最小的嵌入式系统的微瓦大很多。

Kanter 说，鉴于基准是多么新，只有哈佛大学的 Reddi 和 Banbury 的参考系统实际上提供了第一组结果中的功率测量；其他四个提交者没有提供功率测量值。