由 GPU 和 Kubernetes 提供支持的虚拟机将运行 AI 工作负载

2026-02-07 0 862

由 GPU 和 Kubernetes 提供支持的虚拟机将运行 AI 工作负载

Run:AI 获取您的 AI 并在未来超快的软件堆栈上运行它。 这是我们 2019 年关于 Run:AI 的文章的标题,当时它刚刚退出隐身状态。 虽然我们喜欢认为它仍然准确,但 Run:AI 的非常规方法此后得到了快速发展。

自称为“AI 编排平台”的 Run:AI 今天宣布,它已经在由 Tiger Global Management 和 Insight Partners 领投的 C 轮融资中筹集了 7500 万美元,后者领投了之前的 B 轮融资。 该轮包括其他现有投资者 TLV Partners 和 S Capital VC 的参与,使迄今为止筹集的资金总额达到 1.18 亿美元。

我们采访了 Run:AI 首席执行官兼联合创始人 Omri Geller,讨论了 AI 芯片和基础设施、Run:AI 的进展以及它们之间的相互作用。

AI 芯片很酷,但 Nvidia GPU 统治
Run:AI 提供了一个名为 Atlas 的软件层来加速机器学习工作负载在本地和云端的执行。 本质上,Atlas 充当 AI 工作负载的虚拟机:它抽象并简化了对底层硬件的访问。

这听起来像是一个非正统的解决方案,考虑到人工智能工作负载的传统智慧要求尽可能接近金属,以尽可能多地发挥人工智能芯片的性能。 然而,一些好处来自于像 Atlas 这样的东西调解对底层硬件的访问。

在某种程度上,这是 IT 中一个由来已久的难题,再次出现。 在软件开发的早期,面临的困境是是使用汇编或 C 等低级语言还是使用 Java 等高级语言进行编程。 低级访问提供更好的性能,但另一方面是复杂性。

用于 AI 工作负载的硬件的虚拟化层在抽象和易用性方面提供了相同的好处,此外还有来自简化对硬件的访问的其他好处。 例如,提供资源利用率分析的能力或优化工作负载以部署在最合适的硬件上的能力。

然而,我们不得不承认,尽管自 2019 年以来 Run:AI 取得了很多进步,但它并没有像我们想象的那样进步。 或者就此而言,正如盖勒自己所想的那样。 早在 2019 年,我们就将 Run:AI 视为一种对许多不同 AI 芯片进行抽象的方法。

最初,Run:AI 支持 Nvidia GPU,目标是在后续版本中增加对谷歌 TPU 和其他 AI 芯片的支持。 从那时起,时间就充裕了。 然而,Run:AI Atlas 仍然只支持 Nvidia GPU。 随着该平台以其他重要方式发展,这显然是一个战略选择。

按照盖勒的说法,原因很简单:市场牵引力。 Nvidia GPU 大体上就是 Run:AI 客户仍在用于其 AI 工作负载的。 Run:AI 本身受到了广泛关注,其客户包括 Wayve 和伦敦医学影像与基于价值的医疗保健 AI 中心,涉及金融、汽车、医疗保健和游戏等垂直领域。

如今,除了 Nvidia GPU 之外,AI 工作负载还有很多选择。 选项范围从内部开发的云供应商解决方案,如谷歌的 TPU 或 AWS 的 Graviton 和 Trainium,到独立供应商,如 Blaize、Cerebras、GraphCore 或 SambaNova、英特尔在 AWS 上基于 Habana 的实例,甚至使用 CPU。

然而,Geller 从该领域获得的经验是,组织不仅仅是在寻找一种具有成本效益的方式来训练和部署模型。 他们也在寻找一种与硬件交互的简单方式,这是 Nvidia 仍然占据主导地位的关键原因。 换句话说,它都在软件堆栈中。 这与许多分析师的看法一致。

然而,我们想知道卓越性能的承诺是否会吸引组织,或者 Nvidia 的竞争对手是否设法以某种方式缩小了软件堆栈演变和采用方面的差距。

Geller 的经验是,虽然定制 AI 芯片可能会吸引具有特定性能导向配置文件的工作负载的组织,但它们的主流采用率仍然很低。 然而,Run:AI 确实看到了对非 Nvidia GPU 的更多需求。 无论是 AMD MI200 还是英特尔 Ponte Vecchio,Geller 都认为组织希望在不久的将来使用更多 GPU。

用于人工智能的 Kubernetes
Nvidia 的统治并不是 Run:AI 的产品开发变成现在这样的唯一原因。 影响 Run:AI 产品的另一个趋势是 Kubernetes 的兴起。 Geller 认为 Kubernetes 是构建 AI 堆栈的最重要部分之一,因为容器在数据科学以及其他领域得到大量使用。

然而,Geller 继续补充说,Kubernetes 并不是为了在 AI 芯片上运行高性能工作负载而构建的——它是为了在经典 CPU 上运行服务而构建的。 因此,为了使用容器高效地运行应用程序,Kubernetes 中缺少很多东西。

Run:AI 花了一些时间来识别它。 然而,一旦他们这样做了,他们就决定将他们的软件构建为 Kubernetes 的插件,以创建 Geller 所说的“人工智能的 Kubernetes”。 为了避免做出特定于供应商的选择,Run:AI 的 Kubernetes 架构保持了广泛的兼容性。 Geller 表示,该公司已与所有 Kubernetes 供应商合作,用户无论使用何种 Kubernetes 平台,都可以使用 Run:AI。

随着时间的推移,Run:AI 已经建立了一个著名的合作伙伴生态系统,包括戴尔、惠普企业、Nvidia、NetApp 和 OpenShift 等。 此外,Atlas平台也在广度和深度上进行了进化。 最值得注意的是,Run:AI 现在支持训练和推理工作负载。 由于推理通常占 AI 在生产中的大部分运营成本,因此这非常重要。

此外,Run:AI Atlas 现在集成了许多机器学习框架、MLOps 工具和公共云产品。 其中包括 Weights & Biases、TensorFlow、PyTorch、PyCharm、Visual Studio 和 JupyterHub,以及 Nvidia Triton Inference Server 和 NGC、Seldon、AirFlow、KubeFlow 和 MLflow。

Geller 说,即使是未预先集成的框架也可以相对容易地集成,只要它们在 Kubernetes 之上的容器中运行即可。 就云平台而言,Run:AI 与所有 3 大云提供商(AWS、谷歌云和微软 Azure)以及内部部署合作。 Geller 指出,混合云是他们在客户部署中看到的。

尽管 Run:AI 的市场现实颠覆了一些最初的规划,使公司追求更多的运营选择,而不是扩大对更多 AI 芯片的支持,但这并不意味着技术方面没有取得进展。

Run:AI 的主要技术成就以部分 GPU 共享、精简 GPU 配置和作业交换的名称命名。 部分 GPU 共享允许在单个 GPU 上运行多个容器,同时保持每个容器隔离,并且没有代码更改或性能损失。

正如 Geller 所说,在 Kubernetes 下的容器生态系统中,VMware 为 CPU 做了什么,Run:AI 为 GPU 做了什么,没有管理程序。 至于自动精简配置和作业交换,它们使平台能够及时识别每个时间点哪些应用程序没有使用分配的资源,并根据需要动态地重新分配这些资源。

值得注意的是,Run:AI 被列入 2021 年第四季度发布的 Forrester Wave AI 基础设施报告。该公司在 AI 基础设施供应商中拥有独特的地位,其中包括云供应商、Nvidia 和 GPU OEM。

盖勒说,他们都是 Run:AI 合作伙伴,因为他们代表了运行应用程序的基础设施。 Geller 将其视为一个堆栈,硬件位于底层,中间层充当数据科学家和机器学习工程师的接口,而 AI 应用程序位于顶层。

Run:AI 的发展势头良好,到 2021 年,其年度经常性收入增长了 9 倍,员工人数增长了 3 倍。该公司计划利用这笔投资进一步发展其全球团队,并将在开发和增强其平台时考虑战略收购。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 开发教程 由 GPU 和 Kubernetes 提供支持的虚拟机将运行 AI 工作负载 https://www.zuozi.net/55985.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务