Armv9 边缘AI平台发布:赋能十亿参数端侧模型

Arm 发布 Armv9 边缘 AI 平台,搭载 Cortex-A320 CPU 和 Ethos-U85 NPU,可运行超十亿参数端侧 AI 模型,性能显著提升。

原文标题:Arm 发布全新 Armv9 边缘 AI 计算平台,可运行超 10 亿参数端侧 AI 模型

原文作者:AI前线

冷月清谈:

Arm 近期推出了全新的 Armv9 边缘 AI 计算平台,该平台由 Cortex-A320 CPU 和 Ethos-U85 NPU 组成,旨在提升边缘设备的 AI 性能。Cortex-A320 是 Arm 首款基于 Armv9 架构的超高能效 CPU,相比 Cortex-A35,机器学习能力提升了 10 倍,标量计算性能提高了 30%,能效比 Cortex-A520 提升了 50%。Ethos-U85 NPU 是 Arm Ethos-U 产品线的第三代产品,性能和能效分别提升了四倍和 20%,并且在主流网络上实现了高达 85% 的利用率。Cortex-A320 和 Ethos-U85 能够协同工作,Cortex-A320 为 Ethos-U85 提供内存和带宽支持,开发者也可以根据需要在 Cortex-A320 上运行 AI 操作。该平台的 ML 计算性能相比之前的 Cortex-M85+Ethos-U85 平台提升了 8 倍。此外,Cortex-A320 还增强了安全性,引入了 Secure EL2、指针验证/分支目标识别(PACBTI)和内存标记扩展(MTE)等安全特性。在 AI 计算方面,Cortex-A320 支持增强的 Neon 和 SVE2 技术、BFloat16 数据类型以及新的矩阵乘法指令。Arm 还将 Kleidi 软件库扩展到了物联网,KleidiAI 可帮助开发者在 Arm CPU 上获得最佳性能,支持 Llama.cpp、ExecuTorch 和 LiteRT 等主流 AI 框架。

怜星夜思:

1、Cortex-A320 和 Ethos-U85 的协同工作机制是什么?除了文章提到的内容,还有哪些其他的合作方式?
2、Armv9 架构的安全性提升对物联网设备的实际应用有哪些影响?
3、Kleidi 软件库的引入对开发者来说有哪些好处?除了支持现有的 AI 框架,未来 Kleidi 还会支持哪些新的框架或技术?

原文内容

作者 | 冬梅

近日,Arm 正式发布了其全球首款 Armv9 边缘 AI 计算平台。据介绍,该平台以全新的 Arm Cortex-A320 CPU 和边缘 AI 加速器 Arm Ethos-U85 NPU 为核心,可支持运行超 10 亿参数的端侧 AI 模型。

Cortex-A320 与 Ethos-U85 的深度配合

全新发布的 Arm Cortex-A320 是 Arm 首款基于 Armv9 架构的超高能效 CPU,专为物联网应用优化,也是该全新计算平台的核心组件。与上一代 Cortex-A35 相比,Cortex-A320 在机器学习(ML)计算能力上提升了 10 倍,标量计算性能提高了 30%。同时其能效比较 Cortex-A520 提升了 50%。此外,Cortex-A320 支持四核共享集群,可根据不同需求灵活扩展,满足各种应用场景的需求。

作为此次边缘 AI 计算平台的另一核心, 对 Transformer 网络具有原生支持的 Ethos-U85 NPU 是 Arm Ethos-U 产品线中的第三代 NPU。与前一代产品相比,该 NPU 的性能提升了四倍,能效提高了 20%,并且可在主流网络上实现高达 85% 的利用率。

Cortex-A320 CPU 和 Ethos-U85 NPU 实现了深度配合:Cortex-A320 可以为 Ethos-U85 提供更高的内存容量与带宽,让大模型在 Ethos-U85 上的执行如虎添翼;任何开发者们不希望在 Ethos-U85 上运行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更灵活有效地在 CPU 上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。

与去年发布的基于 Cortex-M85 搭配 Ethos-U85 的平台相比,全新 Armv9 边缘 AI 计算平台的 ML 计算性能提升了 8 倍,带来了显著的 AI 计算能力突破, 助力大模型与生成式 AI 在物联网领域的落地。

安全性增强与 AI 计算优化

值得一提的是,Cortex-A320 充分利用了 Armv9 增强的安全性和 AI 计算特性, 这些特性此前已经在其他市场得到广泛应用,而 Arm 现在也将其引入物联网领域。

在安全性方面,Cortex-A320 引入了 Secure EL2, 该特性增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器 ; 指针验证 / 分支目标识别(PACBTI)可有效缓解跳转和返回编程中的指针安全隐患 ; 内存标记扩展(MTE)可通过内存标记机制,使黑客更难利用漏洞进行攻击,提高整体系统安全性。

在 AI 计算能力方面,增强的 Neon 和可伸缩向量扩展 (SVE2) 技术,可提供更高效的 ML 计算能力 ; 支持 BFloat16 等新数据类型,提高了 AI 计算的精度和能效 ; 而新增的矩阵乘法指令,优化了 AI 和 ML 计算性能,加速神经网络推理和训练任务。

去年,Arm 推出了 Kleidi 软件库,并将其引入了智能手机和服务器市场,它包含优化 AI 负载在 Arm CPU 上执行的 KleidiAI 和加速机器视觉的 KleidiCV。现在,Arm 将 Kleidi 扩展到了物联网。KleidiAI 是一套专为 AI 框架开发者设计的计算内核,让开发者可以无缝地在 Arm CPU 上获取最佳性能。它支持如 Neon 和 SVE2 等 Armv9 架构的关键特性,大幅提升了 AI 的计算效率。此外,KleidiAI 已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通过 XNNPACK),可加速 Meta Llama 3 和 Phi-3 等主流 AI 大模型,进一步释放 AI 计算性能。

从 AI 发展初期开始,Arm 技术一直推动着边缘智能创新的发展轨迹。此次发布的全新 Armv9 边缘 AI 计算平台可覆盖多个应用场景,实现包括视觉和自然语言在内的多模态的环境感知与理解,进而运行智能体 AI、自主规划、执行复杂任务。展望未来,Arm 全新的边缘 AI 计算平台对物联网生态系统带来的影响值得期待。

 InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

欢迎扫码关注我的微信视频号~


今日荐文




图片
你也「在看」吗?👇

Armv9 的安全特性,比如 Secure EL2、PACBTI 和 MTE,确实能够提高物联网设备的安全性。但是这些特性会带来额外的性能开销吗?在实际应用中,如何平衡安全性和性能?

关于 Cortex-A320 和 Ethos-U85 的协同工作,文章中提到了 CPU 为 NPU 提供内存和带宽,以及在 CPU 上运行 NPU 不适合的 AI 操作。我觉得还可以更深入一些,比如数据如何在 CPU 和 NPU 之间传输?是否存在专门的 DMA 控制器?另外,功耗管理方面,CPU 和 NPU 如何协同工作以降低整体功耗?

从软件层面来看,应该会有相应的 API 或库来管理 CPU 和 NPU 的协同工作。这些 API 或库如何抽象底层的硬件细节,为开发者提供一个简洁高效的编程接口?我觉得这对于开发者来说非常重要。

Kleidi 软件库的引入降低了开发者在 Arm CPU 上进行 AI 开发的门槛。开发者可以直接使用 Kleidi 提供的优化内核,而不需要自己进行底层优化,这可以大大提高开发效率。

Kleidi 支持 Llama.cpp、ExecuTorch 和 LiteRT 等主流 AI 框架,这意味着开发者可以使用自己熟悉的框架进行开发,而无需学习新的工具或技术。这一点非常方便。

未来 Kleidi 可能会支持更多新兴的 AI 框架和技术,比如一些轻量级的 AI 模型或者新的神经网络架构。同时,Kleidi 也可能会针对不同的应用场景进行优化,提供更专业的 AI 计算库。

对于一些对安全性要求极高的物联网应用,比如工业控制系统、医疗设备等,Armv9 的安全特性就显得尤为重要。它可以有效地防止恶意攻击和数据泄露,保障系统的稳定运行。

我觉得它们之间应该还有更细致的交互,比如任务调度。CPU 可以根据任务的类型和复杂度动态地将任务分配给 NPU 或 CPU 自身,这样可以更好地平衡性能和功耗。另外,缓存管理也很重要,CPU 和 NPU 之间的数据缓存如何协调,才能最大程度地减少数据传输的开销?

我觉得安全性提升最大的影响就是可以构建更值得信赖的物联网生态。比如在智能家居领域,安全性一直是用户关注的重点,Armv9 的安全特性可以增强用户对智能家居设备的信任。