从按下快门前就对照片进行即时锐化,到通话过程中实时消除背景噪音,再到离线状态下与人工智能 (AI) 助手互动,端侧 AI 正在重塑移动体验。而 Arm 计算平台正是实现这些无缝交互体验的强劲驱动力。
随着 AI 工作负载变得日益复杂且广泛渗透至各个领域,移动开发者面临的需求也与日俱增:他们需要在内存、电力和热预算等严格且多样化的限制下,实现实时且高效的性能表现,同时确保不会给应用及其工作负载增加额外的复杂性。
为了应对这些挑战,Arm 推出了可伸缩矩阵扩展2 (SME2) 技术,以直接在移动 CPU 上加速高强度的矩阵计算工作负载——这些工作负载对计算机视觉和生成式 AI 应用至关重要。SME2 是Armv9 架构中的一组高级 CPU 指令,它基于 SME 升级、能够在 AI 异构计算框架下,高效支持图像处理、自然语言处理、语音生成等实时移动端推理任务。
开发者如何获取 SME2 的优势
移动开发者无需改动现有代码、模型或应用程序,即可直接获取 SME2 带来的性能提升。这得益于 Arm 的软件加速层——Arm KleidiAI,它能够无缝集成到主流运行时库和 AI 框架中,为开发者提供开箱即用的性能体验。
得益于 KleidiAI 深入且广泛的集成,SME2 已在 Google 专为安卓系统优化的神经网络推理库 XNNPACK 中实现支持。此外,SME2 也被集成至多个框架中,包括阿里巴巴 MNN、Google LiteRT 和 MediaPipe、微软 ONNX Runtime,以及 llama.cpp。这些集成意味着 SME2 已深度嵌入到软件栈中。当设备支持并启用 SME2 时,XNNPACK 会自动通过 KleidiAI 将矩阵计算密集型任务路由至 SME2,从而让开发者在无需改动任何应用逻辑或基础架构的情况下,直接实现性能提升。
与此同时,KleidiAI 不仅着眼于当下的性能加速,更是为满足未来需求而设计。随着 Arm 不断推出新特性与架构升级,KleidiAI 将持续为所支持的 AI 框架和运行时库带来自动的性能提升,而无需开发者投入额外精力。
大规模 AI 性能与能效优化
搭载 SME2 增强硬件的安卓新机即将上市,开发者可率先通过硬件加速解锁 AI 性能跃升。与此同时,SME2 已支持最新的 iOS 设备(完整支持机型列表详见此处),只要应用中使用了集成 SME2 的 AI 框架,便可自动享受这些性能提升。
在搭载 SME2 增强硬件的设备上运行 Google Gemma 3 模型时, 其聊天交互中的 AI 响应速度比未启用 SME2 的同款设备快六倍。此外,仅用单个 CPU 核心,Gemma 3 便可在不到一秒的时间内启动多达 800 字的文本摘要任务。目前,一家领先的独立软件供应商 (ISV) 已承诺将其应用中的大部分词元 (token) 生成工作负载从云端迁移到移动端,这在一定程度上得益于端侧 AI 能力的持续突破。
Google 安卓杰出软件工程师 Iliyan Malchev 表示:“借助 SME2 增强的硬件,更先进的 AI 模型(如 Gemma 3)能够直接在各类设备上运行。随着 SME2 的持续扩展,移动开发者能够在不同生态系统中无缝部署下一代 AI 功能,从而为终端用户带来低延迟、广泛可用的智能手机体验。”
除了性能的提升,SME2 还为 Arm 生态系统(如 iOS 与安卓)提供了可移植的解决方案。目前,已有 900 万款应用在 Arm 计算平台上运行,超过 2,200 万名软件开发者基于 Arm 平台构建他们的应用和工作负载。
助力开发者构建 AI 的未来
对安卓开发者而言,他们只要将应用构建在集成了 KleidiAI 的 AI 框架和运行时库之上,就能自动获得 SME2 带来的性能提升,并可在各类设备上无缝部署下一代 AI 功能。
开发者若提前布局,即可确保其应用在 SME2 增强硬件推向市场时实现优化,无需改动任何一行代码,便可为用户带来更快的性能、更低的延迟以及更高的能效。
此外,Arm 还发布了开发者启动平台,帮助移动开发者充分利用 SME2 的技术优势,通过丰富案例展示如何针对 KleidiAI 增强框架进行开发,从而默认激活硬件层面的最新加速能力。
有关如何规划 SME2 的更多信息,请参阅 Arm 社区博客。