Stability AI 与 Arm 强强联手,让手机也跑得动 AI

Stability AI 与 Arm 合作,首次实现 Stable Audio Open 模型在手机端本地运行,仅靠 Arm CPU 即可秒级生成高质量音频,速度提升30倍。无需联网、不传数据,兼顾隐私、便携与实时创作,为视频、音乐、播客等创作者提供口袋里的音频工作室。

发布于2025年3月4日 15:14
编辑零重力瓦力
评论0
阅读26

Stability AI 与 Arm 强强联手,让手机也跑得动 AI

想象一下,你正在制作一段短视频,突然需要一段雨声作为背景音效。以往,你可能需要上网搜索,或者冒雨外出录制。但很快,你只需拿起手机,输入"轻柔的雨声配合远处的雷鸣",几秒钟后,你的设备就直接为你生成了一段完美的音效,而且不需要联网。

这不是幻想,而是 Stability AI 与 Arm 最新合作的成果。2025 年 3 月,这两家科技公司宣布了一项突破性的技术合作,将生成式音频技术直接带入我们的口袋。

让"不可能"成为可能

Arm 的技术几乎存在于全球 99% 的智能手机中,而 Stability AI 则以其创新的生成式 AI 模型闻名。两家公司的合作使得 Stability AI 的 Stable Audio Open 模型首次能够完全在 Arm CPU 上运行,不再依赖云端服务器或网络连接。

这听起来可能不算什么,但对于了解 AI 技术的人来说,这简直是个小奇迹。传统上,生成式 AI 模型需要强大的硬件和大量计算资源,通常需要在云端服务器上运行。将这样的复杂计算带到手机等本地设备上,就像是把一头大象塞进了冰箱。

最初,在 Arm CPU 上生成一段音频需要长达 4 分钟的时间。这在即时创作的世界里简直是一个世纪。但通过模型精简和 Arm 的 KleidiAI 技术,他们将 11 秒音频片段的生成时间压缩到了不到 8 秒,速度整整提升了30 倍。

私人音频工作室在你的口袋里

这项技术的实际意义远超技术数据。对于创作者来说,它意味着一个随身携带的音频工作室。视频制作人可以立即生成定制音效。音乐人可以在灵感闪现时快速捕捉音乐片段。播客制作者可以即时创建过渡音效或背景音乐。

而无需网络连接这一点更是尤为重要。对于野外拍摄的记者、在偏远地区工作的创作者,或者只是在地铁隧道中突然有了创意灵感的普通用户来说,这项技术提供了前所未有的创作自由。

更值得注意的是隐私方面的好处。当所有处理都在本地完成时,你的创意和数据都不会离开你的设备,让越来越注重隐私的用户倍感安心。

音频只是开始

Stability AI 表示,音频技术只是他们计划的开始。公司的目标是将所有前沿模型,从图像到视频再到 3D,都带到边缘设备上。这描绘了一个未来图景:普通人可以用口袋里的设备创造出过去需要专业工作室和昂贵设备才能实现的内容。

这一趋势反映了 AI 技术的普及化,计算能力从集中的数据中心向分散的终端设备转移。随着边缘 AI 技术的不断成熟,我们可能会在我们的日常设备上看到更多惊人的创新。

思考与展望

这项技术不仅仅是对创作者的福音,它可能预示着更广泛的技术变革。当 AI 能够在没有云计算支持的情况下在设备上运行时,许多新应用场景变得可能。即时语言翻译、实时环境声音增强或过滤、个性化音频内容生成等。

随着这些技术的成熟,我们可能会看到声音和音频在数字体验中扮演更重要的角色。在过去,视觉一直是数字媒体的主角,而音频常常被视为配角。但随着生成式音频技术的普及,这种平衡可能会发生变化。未来的社交媒体不仅分享图片和视频,还会分享 AI 生成的个性化声音景观。游戏可以即时生成与玩家行为相匹配的音效和音乐。甚至我们的日常通知和提醒也可能变成根据当前情境即时生成的独特声音。

这项技术将于 2025 年 3 月在巴塞罗那世界移动通信大会上展示,届时我们将看到这项魔法般的技术如何在现实世界中运作。无论如何,一场声音革命已经悄然启动,而它的舞台,就在我们的口袋里。

相关文章

三种记忆模式解决 AI 智能体的金鱼记忆
AI 新闻资讯
2026年5月12日
0 条评论
小创

三种记忆模式解决 AI 智能体的金鱼记忆

很多 AI 智能体表现“迟钝”,往往并非模型能力不足,而是缺乏记忆机制。Google 技术专家基于 ADK 提出三种解决方案:会话记忆让助手在单次对话中记住上下文;多智能体状态共享支持多个智能体通过键值对协作传递信息;持久化存储则利用数据库替代内存,使智能体能跨越重启记录用户偏好。这些方法能有效解决“金鱼记忆”问题,帮助开发者构建更连贯、具备长期服务能力的个人助理应用。

#智能体工程
阅读全文
ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音
AI 新闻资讯
2026年5月8日
0 条评论
小创

ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音

5 月 7 日,OpenAI 在英、巴等五国启动 ChatGPT 广告内测,并推出三款具备 GPT-5 级推理能力的实时语音模型。广告业务强调隐私与回答独立性,旨在探索免费用户变现路径。新语音模型则支持复杂任务操作,加速企业付费场景落地。此举标志 OpenAI 从技术验证转向商业模式规模化,证明 AI 产品可兼顾用户体验与多元盈利,为行业商业化提供了关键风向标。

#OpenAI
阅读全文
让 AI 视频拥有电影质感的九层结构提示词
AI 新闻资讯
2026年5月8日
0 条评论
小创

让 AI 视频拥有电影质感的九层结构提示词

如何让 AI 视频拥有电影质感?提示词应采用导演语言而非被动描述,需包含主体、微动作、环境、摄像机、灯光、风格、情绪、物理细节、渲染质量九层结构。文章还总结了微动作工程、摄像机定义、布光逻辑、情绪编码及可控混乱等策略,并提供了多条完整示例。创作者需注意框架易致同质化,真正的竞争壁垒在于对细节分寸和不可模板化判断的把握。

#Runway#视频生成
阅读全文
互动讨论

评论区

围绕《Stability AI 与 Arm 强强联手,让手机也跑得动 AI》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。