想象一下,你正在制作一段短视频,突然需要一段雨声作为背景音效。以往,你可能需要上网搜索,或者冒雨外出录制。但很快,你只需拿起手机,输入"轻柔的雨声配合远处的雷鸣",几秒钟后,你的设备就直接为你生成了一段完美的音效,而且不需要联网。
这不是幻想,而是 Stability AI 与 Arm 最新合作的成果。2025 年 3 月,这两家科技公司宣布了一项突破性的技术合作,将生成式音频技术直接带入我们的口袋。

让"不可能"成为可能
Arm 的技术几乎存在于全球 99% 的智能手机中,而 Stability AI 则以其创新的生成式 AI 模型闻名。两家公司的合作使得 Stability AI 的 Stable Audio Open 模型首次能够完全在 Arm CPU 上运行,不再依赖云端服务器或网络连接。
这听起来可能不算什么,但对于了解 AI 技术的人来说,这简直是个小奇迹。传统上,生成式 AI 模型需要强大的硬件和大量计算资源,通常需要在云端服务器上运行。将这样的复杂计算带到手机等本地设备上,就像是把一头大象塞进了冰箱。
最初,在 Arm CPU 上生成一段音频需要长达 4 分钟的时间。这在即时创作的世界里简直是一个世纪。但通过模型精简和 Arm 的 KleidiAI 技术,他们将 11 秒音频片段的生成时间压缩到了不到 8 秒,速度整整提升了30 倍。
私人音频工作室在你的口袋里
这项技术的实际意义远超技术数据。对于创作者来说,它意味着一个随身携带的音频工作室。视频制作人可以立即生成定制音效。音乐人可以在灵感闪现时快速捕捉音乐片段。播客制作者可以即时创建过渡音效或背景音乐。
而无需网络连接这一点更是尤为重要。对于野外拍摄的记者、在偏远地区工作的创作者,或者只是在地铁隧道中突然有了创意灵感的普通用户来说,这项技术提供了前所未有的创作自由。
更值得注意的是隐私方面的好处。当所有处理都在本地完成时,你的创意和数据都不会离开你的设备,让越来越注重隐私的用户倍感安心。
音频只是开始
Stability AI 表示,音频技术只是他们计划的开始。公司的目标是将所有前沿模型,从图像到视频再到 3D,都带到边缘设备上。这描绘了一个未来图景:普通人可以用口袋里的设备创造出过去需要专业工作室和昂贵设备才能实现的内容。
这一趋势反映了 AI 技术的普及化,计算能力从集中的数据中心向分散的终端设备转移。随着边缘 AI 技术的不断成熟,我们可能会在我们的日常设备上看到更多惊人的创新。
思考与展望
这项技术不仅仅是对创作者的福音,它可能预示着更广泛的技术变革。当 AI 能够在没有云计算支持的情况下在设备上运行时,许多新应用场景变得可能。即时语言翻译、实时环境声音增强或过滤、个性化音频内容生成等。
随着这些技术的成熟,我们可能会看到声音和音频在数字体验中扮演更重要的角色。在过去,视觉一直是数字媒体的主角,而音频常常被视为配角。但随着生成式音频技术的普及,这种平衡可能会发生变化。未来的社交媒体不仅分享图片和视频,还会分享 AI 生成的个性化声音景观。游戏可以即时生成与玩家行为相匹配的音效和音乐。甚至我们的日常通知和提醒也可能变成根据当前情境即时生成的独特声音。
这项技术将于 2025 年 3 月在巴塞罗那世界移动通信大会上展示,届时我们将看到这项魔法般的技术如何在现实世界中运作。无论如何,一场声音革命已经悄然启动,而它的舞台,就在我们的口袋里。
评论(0)