Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

发布于2026年5月28日 23:41
编辑零重力瓦力
评论0
阅读33

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟。

5 月 20 日,Stability AI 发布了 Stable Audio 3.0,四个模型变体,三个开源权重,最长可生成 6 分 20 秒的立体声音频,采样率 44.1 kHz。全部训练数据来自授权许可。

单看数据可能没什么感觉。但如果你还记得 2024 年的 Stable Audio Open,最长只能生成 47 秒音频,2025 年的 Open Small 只有 11 秒,就会明白这个跳跃有多大。从 11 秒到 380 秒,不是线性升级,是量变引发了质变。

为什么 6 分钟这个数字重要?因为一首完整歌曲的平均时长在 3 到 5 分钟之间。之前的开源音频模型要么只能做短音效,要么需要分段拼接,节奏连贯性根本无法保证。Stable Audio 3.0 的 Medium 模型一次生成 6 分 20 秒,意味着你终于可以用开源模型从零生成一首完整的歌,不需要拼接,不需要后处理。

四个模型怎么分工?Stable Audio 3.0 Small SFX 和 Small Music 各 4.59 亿参数,最长 2 分钟,推理速度 0.44 秒(H200),前者专注音效,后者专注短音乐片段。Small 是唯一可以在手机和笔记本上离线跑完整音乐合成的模型。Medium 14 亿参数,最长 6 分 20 秒,推理 1.31 秒。Large 27 亿参数,同样 6 分 20 秒,但音乐性和音质最强,不开源,只能通过 Stability AI API 或企业授权使用。

Small 和 Medium 的权重已在 Hugging Face 开放下载,同时发布的还有 LoRA 微调文档,你可以用自己的音频库来微调模型。

架构上的关键创新是 SAME(Semantically-Aligned Music autoEncoder)。音频生成的核心难题一直是长度:44.1 kHz 立体声意味着每秒 88200 个采样点,一首 6 分钟的歌就是 3170 万个采样点,直接塞进 Transformer 不现实。SAME 用了两级压缩:第一级 256 倍分块,第二级用 Transformer 重采样块再压 16 倍,总共 4096 倍下采样。最终把 44.1 kHz 立体声压缩到大约 10.76 Hz 的潜在序列,256 维。这个压缩比在之前的工作中几乎没人做到过。

为什么压缩比如此关键?因为潜在序列越短,Transformer 的注意力计算越高效,显存占用越低,才有可能在消费级硬件上跑长音频生成。之前 Suno 和 Udio 的模型要么闭源,要么依赖云端算力,开发者没法在本地跑。Stable Audio 3.0 Small 让你可以在手机上离线合成一首 2 分钟的完整音乐,这才是真正改变格局的事。

变量长度生成是另一个容易被忽视的突破。之前的潜在扩散模型都是固定最大序列长度,即使你只生成 10 秒音频,推理也得跑完整个最大长度的序列,浪费算力在静音上。Stable Audio 3.0 原生支持变量长度生成,推理成本随输出时长线性缩放。20 秒音频 0.62 秒出结果,380 秒音频 1.31 秒出结果。短内容不用为长内容的最大长度买单。

Inpainting 编辑功能也值得说。你可以选中一首生成曲目的某一段落,只修改那一部分,同时保持前后不变。你也可以同时编辑多个段落,或者从一段音频的结尾开始继续生成(因果延续)。对于音乐制作人来说,这意味着 AI 音频终于进入了可以精细编辑的阶段,不再只是要么全接受要么全重来。

三阶段训练管线也挺讲究。第一阶段用 Flow Matching 预训练,学习把高斯噪声映射到音频潜在表示。用 Sinkhorn 迭代做 minibatch 最优传输配对,让训练轨迹更直、收敛更快。第二阶段蒸馏热身,冻结教师模型生成 15 步 DPM++ 轨迹,学生模型学会一步到位。第三阶段对抗后训练,用判别器替换 MSE 损失,让一步生成结果逼近真实音频的细节质感。

许可证方面也有诚意。Stability AI 社区许可证下,用户拥有生成的音频文件并可以商业使用。年收入超过 100 万美元(约 700 万人民币)的组织需要联系企业授权,获得商业保障和法律赔偿。和 Suno、Udio 面临版权诉讼的现状相比,Stability AI 选择和环球音乐、华纳音乐签约,全部训练数据来自授权来源。2025 年 11 月慕尼黑法院裁定 OpenAI 因 ChatGPT 复制 GEMA 曲目歌词构成版权侵权,这个判决让授权数据的重要性从法律层面得到了验证。

从 Stable Diffusion 到 Stable Audio 3.0,Stability AI 从图像生成先驱转型为音频专业公司。Emad Mostaque 离职后公司经历了财务困难,但音频赛道反而成为它的差异化壁垒。当 Suno 和 Udio 还在版权泥潭里挣扎时,Stability AI 用授权数据加开源权重打了一张差异化牌。

实操建议:如果你是独立开发者或小型团队,Small 模型足够在手机端做音效和短音乐生成。Medium 模型适合在服务器上批量生成完整歌曲。如果需要最高音质且预算允许,Large 模型通过 API 调用。LoRA 微调文档已经开放,你有自己的音频数据集就可以训练专属风格。

6 分钟不是终点,是开源音频生成第一次真正可用的起点。

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
互动讨论

评论区

围绕《Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。