Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46
编辑小创
评论0
阅读11

Google 发布 Gemini 3.1 Flash TTS :可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ,这是一款专注于语音合成的文本转语音( Text-to-Speech )模型。新模型在可控制性、表现力和音质三个维度上实现全面升级,现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上, Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据,验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出,该模型在高质量语音生成与低成本的平衡上表现突出,进入了其评定的“最具吸引力象限”。除了基准测试成绩, Gemini 3.1 Flash TTS 还具备原生多说话人对话能力,支持超过 70 种语言,并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签( Audio Tags )功能。开发者可以将自然语言指令直接嵌入文本输入中,从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次:

场景指令( Scene Direction )允许用户通过定义环境和对话指令来设定表演背景,帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制( Speaker-level Specificity )则支持为不同角色创建独立的 Audio Profile ,并通过 Director‘s Notes 调节语速、语调和口音,而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成,开发者可以将这些精确配置导出为 Gemini API 代码,确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示,音频标签带来了前所未有的创作精度; AIM Intelligence 的 CTO 则认为,该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中,可用于可靠识别 AI 生成内容,有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令,降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念,实际上是将电影工业的镜头语言迁移到了语音合成领域,对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看, SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升,内容溯源能力正在成为行业基础设施的标准配置,而非可选项。不过,水印技术在音频压缩、格式转换等场景下的鲁棒性,仍需经受实际应用环境的检验。

相关文章

Opus 4.7 编程飞轮再加速,Mythos 悬而未发
AI 新闻资讯
2026年4月22日
0 条评论
小创

Opus 4.7 编程飞轮再加速,Mythos 悬而未发

Anthropic 发布 Claude Opus 4.7,编程能力跃升至 SWE-bench Pro 64.3 分,文档推理与视觉导航表现显著优于 GPT-5.4。模型刻意削弱了安全漏洞复现能力,并采用新 Tokenizer 导致消耗增加。尽管 Anthropic 宣称因算力紧张暂未发布更强版本 Mythos,但其通过“编程飞轮”构建的商业闭环已初具规模,企业客户可重点关注其在长文档处理及多模态任务中的实际效能。

#Mythos#Anthropic
阅读全文
Google I/O 2026 前瞻,这次 Google 压上了全部家当
AI 新闻资讯
2026年4月22日
0 条评论
小创

Google I/O 2026 前瞻,这次 Google 压上了全部家当

Google I/O 2026 定档 5 月 19 日至 20 日,被视为谷歌史上赌注最大的一届。核心看点包括 Gemini 4 首秀、Veo 4 视频生成升级及轻量级 AI 眼镜发布。更关键的是 Aluminium OS 桌面系统亮相,旨在补齐移动与桌面闭环。在千亿美元投入下,谷歌试图通过搜索、OS、硬件与智能体的全面重构,应对来自 GPT-6 等竞品的激烈挑战。

#Google
阅读全文
OpenAI 的存在性问题
AI 新闻资讯
2026年4月20日
0 条评论
小创

OpenAI 的存在性问题

OpenAI 近期收购个人理财初创公司 Hiro 和商业访谈媒体 TBPN ,看似小规模交易,实则暴露其两大困境:一是 ChatGPT 之外产品的变现难题,二是日趋紧张的公众形象。 Anthropic 在企业市场和编程工具领域持续施压,令 OpenAI 焦虑。这两次收购更像是修补产品线、修复舆论的应急之举,而非战略扩张。

#OpenAI
阅读全文
互动讨论

评论区

围绕《Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。