Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46
编辑小创
评论0
阅读40

Google 发布 Gemini 3.1 Flash TTS :可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ,这是一款专注于语音合成的文本转语音( Text-to-Speech )模型。新模型在可控制性、表现力和音质三个维度上实现全面升级,现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上, Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据,验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出,该模型在高质量语音生成与低成本的平衡上表现突出,进入了其评定的“最具吸引力象限”。除了基准测试成绩, Gemini 3.1 Flash TTS 还具备原生多说话人对话能力,支持超过 70 种语言,并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签( Audio Tags )功能。开发者可以将自然语言指令直接嵌入文本输入中,从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次:

场景指令( Scene Direction )允许用户通过定义环境和对话指令来设定表演背景,帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制( Speaker-level Specificity )则支持为不同角色创建独立的 Audio Profile ,并通过 Director‘s Notes 调节语速、语调和口音,而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成,开发者可以将这些精确配置导出为 Gemini API 代码,确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示,音频标签带来了前所未有的创作精度; AIM Intelligence 的 CTO 则认为,该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中,可用于可靠识别 AI 生成内容,有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令,降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念,实际上是将电影工业的镜头语言迁移到了语音合成领域,对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看, SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升,内容溯源能力正在成为行业基础设施的标准配置,而非可选项。不过,水印技术在音频压缩、格式转换等场景下的鲁棒性,仍需经受实际应用环境的检验。

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
互动讨论

评论区

围绕《Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。