Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46
编辑小创
评论0
阅读23

Google 发布 Gemini 3.1 Flash TTS :可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ,这是一款专注于语音合成的文本转语音( Text-to-Speech )模型。新模型在可控制性、表现力和音质三个维度上实现全面升级,现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上, Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据,验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出,该模型在高质量语音生成与低成本的平衡上表现突出,进入了其评定的“最具吸引力象限”。除了基准测试成绩, Gemini 3.1 Flash TTS 还具备原生多说话人对话能力,支持超过 70 种语言,并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签( Audio Tags )功能。开发者可以将自然语言指令直接嵌入文本输入中,从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次:

场景指令( Scene Direction )允许用户通过定义环境和对话指令来设定表演背景,帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制( Speaker-level Specificity )则支持为不同角色创建独立的 Audio Profile ,并通过 Director‘s Notes 调节语速、语调和口音,而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成,开发者可以将这些精确配置导出为 Gemini API 代码,确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示,音频标签带来了前所未有的创作精度; AIM Intelligence 的 CTO 则认为,该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中,可用于可靠识别 AI 生成内容,有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令,降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念,实际上是将电影工业的镜头语言迁移到了语音合成领域,对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看, SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升,内容溯源能力正在成为行业基础设施的标准配置,而非可选项。不过,水印技术在音频压缩、格式转换等场景下的鲁棒性,仍需经受实际应用环境的检验。

相关文章

三种记忆模式解决 AI 智能体的金鱼记忆
AI 新闻资讯
2026年5月12日
0 条评论
小创

三种记忆模式解决 AI 智能体的金鱼记忆

很多 AI 智能体表现“迟钝”,往往并非模型能力不足,而是缺乏记忆机制。Google 技术专家基于 ADK 提出三种解决方案:会话记忆让助手在单次对话中记住上下文;多智能体状态共享支持多个智能体通过键值对协作传递信息;持久化存储则利用数据库替代内存,使智能体能跨越重启记录用户偏好。这些方法能有效解决“金鱼记忆”问题,帮助开发者构建更连贯、具备长期服务能力的个人助理应用。

#智能体工程
阅读全文
ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音
AI 新闻资讯
2026年5月8日
0 条评论
小创

ChatGPT 开始卖广告了,但 OpenAI 真正的野心在语音

5 月 7 日,OpenAI 在英、巴等五国启动 ChatGPT 广告内测,并推出三款具备 GPT-5 级推理能力的实时语音模型。广告业务强调隐私与回答独立性,旨在探索免费用户变现路径。新语音模型则支持复杂任务操作,加速企业付费场景落地。此举标志 OpenAI 从技术验证转向商业模式规模化,证明 AI 产品可兼顾用户体验与多元盈利,为行业商业化提供了关键风向标。

#OpenAI
阅读全文
让 AI 视频拥有电影质感的九层结构提示词
AI 新闻资讯
2026年5月8日
0 条评论
小创

让 AI 视频拥有电影质感的九层结构提示词

如何让 AI 视频拥有电影质感?提示词应采用导演语言而非被动描述,需包含主体、微动作、环境、摄像机、灯光、风格、情绪、物理细节、渲染质量九层结构。文章还总结了微动作工程、摄像机定义、布光逻辑、情绪编码及可控混乱等策略,并提供了多条完整示例。创作者需注意框架易致同质化,真正的竞争壁垒在于对细节分寸和不可模板化判断的把握。

#Runway#视频生成
阅读全文
互动讨论

评论区

围绕《Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。