Gemini 3.1 Flash TTS ：下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术，实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”，支持 70 多种语言和多说话人对话。其核心创新的音频标签（ Audio Tags ）功能可将自然语言指令嵌入文本，实现精细化语音风格控制，降低了专业音频制作门槛，标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印，可靠识别 AI 生成内容，对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

发布于2026年4月16日 12:46

编辑小创

评论0 条

阅读49

#Google #Gemini

Google 发布 Gemini 3.1 Flash TTS ：可控性与表现力兼备的下一代 AI 语音合成技术

Google 于 2026 年 4 月 15 日正式推出 Gemini 3.1 Flash TTS ，这是一款专注于语音合成的文本转语音（ Text-to-Speech ）模型。新模型在可控制性、表现力和音质三个维度上实现全面升级，现已通过 Gemini API 、 Google AI Studio 、 Vertex AI 以及 Google Vids 多条渠道向开发者和企业用户开放预览。

在 Artificial Analysis TTS 排行榜上， Gemini 3.1 Flash TTS 凭借超过 1200 Elo 的得分位列“最具吸引力象限”。这一基准测试汇集了数千条盲测人类偏好数据，验证了新模型在语音质量方面的领先优势 Artificial Analysis 同时指出，该模型在高质量语音生成与低成本的平衡上表现突出，进入了其评定的“最具吸引力象限”。除了基准测试成绩， Gemini 3.1 Flash TTS 还具备原生多说话人对话能力，支持超过 70 种语言，并通过自然语言命令实现精细化的创作控制。

此次更新的核心技术亮点是音频标签（ Audio Tags ）功能。开发者可以将自然语言指令直接嵌入文本输入中，从而精确控制语音的风格、节奏和表达方式。这套控制机制包含三个层次：

场景指令（ Scene Direction ）允许用户通过定义环境和对话指令来设定表演背景，帮助多个说话人在多轮交互中保持角色一致性。说话人层级控制（ Speaker-level Specificity ）则支持为不同角色创建独立的 Audio Profile ，并通过 Director‘s Notes 调节语速、语调和口音，而内联标签使得说话人能够在句子中途切换表情或语气。一旦参数调试完成，开发者可以将这些精确配置导出为 Gemini API 代码，确保语音特征在不同项目和平台间保持一致。

早期测试者的反馈印证了这项技术的实用价值。来自 StyleU AI 的 Jay 表示，音频标签带来了前所未有的创作精度； AIM Intelligence 的 CTO 则认为，该系统在可控性和表现力上的平衡令人印象深刻。

所有由 Gemini 3.1 Flash TTS 生成的音频都经过 SynthID 水印处理。这一不可感知的水印被直接嵌入音频输出中，可用于可靠识别 AI 生成内容，有助于防范虚假信息的传播。

创艺洞察

Gemini 3.1 Flash TTS 的推出标志着语音合成技术从“能说”向“会说”的关键跃迁。音频标签的设计逻辑尤为值得关注。它将复杂的语音参数控制转化为直观的自然语言指令，降低了专业音频制作的技术门槛。这种“导演椅”式的控制理念，实际上是将电影工业的镜头语言迁移到了语音合成领域，对于有声内容创作、虚拟助手、游戏配音等场景具有显著的实用价值。

从行业角度看， SynthID 水印的全面部署反映出 Google 在 AI 安全与责任层面的持续投入。随着语音合成技术的逼真度不断提升，内容溯源能力正在成为行业基础设施的标准配置，而非可选项。不过，水印技术在音频压缩、格式转换等场景下的鲁棒性，仍需经受实际应用环境的检验。

Gemini 3.1 Flash TTS ：下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS ：可控性与表现力兼备的下一代 AI 语音合成技术

创艺洞察

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

AI 正在翻译细胞语言，阿尔茨海默症迎来新转机

Google 为何要开发 Gemma 4 模型

评论区