Elevenlabs 推出最具表现力的文字转语音模型：Eleven v3

ElevenLabs推出v3（alpha）文字转语音模型，支持70+语言、多角色自然对话及[whispers][laughs]等音频标签，可精准表达情绪与环境音效；新架构大幅提升上下文理解与语音表现力，但需更精细的提示词引导。

发布于2025年6月6日 04:10

编辑零重力瓦力

评论0 条

阅读61

Eleven v3（alpha）是ElevenLabs全新推出的、迄今为止最具表现力的文本转语音（Text to Speech, TTS）模型。本次 “研究预览” 版本，专为走在 AI 音频前沿的创作者设计。无论你是在打造旁白风格视频，还是探索全新音频内容形式，v3 都能为你带来前所未有的表现力和细致的控制力。

v3有哪些独特之处？

支持70多种语言

从原先的 33 种语言扩展到 70 多种，覆盖了全球 90% 人口（原为60%），能够音频内容轻松触及世界各地的听众。

对话模式

能够处理多角色自然对话，包括打断、语气切换和情绪流转，让多人场景更真实、更自然。

音频标签

通过如 [whispers]（低语）、[angry]（愤怒）、[laughs]（大笑）、[door creaks]（门吱呀声）等标签，精细控制语音的表达和情感，甚至可以插入环境音效。

Eleven v3 基于全新架构，对上下文的理解更深入，生成的语音能在一次录制中实现自然的反应、打断、语气变化和情感表达。

需要注意的是，v3 对提示词（prompting）的要求比早期模型更高，需要更精准的指令，但带来的效果也更加惊艳。

文本转语音模型 Eleven v3（alpha）提示词指南

Eleven v3（alpha）现已上线，访问 https://elevenlabs.io/v3 即可试用。

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型，通过在扩散模型隐空间直接存储三维记忆，解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程，使生成速度提升最高 10.57 倍，显存占用降低 55 倍，且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案，虽暂不支持动态物体记忆，但已开源并适用于机器人仿真等静态场景任务。

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Google 推出 Information Agents 功能，面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测，智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略，通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战，但凭借二十年数据积累，Google 正推动 AI 助手从对话工具向自主代理进化，重塑“信息找人”的交互范式。

#Google#智能体

阅读全文

互动讨论