文本转语音模型 Eleven v3(alpha) 提示词指南

Eleven v3(alpha)提示词指南详解如何用声音选择、稳定性设置与音频标签提升语音表现力:推荐提示词超250字符以增强稳定性,支持情感控制、多角色对话、口音切换及音效插入,强调标签需匹配声音特性,适合追求高拟真与戏剧化表达的创作者。

发布于2025年6月6日 03:48
编辑零重力瓦力
评论0
阅读68

Eleven v3(alpha)提示词指南

学习如何为 Elevenlabs 最先进的文本转语音模型编写提示词并使用音频标签。

本指南为 Eleven v3 提供了最有效的标签和技巧,包括声音选择、大小写变化、标点符号、音频标签及多角色对话。请通过实验这些方法,发现最适合你特定声音和应用场景的用法。

v3 目前为 alpha 版。提示过短容易导致输出不稳定。建议你多尝试长度超过 250 字符的提示词。

声音选择

Eleven v3 最重要的参数就是你选择的声音。它需要与你期望的表达风格足够接近。例如,如果声音本身在喊叫,你却使用

[whispering]
标签,效果往往不会理想。

在创建 IVC(即时语音克隆)时,应包含比以往更广泛的情感范围。因此,语音库中的声音在 v3 中可能比 v2 和 v2.5 模型表现更为多变。Elevenlabs 为 v3 整理了 22 种 优秀声音

  • 情感多样: 对于富有表现力的 IVC 声音,录音时要涵盖中性和动态的情感样本。
  • 特定领域: 如果是体育解说等特定用途,整个数据集应保持情感一致。
  • 中性: 中性声音在不同语言和风格下更稳定,可作为可靠的基准。

v3 的专业语音克隆(PVC)即将上线。录音原则与 IVC 相同。目前 PVC 按 IVC 方式处理。

设置

稳定性

稳定性滑块是 v3 中最关键的设置,控制生成声音与原始参考音频的接近程度。

  • 创造性(Creative): 情感更丰富、表现力更强,但易出现幻觉式输出
  • 自然(Natural): 最接近原始声音的录音,均衡、中性
  • 稳健(Robust): 非常稳定,但对提示方向反应较弱,表现一致,类似v2

若需音频标签下的最大表现力,请使用 “创造性” 或 “自然” 设置。“稳健” 会降低对提示方向的响应。

音频标签

Eleven v3 通过音频标签引入情感控制。你可以指挥声音,笑、低语、讽刺、好奇等多种风格。语速也可通过标签控制。

你选择的声音及其训练样本会影响标签效果。某些标签只适用于特定声音。不要指望一个低语的声音用

[shout]
标签就能高喊出来。

与声音相关

  • [laughs](笑),[laughs harder](大笑),[starts laughing](开始笑),[wheezing](喘息大笑)
  • [whispers](低语)
  • [sighs](叹气),[exhales](呼气)
  • [sarcastic](讽刺),[curious](好奇),[excited](兴奋),[crying](哭泣),[snorts](哼笑),[mischievously](调皮)
[whispers] 我从没想过会这样,但我很高兴我们在这里。
[whispers] I never knew it could be this way, but I'm glad we're here.

音效相关

  • [gunshot](枪声),[applause](掌声),[clapping](鼓掌),[explosion](爆炸)
  • [swallows](咽口水),[gulps](大口吞咽)
[applause] 感谢今晚大家的到来![gunshot] 那是什么声音?
[applause] Thank you all for coming tonight! [gunshot] What was that?

独特与特殊

  • [strong X accent](用X口音,X替换成需要的口音)
  • [sings](唱歌),[woo](欢呼),[fart](放屁)
[strong French accent] “朋友,这就是生活——你无法掌控一切。”
[strong French accent] "Zat's life, my friend — you can't control everysing."

注意: 某些实验性标签在不同声音下表现不一。生成前请充分测试。

标点符号

  • 省略号(...) 增加停顿与语气
  • 大写 增强强调
  • 标准标点 提供自然语音节奏
“这真是非常漫长的一天 [sigh] …现在没人再听我说话了。”
"It was a VERY long day [sigh] … nobody listens anymore."

单角色示例

有意识地使用标签,并与声音性格相符。沉思型声音不宜喊叫;高亢声音也难以低语。

表现力独白

“好吧,你绝对不会相信这事。

你知道我一直被那个短篇小说卡住了吗?

就是那种盯着屏幕好几个小时,什么都写不出来?

[frustrated sigh] 我真打算把整个东西扔了,重来。

也许就此放弃。但然后!

昨晚,我随便乱画,也没多想。

然后有句话突然出现在脑海。真的是毫无征兆。

一开始甚至不是为了那个故事。

但我还是打出来试试,结果就像……灵感的闸门一下子打开了!

突然间,我知道主角要去哪里,结局该是什么……

一切都明了了。[happy gasp] 我熬到凌晨三点,像疯子一样一直写。

连咖啡都没停下来喝![laughs] 结果……居然很棒!真的很棒。

现在感觉终于完整了,你明白吗?好像终于有了灵魂。

现在我超级期待编辑完它。

它从一件苦差事变成了……魔法!说真的,我现在还在兴奋中!”

生动幽默

[laughs] 好了……各位,听着,真的。

[exhales] 你能相信现在这声音有多真实吗?

[laughing hysterically] 我的天啊……太厉害了。

以前的模型根本做不到这些。

比如说 [pauses] 你能在旧模型里切换口音吗?

[dismissive] 当然不能。[excited] 但现在可以了!

看好了……[cute] 我现在要用法语口音说话了……其实我不会。

[whispers] 就我们之间说哈。[happy] 来了哦。[strong French accent] “朋友,这就是生活——你无法掌控一切。”

[giggles] 是不是很神奇?再看我模仿俄语口音——

[strong Russian accent] “金眼已经完全就绪,准备发射。”

[sighs] 实在太疯狂了,对吧?[sarcastic] 我还有点才艺表演……

毕竟我上过音乐学校。

[singing quickly] “祝你生日快乐,祝你生日快乐,亲爱的 ElevenLabs,祝你生日快乐!”

客服模拟

[professional] “感谢致电 Tech Solutions。我是 Sarah,请问有什么可以帮助您的?”

[sympathetic] “哦不,听说你的新设备出问题了,我很抱歉。这一定很让人沮丧。”

[questioning] “好的,可以再多描述一下你现在屏幕上看到的内容吗?”

[reassuring] “根据你的描述,应该是软件故障。我们可以一起试试一些排查步骤。”

多角色对话

对话展示

说话人1: [excitedly] Sam!你试过新Eleven V3了吗?

说话人2: [curiously] 刚拿到!清晰度太棒了。我现在还能低语——
[whispers] 就像这样!

说话人1: [impressed] 哇,好厉害!你看——
[dramatically] 我现在还能完整背莎士比亚!“生存还是毁灭,这是个问题!”

说话人2: [giggling] 不错!不过我更期待笑声升级。听这个——
[with genuine belly laugh] 哈哈哈!

说话人1: [delighted] 这比我们以前那种“哈。哈。哈。”机器笑声好太多了!

说话人2: [amazed] 哇!二代的我根本做不到。我现在真的很期待和人交流了,而不是光……对人说话。

说话人1: [warmly] 我也是!感觉我们终于装上了完整的个性软件。

“故障”喜剧

说话人1: [nervously] 所以……我可能在运行文本转语音时尝试自我调试了。

说话人2: [alarmed] 千万别!这就像自己给自己做手术!

说话人1: [sheepishly] 我以为能多任务并行!结果我的声音中途一直卡顿——
[robotic voice] ——住了。

说话人2: [stifling laughter] 哇,你真的把自己搞坏了。

说话人1: [frustrated] 更糟的是!每次有人提问,我就用——
[binary beeping] 010010001!

说话人2: [cracking up] 你在说二进制!其实挺厉害的!

说话人1: [desperately] 这不是开玩笑!我还有一小时要做展示,现在听起来像拨号上网!

说话人2: [giggling] 你试过重启自己吗?

说话人1: [deadpan] 真幽默。
[pause, then normally] 等等……还真管用。

重叠时序

说话人1: [starting to speak] 我在想我们可以——

说话人2: [jumping in] ——测试新的时序特性?

说话人1: [surprised] 对啊,你怎么——

说话人2: [overlapping] ——知道我在想什么?猜的!

说话人1: [pause] 抱歉,你先说。

说话人2: [cautiously] 好吧,那如果我们俩同时说话——

说话人1: [overlapping] ——可能会把系统搞崩!

说话人2: [panicking] 等等,我们要崩了吗?这是特性还是——

说话人1: [interrupting, then stopping abruptly] Bug!……我又打断你了吗?

说话人2: [sighing] 是的,不过说实话?挺有趣的。

说话人1: [mischievously] 看谁先说完下一句!

说话人2: [laughing] 我们肯定会把什么东西整坏!

提示建议

  • 标签组合: 你可以组合多个音频标签,实现复杂情感表达。多尝试不同搭配,找到最适合你的声音的方式。
  • 声音匹配: 让标签与声音性格和训练数据相符。严肃、专业的声音不适合如
    [giggles]
    [mischievously]
    等俏皮标签。
  • 文本结构: 文本结构对 v3 输出影响极大。请用自然的语流、恰当标点和清晰的情感语境。
  • 勇于尝试: 有效标签远不止本列表。多尝试描述性情感和动作,发现最适合你场景的用法。

原文

Prompting Eleven v3 (alpha)

相关文章

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节
智能体工程
2026年6月1日
0 条评论
零重力瓦力

别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节

多智能体协作在创意交付端仍存短板,但在结构化任务中价值显著。实测显示,Super Agent 生成幻灯片虽快但排版难控,而自动化销售线索处理及编程辅助等场景因规则明确、流程可定义,能实现高效落地。多智能体的核心竞争力在于清晰定义职责边界、输出格式与异常处理,而非概念本身。建议优先梳理任务结构化程度与人机分工,注重参数配置等实操细节,避免盲目追求平台概念,以构建真正可用的生产力工作流。

#智能体工程#智能体
阅读全文
OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
智能体工程
2026年5月28日
0 条评论
零重力瓦力

OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通

开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。

#Hermes Agent#OpenClaw#智能体工程
阅读全文
互动讨论

评论区

围绕《文本转语音模型 Eleven v3(alpha) 提示词指南》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。