#音频生成
香港科技大学研发的开源音乐生成模型:YuE
香港科技大学开源音乐生成模型YuE,支持中英日韩四语,可依歌词生成最长5分钟、含主唱与伴奏的完整歌曲,强调结构连贯性与旋律表现力,为创作者提供Suno、Udio之外的新选择。
Suno “垫声”,让AI成为我们的艺术创作伙伴
Suno 推出“垫声”技术,用户只需哼唱或录入任意声音,AI 即可生成完整歌曲。类比绘画中的“垫图”,它让音乐创作从专业门槛走向人人可为,AI 不再是被动工具,而是能响应直觉、激发灵感的创作伙伴。
AI 动画短片《妖狐》
《妖狐》(KITSUNE)是由艺术家Henry Daubrez用Google Veo 2创作的AI动画短片,讲述两个孤独灵魂相遇相知的温暖故事;历时数月完成全链路制作,生成超7000段画面,重在以技术传递情感,而非强调AI标签。
能够融合声音的小型 TTS(文本转语音)模型:Kokoro
Kokoro 是仅 82M 参数的轻量级 TTS 模型,支持从十种预设声线中任选两种,按任意比例混合生成个性化语音——如男女声 60:40 融合。提供简洁 API,访问 kokorotts.com 即可快速调用。
海螺 AI 推出全新文生音频功能 T2A-01-HD
海螺AI上线文生音频模型T2A-01-HD,10秒即可克隆声音并保留情感细节;支持300+预设语音与17种语言及方言口音;内置情感智能系统,可自动或手动调节语气、语速、音调,并添加房间声学等专业效果,显著提升AI影片制作效率。
LTX 推出自动音效功能
LTX 新增自动音效(Auto SFX)功能,支持在图生视频及已有视频中智能匹配并生成贴合画面的音效,无需手动添加,显著提升 AI 视频制作效率与沉浸感。
海螺 AI 推出 MiniMax API 2025 入门礼包
海螺AI上线MiniMax API 2025入门礼包,注册即赠3次视频/音乐生成、1次语音克隆、5000字符T2A及1万LLM Token;支持Stripe自动充值,视频API已集成ComfyUI,开发者可邮件申请最高100美元测试代金券。
开源音频生成(Text to Audio)模型:TANGOFLUX
TANGOFLUX 是一款开源可本地部署的文本生成音频模型,5.15亿参数,单块A40 GPU仅需3.7秒即可生成30秒/44.1kHz高质量音效。其创新CRPO方法能自动构建偏好数据,有效缓解TTA领域缺乏明确评价标准的难题,显著提升生成效果。
Suno 推出音色转换功能
Suno 新增音色转换功能,可在不改变主旋律的前提下,将音乐从一种音色风格迁移至另一种,例如钢琴曲一键转为管弦乐版本,原理类似图像领域的AI风格迁移。