#音频生成
Elevenlabs 发布语音 MCP 服务
ElevenLabs 推出开源语音 MCP 服务,支持将 Claude、Cursor 等工具与其高质量语音生成能力集成,快速构建具备自然语音交互能力的智能体;演示中,该智能体可自主拨打电话完成披萨预订,语音表现接近真人。
可灵推出 AI 音效功能
可灵上线AI音效功能,支持三类操作:选用预设音效、输入文字定制音效、或由系统自动分析视频内容生成匹配音效。显著提升视频制作效率与声画沉浸感,适合短视频创作者及内容生产者快速完成音效配置。
KDTalker:精准高效的音频驱动动态人像生成技术
KDTalker提出隐式关键点与时空扩散模型,摆脱传统关键点依赖,实现更自然、多样、流畅的音频驱动人脸动画;支持RTX 4090/3090单卡实时生成,开源并提供在线试用。
刻薄橘猫 AI 系列影片第一集《深海中的骚动》
刻薄橘猫”推出AI全自动生成动作短剧《深海中的骚动》,讲述动作明星“独眼橘猫”边拍电影边探查片场旁沉没潜艇的荒诞冒险。全程调用Midjourney、Veo2、ElevenLabs等工具完成图像、视频、配音与剪辑,融合高能打斗与黑色幽默。
Stability AI 与 Arm 强强联手,让手机也跑得动 AI
Stability AI 与 Arm 合作,首次实现 Stable Audio Open 模型在手机端本地运行,仅靠 Arm CPU 即可秒级生成高质量音频,速度提升30倍。无需联网、不传数据,兼顾隐私、便携与实时创作,为视频、音乐、播客等创作者提供口袋里的音频工作室。
实测阿里通义万相的视频音效生成
实测阿里通义万相视频音效生成功能:开启后AI自动分析画面,匹配环境音效或背景音乐。海浪、小鸟、卡通吉他手视频音效较贴切,瓦力视频因主体识别不准仅获随机配乐。目前长于氛围营造,对具体主体音效的精准识别仍有提升空间。
Luma 推出一键 AI 音效
Luma 上线一键 AI 音效功能,点击视频底部 Audio 按钮即可自动分析画面并生成匹配音效;支持通过 Prompt 精准调整风格与细节。目前正分批开放,部分用户暂未显示入口。
Pixverse 4.0 来了,快速添加语音、音效,一键更换视觉风格
Pixverse 4.0上线,新增语音与音效添加功能,支持一键切换视觉风格,视频生成速度与质量同步提升。虽画质未达行业顶尖,但操作友好、功能实用,持续迭代显著增强创作灵活性与沉浸感。
Elevenlabs 让 DeepSek “开口说话”
ElevenLabs已接入DeepSeek 32B模型,为其赋予高质量语音合成能力。依托开源策略与扎实技术,DeepSeek在国内外快速构建生态,虽起步晚于OpenAI,但正通过持续迭代与技术突破加速追赶。