又一款十分出色的国产开源 AI 视频生成模型:跃问(Step-Video-T2V)。该模型拥有 300 亿参数,可生成 最长 204 帧 的高质量视频。为了提升计算效率和画面质量,开发团队特别设计了一种 深度压缩变分自编码器(Video-VAE),能够在 空间上压缩 16 倍,时间上压缩 8 倍,同时仍能保持卓越的视频重建效果。

跃问 支持 中英文输入,通过 双语文本编码器 精准解析用户的文字描述,并采用 3D 全注意力(3D Full Attention) 的 DiT 架构 进行训练,利用 流匹配(Flow Matching) 方法去噪,生成清晰自然的画面。此外,开发团队还引入了 基于视频的直接偏好优化(Video-DPO),通过人类反馈进一步优化视频质量,减少伪影,使画面更加流畅、真实。

目前可以通过跃问的官网免费使用这款优秀的 AI 视频生成模型。

访问地址:https://yuewen.cn/

模型下载地址:https://github.com/stepfun-ai/Step-Video-T2V