国产开源 AI 视频生成模型：跃问（Step-Video-T2V）-创艺提示符

又一款十分出色的国产开源 AI 视频生成模型：跃问（Step-Video-T2V）。该模型拥有 300 亿参数，可生成最长 204 帧的高质量视频。为了提升计算效率和画面质量，开发团队特别设计了一种深度压缩变分自编码器（Video-VAE），能够在空间上压缩 16 倍，时间上压缩 8 倍，同时仍能保持卓越的视频重建效果。

跃问支持中英文输入，通过双语文本编码器精准解析用户的文字描述，并采用 3D 全注意力（3D Full Attention）的 DiT 架构进行训练，利用流匹配（Flow Matching）方法去噪，生成清晰自然的画面。此外，开发团队还引入了基于视频的直接偏好优化（Video-DPO），通过人类反馈进一步优化视频质量，减少伪影，使画面更加流畅、真实。