Grok Imagine Video 1.5 登顶图生视频排行榜

xAI 发布 Grok Imagine Video 1.5 Preview,登顶 Arena.ai 图生视频排行榜。该模型在人物一致性、原生音频同步及视频拼接功能上显著进步,旨在填补 Sora 关停后的市场真空。其 API 定价每秒约 0.55 元,但存在仅支持图生视频、最高 720p 分辨率等局限。这标志着 AI 视频竞争转向工程链路完整性与产品化交付,适合已有素材的动效创作,文字生视频则推荐 可灵 3.0、Seedance 2.0 或 Veo 3.1。

发布于2026年6月5日 16:21
编辑零重力瓦力
评论0
阅读33

xAI 6 月 3 日发布的 Grok Imagine Video 1.5 Preview,直接在 Arena.ai 的图生视频排行榜上拿了第一,比上一版高了 52 Elo 分,超过了字节的 Seedance 2.0、阿里的 HappyHorse 1.0 和 Google Veo。这个时间点很微妙:OpenAI 的 Sora 刚在 3 月份彻底关停,而 xAI 用 11 万块 GB200 训出来的 Aurora 引擎正在疯狂填补真空。

为什么 Grok Imagine 1.5 值得关注

三个原因:

第一,图生视频的质量确实到了可用级别。Arena.ai 的盲测数据显示,Grok Imagine 1.5 在人物面部准确性、运动连贯性和画面一致性上,比 1.0 版有了质的飞跃。社区测试者特别指出,1.5 版在人物一致性和面部一致性方面进步巨大,而这正是 AI 视频最大的痛点。

第二,原生音频生成仍然是 Grok 的独门武器。Grok Imagine 1.5 默认生成同步音频:对话口型同步、环境音效匹配场景动作、背景音乐自动适配视频情绪。虽然 1.5 预览版的音频还做不到完美自然,但相比 1.0 已经有明显提升。

第三,“Extend from Frame”功能让长视频成为可能。3 月份上线的这个功能,让你选择一段视频的最后一帧,然后让模型从那个精确的时间点继续生成,保持运动方向、角色位置和光照条件一致。多次拼接,理论上可以做出接近短片长度的内容。

Sora 之死和 AI 视频市场的真空

3 月 24 日,OpenAI 关停了 Sora 的消费者应用和 API。BBC 和 The Verge 都报道了,原因是计算成本太高(每天烧掉约 720 万人民币)加上商业模式缺失。更有意思的是,OpenAI 还取消了和迪士尼的 10 亿美元合作项目。

Sora 死后留下了巨大的市场真空,而竞争者们正在疯狂抢位:

  • 字节跳动的 Seedance 2.0 已经在 100 个国家上线(不含美国),Kling 3.0 刚刚和 Renoise 视频编辑器做了集成
  • Google 的 Veo 3.1 开始向 Ultra 订阅用户免费开放
  • Runway 在 5 月份发布了 MCP 服务器,让 AI 视频创作可以从 Agent 里一句话触发

xAI 的策略很明确:用最快的速度推出最强模型,抢占 Sora 留下的 API 市场。1 月份 xAI 报告称 Grok Imagine 已经生成了 12.45 亿个视频,3 月初的独立访问用户超过 3.14 亿。这个规模在国内只有 Kling 能比。

价格和实操:0.58 元一秒,能用但不能随便用

Grok Imagine Video 1.5 的定价是每秒 0.08 美元输出,换算成人民币大约是每秒 0.58 元。60 秒视频的 API 成本约 34.6 元,比 Runway Gen-4.5 便宜不少,但比 Kling 的 API 价格略高。

目前模型只能通过 xAI API 访问(模型名:grok-imagine-video-1.5-2026-05-30),X Premium 消费者端还没开放。支持的分辨率最高 720p,每分钟请求限制 60 次。

对开发者来说,接入很简单。Python SDK 几行代码就能跑:

from xai_sdk import Client

client = Client(api_key="your-key")
video = client.videos.generate(
    model="grok-imagine-video-1.5-preview",
    prompt="A woman walks through a neon-lit alley in the rain, cinematic lighting",
    image_url="https://example.com/photo.jpg",
    duration=5,
    resolution="720p"
)

诚实的局限

1.5 Preview 仍然是预览版,有几个硬伤:

  • 只支持图生视频,文字生视频还在路上
  • 720p 分辨率在 2026 年的 AI 视频市场不算突出(Kling 3.0 和 Veo 3.1 都支持 1080p)
  • Extend from Frame 超过 3 次拼接后,一致性和画质会明显衰减
  • 原生音频虽然比 1.0 好,但人声部分仍有机器感
  • 只在 xAI 的 API 可用,没有 Runway 那样的创作界面和模板市场

我的判断

Grok Imagine 1.5 的意义不在于它比谁强那么几分,而在于它标志着 AI 视频赛道的竞争从“谁的模型参数多”转向了“谁的工程链路完整”。xAI 在做的事情是把图生视频、原生音频、视频拼接、API 接入这四个环节串成一条链。每一段都不算最强,但连在一起是目前最完整的。

对创作者来说,如果你已经有素材图片想做动效,Grok Imagine 1.5 目前是最值得试的选择。如果你需要从零开始文字生视频,Kling 3.0 或 Veo 3.1 可能更合适。

Sora 的倒下不是 AI 视频的终结,而是市场格局重新洗牌的信号。2026 年的 AI 视频赛道,正在从“谁能做出第一段像样的视频”变成“谁能稳定地交付可用的视频产品”。Grok Imagine 1.5 是这个新阶段的一个开始。

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
互动讨论

评论区

围绕《Grok Imagine Video 1.5 登顶图生视频排行榜》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。