字节推出新一代视频生成模型:Goku

字节推出视频生成模型Goku及广告专用版Goku+,视频质量媲美Sora与Veo 2;Goku+支持20秒以上生成,手部动作稳定、表情生动,可实现人货互动与产品图转视频,广告制作成本降低100倍。

发布于2025年2月14日 06:07
编辑零重力瓦力
评论0
阅读26

字节推出新一代视频生成模型:Goku。除了标准的视频生成之外,还有专用于广告制作的基础模型 Goku+,视频质量十分出色,不亚于Sora 和 Veo 2。

文生视频

This close-up shot of a chameleon showcases its striking color changing capabilities. The background is blurred, drawing attention to the animal’s striking appearance.
这段特写镜头展示了一只变色龙惊人的变色能力。背景经过虚化处理,使观众的目光集中在这只动物引人注目的外观上。

横屏视频

A pig flying in the blue sky.
一只猪在蓝天中飞翔

古诗生成的视频

春花秋月何时了,往事知多少。小楼昨夜又东风,故国不堪回首月明中。
When will the spring flowers and autumn moon end? How much do we know of the lost years? Last night, the east wind again visited the small tower. I dare not look back at my old country in the moonlight.

肖像视频

The video begins with a realistic capture, transitioning from a mid-range view to a close-up as the camera zooms in from a distance and then remains focused on the subject. The main character is a charming gray squirrel perched on the trunk of a large tree. The squirrel is sitting on a branch, attentively gazing at its surroundings while slowly nibbling on food. The scene features abundantly green trees and yellow leaves, creating beautiful light and shadow effects on the ground and nearby structures. The environment is a tranquil park with ample lighting and a serene atmosphere.
视频从一个写实的画面开始,镜头从中景逐渐拉近至特写,最终聚焦在主体上。主角是一只可爱的灰色松鼠,栖息在一棵大树的树干上。它坐在树枝上,专注地观察周围环境,同时缓慢地咀嚼着食物。画面中绿树成荫,黄叶点缀,形成美丽的光影效果,映照在地面和周围的建筑物上。整个环境是一个宁静的公园,光线充足,氛围祥和。

以下视频采用了:Goku+。这款新的视频基础模型,基于 Goku,对人和产品的广告场景进行了大量优化,和传统广告制作相比,成本能够节省100倍。

Goku+:文生视频主播

能够生成超过 20 秒的视频,并展现人物稳定的手部动作以及生动的面部表情和肢体动作。

A young man dressed in a red cardigan over a white shirt, sitting in front of a festive background decorated with traditional Chinese elements such as red lanterns and decorations. The man is smiling and appears to be speaking or presenting, with an open and friendly expression. The setting suggests a celebratory or cultural theme, possibly linked to Chinese New Year.
一位年轻男子身穿红色开衫,内搭白色衬衫,坐在一个充满节日氛围的背景前。背景装饰着传统的中国元素,如红灯笼和节庆装饰。男子面带微笑,似乎正在讲话或进行演示,表情开放而友好。整个场景营造出一种庆祝或文化主题的氛围,可能与春节相关。

Goku+ 将产品图片转换为视频片段

Goku+ 实现产品与人互动

Goku+ 优化广告场景

项目地址:https://saiyan-world.github.io/goku/

相关文章

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了
AI 产品工具
2026年6月1日
0 条评论
零重力瓦力

SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了

中科大团队发布 SCOPE 框架,通过结构化语义规格解决 AI 绘画中复杂提示词语义丢失问题。该系统将提示词拆解为实体、约束及未知项,构建包含分解、合成、生成、验证的四步循环,并辅以检索、推理和修复技能,实现生成过程全程可追溯与精准修复。团队还推出 Gen-Arena 评测基准及 EGIP 指标。实验显示 SCOPE 在多项基准中表现优异,为多元素控制场景提供了工程化解决方案,代码已开源。

#AI 绘画
阅读全文
Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟
AI 产品工具
2026年5月28日
0 条评论
零重力瓦力

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

#开源模型#AI 音乐
阅读全文
互动讨论

评论区

围绕《字节推出新一代视频生成模型:Goku》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。