自然语言图像编辑工具 Step1X Edit 介绍

Stepfun开源自然语言图像编辑模型Step1X-Edit，支持用文本指令完成昼夜转换、加眼镜、添文字等精细编辑，效果接近GPT-4o与Gemini 2。基于多模态大模型与扩散解码器协同，需较高显存（512×512约42.5GB），推荐80GB GPU运行。

发布于2025年4月27日 10:53

编辑零重力瓦力

评论0 条

阅读68

#图像编辑 #多模态

Stepfun 团队正式开源了图像编辑模型 Step1X-Edit。这款模型能够让用户通过自然语言对图片进行编辑。例如，把图片中黑夜的场景变成白天，添加文字，为人物添加一副眼镜等。效果媲美 GPT-4o 和 Gemini 2。

Step1X-Edit 的技术核心在于多模态大模型的集成应用。模型能够同时理解并处理图像和自然语言编辑指令，通过抽取潜在特征嵌入，并与扩散式图像解码器协同工作，实现对目标图像的灵活生成。这一流程的关键在于对用户多样化编辑需求的精准把握与还原，确保生成结果既符合指令意图，又具备较高的视觉一致性。为此，团队自研了一套高质量数据生成管线，有效支撑了模型训练和性能提升。

从实际测试来看，Step1X-Edit 对硬件资源有一定要求。以 512x512 分辨率为例，单卡推理需约 42.5GB 显存，而在更高分辨率下对显存的需求也相应提升。团队建议使用 80GB 显存的 GPU，以获得更优生成质量。

模型下载和试用地址

https://github.com/stepfun-ai/Step1X-Edit
Hugging Face 上的试用地址：https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
Fal.ai 上的试用地址：https://fal.ai/models/fal-ai/step1x-edit/playground

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型，通过在扩散模型隐空间直接存储三维记忆，解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程，使生成速度提升最高 10.57 倍，显存占用降低 55 倍，且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案，虽暂不支持动态物体记忆，但已开源并适用于机器人仿真等静态场景任务。

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Google 推出 Information Agents 功能，面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测，智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略，通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战，但凭借二十年数据积累，Google 正推动 AI 助手从对话工具向自主代理进化，重塑“信息找人”的交互范式。

#Google#智能体

阅读全文

互动讨论

评论区

围绕《自然语言图像编辑工具 Step1X Edit 介绍》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

自然语言图像编辑工具 Step1X Edit 介绍

模型下载和试用地址

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区