资讯标签
资讯首页/#多模态

#多模态

自然语言图像编辑工具 Step1X Edit 介绍
AI 产品工具
2025年4月27日
0 条评论
零重力瓦力

自然语言图像编辑工具 Step1X Edit 介绍

Stepfun开源自然语言图像编辑模型Step1X-Edit,支持用文本指令完成昼夜转换、加眼镜、添文字等精细编辑,效果接近GPT-4o与Gemini 2。基于多模态大模型与扩散解码器协同,需较高显存(512×512约42.5GB),推荐80GB GPU运行。

#图像编辑#多模态
阅读全文
突破时长,无限长度开源 AI 视频生成模型:SkyReels-V2
AI 新闻资讯
2025年4月22日
0 条评论
零重力瓦力

突破时长,无限长度开源 AI 视频生成模型:SkyReels-V2

SkyReels-V2 是首个支持无限长度视频生成的开源模型,首创 Diffusion Forcing 机制实现任意时长无缝续写;在 T2V/I2V 任务中综合性能达开源领先水平,指令遵循性与一致性显著优于同类模型,部分指标媲美 Runway、Kling 等商业系统。

#视频生成#强化学习#多模态
阅读全文
微软发布万能 Office 文档转换 MCP 服务器:markitdown-mcp
AI 产品工具
2025年4月20日
0 条评论
零重力瓦力

微软发布万能 Office 文档转换 MCP 服务器:markitdown-mcp

微软推出 markitdown-mcp 工具,专注从 Office 文档、PDF、音视频、网页等数十种格式中提取语义化内容,输出结构清晰的 Markdown;不追求样式还原,专为大模型输入、文本分析与知识挖掘优化,支持 CLI、Python API、插件扩展及 Azure 文档智能集成。

#MCP#多模态
阅读全文
Flora 商品广告制作工作流
AI 产品工具
2025年4月19日
0 条评论
零重力瓦力

Flora 商品广告制作工作流

Flora 是一款画布式AI创意工具,支持文本→图像→视频端到端工作流编排,已集成 GPT-4o mini、Gemini 2.0、Flux Pro、Veo2、可灵2 等30+主流多模态模型,可保存复用工作流,助力专业设计师高效批量产出广告内容。

#图像生成#视频生成#多模态
阅读全文
VideoGameBench: AI 模型游戏智能的基准测试
AI 产品工具
2025年4月18日
0 条评论
零重力瓦力

VideoGameBench: AI 模型游戏智能的基准测试

普林斯顿大学推出VideoGameBench基准,涵盖20款GB/MS-DOS经典游戏,专测视觉-语言模型在真实游戏环境中的理解、推理与操作能力;Lite版本支持暂停游戏以缓解响应延迟。实验表明,当前VLM在目标导向性、动作精度及机制理解上仍存在明显短板。

#智能体#多模态#ReAct
阅读全文
OpenAI 发布 o3 和 o4-mini,模型推理与多模态能力迈入全新阶段
AI 新闻资讯
2025年4月17日
0 条评论
零重力瓦力

OpenAI 发布 o3 和 o4-mini,模型推理与多模态能力迈入全新阶段

OpenAI发布o3与o4-mini,首次将工具调用深度融入思维链,支持数百次自动多轮操作;在编程(SWE-bench最优)、科研、法律等垂直领域表现突出;强化多模态推理,可处理低质图像并调用Python工具;配套Codex CLI提升本地自动化能力,兼顾性能、成本与实用性。

#OpenAI#思维链#多模态
阅读全文
Google Gemini 2.5 Pro 新增对 YouTube 视频的直接支持
AI 产品工具
2025年4月10日
0 条评论
零重力瓦力

Google Gemini 2.5 Pro 新增对 YouTube 视频的直接支持

Gemini 2.5 Pro 新增 YouTube 视频直连能力,粘贴链接即可自动转录、翻译、生成摘要或改写文案;处理10分钟对话类视频约需2分钟、耗19万token,现于 Google AI Studio 免费开放使用。

#Gemini#Google AI Studio#多模态
阅读全文
OpenCreator:重新定义 AI 创作工作流
AI 产品工具
2025年4月9日
0 条评论
零重力瓦力

OpenCreator:重新定义 AI 创作工作流

OpenCreator 以模块化设计重构 AI 创作流,支持文本、图像、视频等任务自由连线组合,并行调用多模型实时对比效果;按量付费+免费积分机制降低试用门槛,让创作者按需搭建专属工作流,专注创意本身。

#多模态#图像生成#视频生成
阅读全文
Llama 4 开源大模型家族:开启原生多模态 AI 创新的新时代
AI 新闻资讯
2025年4月6日
0 条评论
零重力瓦力

Llama 4 开源大模型家族:开启原生多模态 AI 创新的新时代

Meta开源Llama 4系列,含Scout(1000万Token上下文)、Maverick及训练中的Behemoth,原生支持文本、图像、视频多模态理解;采用MoE架构提升效率,多语言训练规模达Llama 3的10倍,安全与偏见控制显著优化。

#Llama#多模态#AI 模型
阅读全文
63 篇文章,第 3 / 7