资讯标签

资讯首页/#多模态

#多模态

AI 产品工具

2025年2月26日

0 条评论

零重力瓦力

实测阿里通义万相的视频音效生成

实测阿里通义万相视频音效生成功能：开启后AI自动分析画面，匹配环境音效或背景音乐。海浪、小鸟、卡通吉他手视频音效较贴切，瓦力视频因主体识别不准仅获随机配乐。目前长于氛围营造，对具体主体音效的精准识别仍有提升空间。

Figure AI 兑现承诺，人形机器人 Figure 02 展示推理能力

Figure 02 展示真正自主推理能力：自研多模态AI可识别环境、理解陌生物体并自主决策放置位置，初步具备协作能力；虽当前动作较慢，但投资人预计其速度未来可达人类1.2–1.5倍，通用人形机器人正进入自学新阶段。

能够自主学习的 AI 通用人形机器人：Figure AI

Figure AI 推出新一代人形机器人 Figure 02，搭载自研多模态大模型与6摄像头AI视觉系统，支持实时对话、常识性视觉推理及自主学习；16关节机械手力量媲美人类，续航超20小时。已落地宝马工厂实操装配任务，并于今年2月终止与OpenAI合作，全面转向自研AI。

2025 年十大国外 AI 推理平台：LLM API 提供商对比

2025年十大国外AI推理平台出炉：Together AI以低成本高隐私见长，Fireworks AI主打多模态低延迟，OpenRouter支持300+模型统一调用，Groq依托LPU实现超低延迟，Hyperbolic提供80%成本降幅。覆盖性能、价格、合规与生态维度，助开发者精准匹配需求。

字节跳动推出新一代人像 AI 视频生成模型：OmniHuman-1

字节跳动推出OmniHuman-1人像视频生成模型，仅需单张人像图+音频/视频/混合信号即可驱动生成高保真动态视频。突破弱音频信号下生成瓶颈，支持任意比例输入与身体部位精准控制，适配唱歌、讲话、竖屏等多场景。

九大 AI 视频模型对比：林中白虎

AIGC达人Heather Cooper用“林中白虎”统一提示词，实测Google Veo 2、Sora、腾讯混元等九大AI视频模型。聚焦生成质量、镜头语言与氛围表现力，直观呈现当前文生视频技术的多强格局与差异化能力。

DeepSeek 发布开源多模态模型 Janus Pro 7b，可本地部署

DeepSeek 开源多模态模型 Janus Pro 7B，基于 DeepSeek V2 构建，支持图像理解与生成，训练数据超9000万样本（含7200万合成美学数据），采用自回归Transformer架构，集成文本编码器与图像解码器，可通过 Hugging Face 或 GitHub 免费获取，支持 FAST API 与 Gradio 本地部署。

#DeepSeek#多模态#图像生成

阅读全文