资讯标签
资讯首页/#多模态

#多模态

实测阿里通义万相的视频音效生成
AI 产品工具
2025年2月26日
0 条评论
零重力瓦力

实测阿里通义万相的视频音效生成

实测阿里通义万相视频音效生成功能:开启后AI自动分析画面,匹配环境音效或背景音乐。海浪、小鸟、卡通吉他手视频音效较贴切,瓦力视频因主体识别不准仅获随机配乐。目前长于氛围营造,对具体主体音效的精准识别仍有提升空间。

#音频生成#多模态
阅读全文
Figure AI 兑现承诺,人形机器人 Figure 02 展示推理能力
AI 新闻资讯
2025年2月21日
0 条评论
零重力瓦力

Figure AI 兑现承诺,人形机器人 Figure 02 展示推理能力

Figure 02 展示真正自主推理能力:自研多模态AI可识别环境、理解陌生物体并自主决策放置位置,初步具备协作能力;虽当前动作较慢,但投资人预计其速度未来可达人类1.2–1.5倍,通用人形机器人正进入自学新阶段。

#具身智能#多模态#机器人
阅读全文
能够自主学习的 AI 通用人形机器人:Figure AI
访谈案例
2025年2月12日
0 条评论
零重力瓦力

能够自主学习的 AI 通用人形机器人:Figure AI

Figure AI 推出新一代人形机器人 Figure 02,搭载自研多模态大模型与6摄像头AI视觉系统,支持实时对话、常识性视觉推理及自主学习;16关节机械手力量媲美人类,续航超20小时。已落地宝马工厂实操装配任务,并于今年2月终止与OpenAI合作,全面转向自研AI。

#具身智能#多模态
阅读全文
2025 年十大国外 AI 推理平台:LLM API 提供商对比
AI 产品工具
2025年2月6日
0 条评论
零重力瓦力

2025 年十大国外 AI 推理平台:LLM API 提供商对比

2025年十大国外AI推理平台出炉:Together AI以低成本高隐私见长,Fireworks AI主打多模态低延迟,OpenRouter支持300+模型统一调用,Groq依托LPU实现超低延迟,Hyperbolic提供80%成本降幅。覆盖性能、价格、合规与生态维度,助开发者精准匹配需求。

#模型 API#多模态#AI 模型
阅读全文
字节跳动推出新一代人像 AI 视频生成模型:OmniHuman-1
AI 产品工具
2025年2月5日
0 条评论
零重力瓦力

字节跳动推出新一代人像 AI 视频生成模型:OmniHuman-1

字节跳动推出OmniHuman-1人像视频生成模型,仅需单张人像图+音频/视频/混合信号即可驱动生成高保真动态视频。突破弱音频信号下生成瓶颈,支持任意比例输入与身体部位精准控制,适配唱歌、讲话、竖屏等多场景。

#视频生成#多模态
阅读全文
九大 AI 视频模型对比:林中白虎
AI 产品工具
2025年2月2日
0 条评论
零重力瓦力

九大 AI 视频模型对比:林中白虎

AIGC达人Heather Cooper用“林中白虎”统一提示词,实测Google Veo 2、Sora、腾讯混元等九大AI视频模型。聚焦生成质量、镜头语言与氛围表现力,直观呈现当前文生视频技术的多强格局与差异化能力。

#视频生成#多模态
阅读全文
DeepSeek 发布开源多模态模型 Janus Pro 7b,可本地部署
AI 编程开发
2025年1月29日
0 条评论
零重力瓦力

DeepSeek 发布开源多模态模型 Janus Pro 7b,可本地部署

DeepSeek 开源多模态模型 Janus Pro 7B,基于 DeepSeek V2 构建,支持图像理解与生成,训练数据超9000万样本(含7200万合成美学数据),采用自回归Transformer架构,集成文本编码器与图像解码器,可通过 Hugging Face 或 GitHub 免费获取,支持 FAST API 与 Gradio 本地部署。

#DeepSeek#多模态#图像生成
阅读全文
免费开源的小型多模态模型:Molmo
AI 产品工具
2025年1月7日
0 条评论
零重力瓦力

免费开源的小型多模态模型:Molmo

艾伦研究所开源小型多模态模型Molmo,支持文本、图像、语音输入,具备“指向”交互能力,7B版本仅用百万级高质量图像训练,在视觉问答、文档理解等任务中表现优于GPT-4o,所有权重已开放下载。

#多模态#AI 模型
阅读全文
字节跳动开源口型同步模型:LatentSync
AI 产品工具
2025年1月6日
0 条评论
零重力瓦力

字节跳动开源口型同步模型:LatentSync

字节跳动开源口型同步模型LatentSync,支持音频一键生成高自然度嘴型动画;融合Stable Diffusion提升画质,创新TREPA技术显著改善帧间连贯性,有效抑制嘴型跳变,效果媲美EMO、Vasa-1。

#视频生成#多模态
阅读全文
63 篇文章,第 6 / 7