资讯标签

资讯首页/#多模态

#多模态

AI 教程知识

2026年3月26日

0 条评论

零重力瓦力

【AI工具】不是语言模型，也不是图像模型，Luma 的 UNI-1 到底是什么

Luma 推出 UNI-1，一种突破性多模态推理模型：它并非语言或图像模型的拼接，而是将世界理解与图像生成统一于单次前向推理中，实现“先看懂、再画出”。架构上尝试融合逻辑推理与视觉想象，被称作“左右脑合一”，或预示AI建模范式的转向。

【AI工具】ElevenLabs 发布 Flows，一站式广告创作平台能颠覆营销行业吗?

ElevenLabs推出Flows——基于画布的多模态广告创作平台，整合图像、视频、语音、音效与音乐生成，支持Veo、可灵、Nano Banana等模型及真人配音库；内置商用授权Eleven Music，可一键生成70+语言版本，宣称一天完成香水广告全流程，为出海团队大幅降本提效。

【AI工具】Luma 推出统一智能模型 Uni-1

Luma 推出统一智能模型 Uni-1，首次实现单模型跨模态理解与生成，支持文本、代码、长视频、语音、音频，并在一次前向传播中同步完成语言推理与视觉生成，具备计算、逻辑推演与审美判断能力，推动AI从“提示词驱动”迈向“意图理解型”创作伙伴。

“孕育” 另一个自己，Pika 推出重磅新功能：AI 分身

Pika 推出“AI 分身”，非工具型助手，而是基于你性格、声音、记忆与形象构建的持久化数字生命体；可跨 Slack、WhatsApp、Discord 等平台多模态交互，代回复、创作、跨语言沟通；形象自由定制，数据隐私受保障，内容版权归属用户。

Gemini 3.1 Pro 鸟群舞模拟

Google DeepMind 用 Gemini 3.1 Pro 实现可交互的 3D 鸟群模拟：支持手部追踪实时扰动群体、生成式音乐随密度与速度动态响应，并开放调节行为权重、规模等参数，为研究群体智能与多模态反馈提供轻量、直观的实验界面。

从零到110亿美元：ElevenLabs的故事

从波兰少年对外语配音的观察出发，Mati 和 Peter 2021 年以周末项目启动 ElevenLabs，坚持“研究即产品”，用真实用户反馈驱动音频模型迭代；三年内打造高情感、高保真语音技术，迈向统一音频理解，并成为估值110亿美元的AI独角兽。

在手机高效跑模型的神器：Nexa AI

Nexa AI 是一款移动端本地模型推理引擎，支持 Android/iOS 及 NPU/GPU/CPU 多硬件加速，在手机端实现低功耗、高效率的语音转写、图像识别与图文音多模态搜索；SDK 简洁，几行代码即可集成。

16 种检索增强生成（RAG）类型

本文系统梳理16种RAG变体，从标准、智能体式到图谱、多模态、联邦、流式等，覆盖关键特性、适用场景与主流工具，为不同业务需求下的检索增强生成方案选型提供清晰参考。

Gemini 3 全面测评

Gemini 3在数学推理、知识检索与多模态理解（图/视频）上表现顶尖，支持一键生成网站、测验、播客及自然图片编辑，研究与原型开发效率极高；但交互“情商”弱于GPT-5.1，编程生态不如Claude Sonnet 4.5成熟，API成本较高。

#Gemini#多模态#Deep Research

阅读全文

共 63 篇文章，第 1 / 7 页