#多模态
【AI工具】不是语言模型,也不是图像模型,Luma 的 UNI-1 到底是什么
Luma 推出 UNI-1,一种突破性多模态推理模型:它并非语言或图像模型的拼接,而是将世界理解与图像生成统一于单次前向推理中,实现“先看懂、再画出”。架构上尝试融合逻辑推理与视觉想象,被称作“左右脑合一”,或预示AI建模范式的转向。
【AI工具】ElevenLabs 发布 Flows,一站式广告创作平台能颠覆营销行业吗?
ElevenLabs推出Flows——基于画布的多模态广告创作平台,整合图像、视频、语音、音效与音乐生成,支持Veo、可灵、Nano Banana等模型及真人配音库;内置商用授权Eleven Music,可一键生成70+语言版本,宣称一天完成香水广告全流程,为出海团队大幅降本提效。
【AI工具】Luma 推出统一智能模型 Uni-1
Luma 推出统一智能模型 Uni-1,首次实现单模型跨模态理解与生成,支持文本、代码、长视频、语音、音频,并在一次前向传播中同步完成语言推理与视觉生成,具备计算、逻辑推演与审美判断能力,推动AI从“提示词驱动”迈向“意图理解型”创作伙伴。
“孕育” 另一个自己,Pika 推出重磅新功能:AI 分身
Pika 推出“AI 分身”,非工具型助手,而是基于你性格、声音、记忆与形象构建的持久化数字生命体;可跨 Slack、WhatsApp、Discord 等平台多模态交互,代回复、创作、跨语言沟通;形象自由定制,数据隐私受保障,内容版权归属用户。
Gemini 3.1 Pro 鸟群舞模拟
Google DeepMind 用 Gemini 3.1 Pro 实现可交互的 3D 鸟群模拟:支持手部追踪实时扰动群体、生成式音乐随密度与速度动态响应,并开放调节行为权重、规模等参数,为研究群体智能与多模态反馈提供轻量、直观的实验界面。
从零到110亿美元:ElevenLabs的故事
从波兰少年对外语配音的观察出发,Mati 和 Peter 2021 年以周末项目启动 ElevenLabs,坚持“研究即产品”,用真实用户反馈驱动音频模型迭代;三年内打造高情感、高保真语音技术,迈向统一音频理解,并成为估值110亿美元的AI独角兽。
在手机高效跑模型的神器:Nexa AI
Nexa AI 是一款移动端本地模型推理引擎,支持 Android/iOS 及 NPU/GPU/CPU 多硬件加速,在手机端实现低功耗、高效率的语音转写、图像识别与图文音多模态搜索;SDK 简洁,几行代码即可集成。
16 种检索增强生成(RAG)类型
本文系统梳理16种RAG变体,从标准、智能体式到图谱、多模态、联邦、流式等,覆盖关键特性、适用场景与主流工具,为不同业务需求下的检索增强生成方案选型提供清晰参考。
Gemini 3 全面测评
Gemini 3在数学推理、知识检索与多模态理解(图/视频)上表现顶尖,支持一键生成网站、测验、播客及自然图片编辑,研究与原型开发效率极高;但交互“情商”弱于GPT-5.1,编程生态不如Claude Sonnet 4.5成熟,API成本较高。