NVIDIA 开源 Nemotron 3 Nano Omni:一个模型通吃视频音频文字
NVIDIA 开源 Nemotron 3 Nano Omni,以 30B 总参数、3B 激活的混合专家架构,实现视频、音频与文字的统一处理。该模型通过 Mamba 与 Transformer 结合及高效视频采样技术,将多模态推理吞吐量提升最高 9 倍,显著降低延迟与显存占用。相比传统三模型拼接方案,它更适合构建高并发 AI Agent,支持本地消费级显卡运行,已在文档智能、客服等场景验证实际价值。
NVIDIA 给 ComfyUI 装了三把刀:拆层、擦除、转3D,本地一条龙搞定
NVIDIA 开源 GenAI Creator Toolkit,为 ComfyUI 提供三个核心本地工作流:一键图像分层、精准物体擦除及照片转 3D 模型。该工具利用深度估计与生成式 AI 技术,解决商业设计中抠图繁琐、修图不自然及 3D 建模门槛高的问题。支持 RTX 显卡在本地运行,保障数据安全,适用于需要高效处理视觉素材的设计师、视频师及 3D 美术人员,标志着 ComfyUI 向通用创作执行器的关键转变。
2026 年 AI 视频工具怎么选:Seedance 2.0 凭什么让我把其他都放下了
字节跳动 Seedance 2.0 凭借多镜头叙事能力脱颖而出,在角色一致性、场景转换及四模态输入上实现突破。实测显示其可用产出率达 90%,远超行业平均,且支持无水印输出与自动音频生成。尽管长片段连贯性仍有局限,但作为目前唯一能完整讲故事的 AI 视频模型,它已成为专业创作者的核心选择。
Gemini File Search 支持图片了:多模态 RAG 从此不只是文本检索
5 月 5 日,Google Gemini API 的 File Search 新增多模态检索、元数据过滤及页码引用功能。核心在于引入原生多模态嵌入模型,支持直接对图片、图表进行语义搜索,无需依赖 OCR。该托管服务大幅降低自建 RAG 系统的开发门槛,适合需处理大量视觉资料的企业或开发者。不过需注意其暂不支持音视频格式,且一旦选定嵌入模型无法无缝升级。
用 Agent 搭建 n8n 工作流,告别手动拖拽时代
n8n 推出全新 MCP 支持,允许 AI 智能体直接创建和编辑工作流,彻底告别手动编写 JSON。团队为此专门设计了新语法与 SDK,实现 schema 验证、数据表构建及流程测试。该功能兼容 Claude Code、Cursor 等主流编程助手,不绑定特定模型,所有用户升级至 2.18.3 版本即可免费使用。这标志着连工作流搭建本身正逐步被智能体替代,为复杂自动化流程的生成带来新可能。

最佳 AI 语音转文字应用实测排行
AI 语音输入应用已从“识别准确”转向多维度竞争。主流产品各具特色:本地隐私型( Monologue 、 VoiceTypr )、工作流整合型( Wispr Flow )、低价买断型( VoiceInk 、 Dicatto )等。竞争焦点已不限于识别率,而是隐私保护、场景适配和“写作起点”的争夺。谁更懂用户在不同场景的表达意图,谁就能占据内容生产流程的先机。

认识 Noscroll :替你刷负面新闻的 AI 智能体
新创公司 Noscroll 推出 AI 智能体服务,通过短信替你追踪 X 、 Reddit 等平台信息流,过滤噪声后仅推送重要内容。由 OpenSea 前 CTO 创办,灵感源于对信息平台上瘾又不想错过的矛盾体验。用户可定制信源、定时收摘要、突发新闻即时通知。订阅每月 9.99 美元。它将大模型从被动问答变为主动代理,用短信这一低门槛渠道,帮用户把无尽下滑的 feed 压缩成几行文字。

AI Overviews 即将登陆你的工作 Gmail
Google 在 Cloud Next 大会上将 AI Overviews 引入 Gmail ,用户可用自然语言提问获取邮件摘要。系统从多封邮件中提取内容,生成即时答案,适用于绩效、项目进度、发票等业务信息场景。此功能此前仅面向消费者,现扩展至商业、企业和教育版 Workspace 。分析认为, Google 正将 Workspace 从办公软件转向“答案分发系统”,搜索不再只是检索,开始承担理解、归纳和裁决的角色。

Google Maps 即将迎来 AI 功能大升级
谷歌在 Cloud Next 大会上发布企业级生成式 AI 地图功能,包括 Maps Imagery Grounding (用 AI 生成 Street View 场景)、 Aerial and Satellite Insights ( BigQuery 影像分析)和 Earth AI Imagery 模型(自动识别道路、桥梁等对象)。这些更新将地理空间数据、生成式 AI 与企业分析工具深度整合,旨在把 Google Maps 从展示工具升级为具备空间语义的企业智能平台,大幅降低企业开发门槛。