#Gemini
Gemini File Search 支持图片了:多模态 RAG 从此不只是文本检索
5 月 5 日,Google Gemini API 的 File Search 新增多模态检索、元数据过滤及页码引用功能。核心在于引入原生多模态嵌入模型,支持直接对图片、图表进行语义搜索,无需依赖 OCR。该托管服务大幅降低自建 RAG 系统的开发门槛,适合需处理大量视觉资料的企业或开发者。不过需注意其暂不支持音视频格式,且一旦选定嵌入模型无法无缝升级。

Google 发布 Gemini Enterprise 智能体平台
Google 发布新版 Gemini Enterprise ,将其从聊天工具升级为面向大型企业的统一智能体平台。新平台整合了应用开发入口 Agent Platform 、员工使用入口及安全治理框架,支持开发者、 IT 团队和知识工作者构建、管理和治理跨工作流的 AI 智能体。平台整合 200 多个模型,提供低代码工具、多智能体系统及长时运行能力,并配备身份认证、注册与策略执行等完整安全机制。 Google 此举旨在解决企业 AI 碎片化问题,但平台越完整也意味着企业越容易被锁进生态。

8 个 Gemini 技巧,整理空间和生活
Google 发布 Gemini 家庭场景使用指南,涵盖清洁清单、杂物诊断、冰箱食材管理、维修指导、地图购物、植物护理及邮件整理等 8 大应用。 Gemini 正从聊天机器人转型为能看图、会对话、可联动 Gmail 、地图等服务的日常智能体,利用 Google 产品网络优势,将 AI 从办公场景推向水槽、冰箱等生活细节。其核心策略是通过高频琐碎的家务入口,让 AI 接手那些耗时却无人愿处理的小事。

Gemini Drops : 2026 年 4 月 Gemini 应用新更新
Google 在 Gemini Drops 第 10 期中推出多项更新,将 Gemini 从问答工具升级为深度嵌入工作流的 AI 入口。新增功能包括图像个性化、 Google 应用连接、项目管理工具 Notebooks 、 Mac 原生客户端、音乐创作 Lyria 3 Pro 及交互式可视化。核心方向是让 Gemini 更贴近用户的内容与任务处理场所,但个性化越深,数据边界与用户信任的挑战也越大。

十家领先企业揭示:智能体如何创造商业价值
Google Cloud 在 Next'26 大会上展示了智能体企业的最新实践。 10 家头部企业已将 AI 智能体嵌入测试、研发、采购、客服、制造、投研和安全响应等高价值流程,覆盖游戏、金融、零售、医药、制造、快消、旅游和通信等行业。这些案例表明,智能体正从“聊天机器人”进化为企业运营体系的核心组成部分。真正的竞争门槛不再是模型能力,而是数据数字化、基础设施稳定性和业务流程改造。企业级 AI 的评估口径已从“能力演示”转向“流程接管率”和“单位经济性”。

Gemini for Home 引入 Continued Conversation ,让聊天更自然高效
Google 为 Gemini for Home 推出“持续对话”功能,旨在解决智能家居语音交互中频繁唤醒、上下文丢失、误响应等体验短板。核心升级包括:支持对话上下文记忆、多语言覆盖、智能区分闲聊与指令,以及全屋用户共享使用。该功能让语音助手从一问一答模式向自然连续交流演进。分析认为, AI 进家门后竞争焦点已转向“打断更少、理解更准、接话更自然”的交互体验,家庭场景对 AI 的要求苛刻,真正做好连续对话和“少打扰”才能确立智能家居入口的主动权。

Deep Research Max :自主研究智能体的重大飞跃
Google 发布 Deep Research Max 研究智能体,基于 Gemini 3.1 Pro 构建,核心突破在于从“搜索总结工具”升级为可控、可编排的企业级研究流程。支持 MCP 接入私有数据源、多模态输入与原生图表生成,可同时调用搜索、 MCP 服务器、代码执行等完整工具链。系统还能在执行前预览修改研究计划,灵活调整调查范围。与 FactSet 、 S&P Global 等金融数据服务商合作,将专业研究做成稳定的后台基础设施,实现从“聊天机器人加搜索框”到企业级生产系统的转变。

Google 转变策略,直接封禁不良广告
2025 年 Google 屏蔽广告数量破纪录达 83 亿条,但暂停账户数却未相应增长。 Google 将此归因于 Gemini 模型等 AI 技术的深度应用,使超过 99%的问题广告在展示前即被拦截。这一转变体现了平台从“粗放暂停账户”转向“精准前置拦截”的执法策略,错误暂停同比减少 80%。生成式 AI 被诈骗者大规模滥用促使 Google 强化 AI 检测能力,通过分层防御体系从源头阻止不良行为者创建账户。

Google 测试 Gemini 桌面版屏幕共享 Live Mode
Google 发布 macOS 版原生 Gemini 桌面应用,采用 Swift 语言独立构建,短时间内完成超百项功能特性。开发者发现应用内置尚未激活的 Gemini Live 语音模式和屏幕共享功能,相关设置已就绪,球形悬浮界面清晰可见。 Google 将桌面端定位为“真正具备个性化、主动性的强大助手”,暗示未来数月内将有更多功能发布。随着 Google I/O 2026 大会临近,具备实时语音交互和屏幕共享能力的桌面 Live Mode 将成为其跨平台 AI 战略的重要落子。