资讯标签

#Gemini

2026年4月27日

Deep Research Max ：自主研究智能体的重大飞跃

Google 发布 Deep Research Max 研究智能体，基于 Gemini 3.1 Pro 构建，核心突破在于从“搜索总结工具”升级为可控、可编排的企业级研究流程。支持 MCP 接入私有数据源、多模态输入与原生图表生成，可同时调用搜索、 MCP 服务器、代码执行等完整工具链。系统还能在执行前预览修改研究计划，灵活调整调查范围。与 FactSet 、 S&P Global 等金融数据服务商合作，将专业研究做成稳定的后台基础设施，实现从“聊天机器人加搜索框”到企业级生产系统的转变。

Google 转变策略，直接封禁不良广告

2025 年 Google 屏蔽广告数量破纪录达 83 亿条，但暂停账户数却未相应增长。 Google 将此归因于 Gemini 模型等 AI 技术的深度应用，使超过 99%的问题广告在展示前即被拦截。这一转变体现了平台从“粗放暂停账户”转向“精准前置拦截”的执法策略，错误暂停同比减少 80%。生成式 AI 被诈骗者大规模滥用促使 Google 强化 AI 检测能力，通过分层防御体系从源头阻止不良行为者创建账户。

Google 测试 Gemini 桌面版屏幕共享 Live Mode

Google 发布 macOS 版原生 Gemini 桌面应用，采用 Swift 语言独立构建，短时间内完成超百项功能特性。开发者发现应用内置尚未激活的 Gemini Live 语音模式和屏幕共享功能，相关设置已就绪，球形悬浮界面清晰可见。 Google 将桌面端定位为“真正具备个性化、主动性的强大助手”，暗示未来数月内将有更多功能发布。随着 Google I/O 2026 大会临近，具备实时语音交互和屏幕共享能力的桌面 Live Mode 将成为其跨平台 AI 战略的重要落子。

Google 在 Gemini 中测试智能体购物原生结账

Google 正为 Gemini 测试内置购物车功能，计划打造集商品浏览、购买、自动化任务于一体的 AI 商业入口。该功能基于年初发布的“通用商务协议”，可支持用户在 Target 、 Gap 等平台直接结账。结合 Chrome 端 Gemini Skills 和智能体浏览功能， Gemini 有望成为一站式 AI 应用，与 ChatGPT 、 Copilot 等展开正面竞争。预计将在 5 月 Google I/O 大会上正式亮相。

Google 为 Mac 推出原生 Gemini 应用

Google 本周发布 macOS 原生 Gemini 应用，通过快捷键唤起、屏幕共享分析及多模态生成等功能，追赶 OpenAI 与 Anthropic 的桌面端布局。该应用将 AI 从“需要主动打开的工具”转变为“随时待命的协作者”，有望成为桌面端 AI 应用的新标准形态，现已向全球用户开放下载。

Gemini 3.1 Flash TTS ：下一代富有表现力的 AI 语音技术

Google 发布 Gemini 3.1 Flash TTS 语音合成技术，实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”，支持 70 多种语言和多说话人对话。其核心创新的音频标签（ Audio Tags ）功能可将自然语言指令嵌入文本，实现精细化语音风格控制，降低了专业音频制作门槛，标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印，可靠识别 AI 生成内容，对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

Google DeepMind 发布 Gemini Robotics-ER 1.6

Google DeepMind 发布 Gemini Robotics-ER 1.6 推理模型，强化机器人的空间感知和物理推理能力。该版本与 Boston Dynamics 合作开发，支持解读模拟仪器读数，可通过 API 集成使用，在精准指向和物理任务检测方面优于前代。这标志着大语言模型正从“理解指令”向“落地执行”迈进，物理智能体有望从实验室走向更广泛的工业应用场景。

Gemini Robotics-ER 1.6 ：通过增强具身推理赋能现实世界机器人任务

Google DeepMind 正式推出 Gemini Robotics 系列模型，标志着这家科技巨头在具身智能领域迈出关键一步。该模型延续 Gemini 家族在多模态理解和推理方面的优势，旨在解决具身智能的两大瓶颈：复杂环境泛化能力和长周期任务连贯性。 Google 意在抢占行业标准制定者位置，其优势在于成熟的多模态研发体系、充足算力及 Android 生态的边缘部署经验。真正的悬念在于开发者社区能否基于此模型推出超越实验室 demo 的实用应用。

一文了解 Google Chrome 的 AI 驱动‘Skills’功能

Google Chrome 推出“Skills”功能，提供 50 余个 AI 指令模板，支持视频总结、食谱优化等场景，并通过快捷键实现可重复执行。该功能标志着浏览器从问答工具向“操作型代理”转型，降低用户操作成本，提升工作流效率。用户亦可基于 Gemini 创建自定义 Skills ，形成个性化 AI 工作流。

#Google#Gemini#提示词工程

阅读全文

共 80 篇文章，第 2 / 9 页