#Gemini

Google 转变策略,直接封禁不良广告
2025 年 Google 屏蔽广告数量破纪录达 83 亿条,但暂停账户数却未相应增长。 Google 将此归因于 Gemini 模型等 AI 技术的深度应用,使超过 99%的问题广告在展示前即被拦截。这一转变体现了平台从“粗放暂停账户”转向“精准前置拦截”的执法策略,错误暂停同比减少 80%。生成式 AI 被诈骗者大规模滥用促使 Google 强化 AI 检测能力,通过分层防御体系从源头阻止不良行为者创建账户。

Google 测试 Gemini 桌面版屏幕共享 Live Mode
Google 发布 macOS 版原生 Gemini 桌面应用,采用 Swift 语言独立构建,短时间内完成超百项功能特性。开发者发现应用内置尚未激活的 Gemini Live 语音模式和屏幕共享功能,相关设置已就绪,球形悬浮界面清晰可见。 Google 将桌面端定位为“真正具备个性化、主动性的强大助手”,暗示未来数月内将有更多功能发布。随着 Google I/O 2026 大会临近,具备实时语音交互和屏幕共享能力的桌面 Live Mode 将成为其跨平台 AI 战略的重要落子。

Google 在 Gemini 中测试智能体购物原生结账
Google 正为 Gemini 测试内置购物车功能,计划打造集商品浏览、购买、自动化任务于一体的 AI 商业入口。该功能基于年初发布的“通用商务协议”,可支持用户在 Target 、 Gap 等平台直接结账。结合 Chrome 端 Gemini Skills 和智能体浏览功能, Gemini 有望成为一站式 AI 应用,与 ChatGPT 、 Copilot 等展开正面竞争。预计将在 5 月 Google I/O 大会上正式亮相。

Google 为 Mac 推出原生 Gemini 应用
Google 本周发布 macOS 原生 Gemini 应用,通过快捷键唤起、屏幕共享分析及多模态生成等功能,追赶 OpenAI 与 Anthropic 的桌面端布局。该应用将 AI 从“需要主动打开的工具”转变为“随时待命的协作者”,有望成为桌面端 AI 应用的新标准形态,现已向全球用户开放下载。

Gemini 3.1 Flash TTS :下一代富有表现力的 AI 语音技术
Google 发布 Gemini 3.1 Flash TTS 语音合成技术,实现可控制性、表现力和音质三维升级。该模型在 Artificial Analysis 评测中位列“最具吸引力象限”,支持 70 多种语言和多说话人对话。其核心创新的音频标签( Audio Tags )功能可将自然语言指令嵌入文本,实现精细化语音风格控制,降低了专业音频制作门槛,标志着语音合成从“能说”向“会说”的关键跃迁。所有生成音频均嵌入 SynthID 水印,可靠识别 AI 生成内容,对有声内容创作、虚拟助手、游戏配音等场景具有实用价值。

Google DeepMind 发布 Gemini Robotics-ER 1.6
Google DeepMind 发布 Gemini Robotics-ER 1.6 推理模型,强化机器人的空间感知和物理推理能力。该版本与 Boston Dynamics 合作开发,支持解读模拟仪器读数,可通过 API 集成使用,在精准指向和物理任务检测方面优于前代。这标志着大语言模型正从“理解指令”向“落地执行”迈进,物理智能体有望从实验室走向更广泛的工业应用场景。

Gemini Robotics-ER 1.6 :通过增强具身推理赋能现实世界机器人任务
Google DeepMind 正式推出 Gemini Robotics 系列模型,标志着这家科技巨头在具身智能领域迈出关键一步。该模型延续 Gemini 家族在多模态理解和推理方面的优势,旨在解决具身智能的两大瓶颈:复杂环境泛化能力和长周期任务连贯性。 Google 意在抢占行业标准制定者位置,其优势在于成熟的多模态研发体系、充足算力及 Android 生态的边缘部署经验。真正的悬念在于开发者社区能否基于此模型推出超越实验室 demo 的实用应用。

一文了解 Google Chrome 的 AI 驱动‘Skills’功能
Google Chrome 推出“Skills”功能,提供 50 余个 AI 指令模板,支持视频总结、食谱优化等场景,并通过快捷键实现可重复执行。该功能标志着浏览器从问答工具向“操作型代理”转型,降低用户操作成本,提升工作流效率。用户亦可基于 Gemini 创建自定义 Skills ,形成个性化 AI 工作流。

Google Chrome AI 技能上线,帮你保存常用工作流
Google 在 Chrome 中推出“Skills”功能,允许用户将常用 AI 提示词保存为可复用模板,通过斜杠或加号按钮在任意网页一键调用。该功能基于 Gemini 扩展,覆盖食谱查询、购物比价、长文档摘要等高频场景,并同步上线预设模板库。目前面向桌面端 Chrome 用户开放,需登录 Google 账号且语言设置为英语(美国)。