Google 智能体白皮书
Google发布智能体白皮书,指出AI正从被动响应问答、翻译等离散任务,转向具备自主规划与执行能力的智能体范式。这类智能体是融合语言模型推理力与工具调用能力的完整应用,可不依赖人工干预,完成多步骤复杂任务。
Nano Banana 2 图像生成能力抢先体验
Nano Banana 2 将于11月11日发布,支持2K原生输出与多种纵横比,采用多步生成+自我纠错机制,在色彩控制、视角调整和文本修正上显著突破;当前预览版基于Gemini 2.5 Flash,代号GEMPIX 2,精度与稳定性提升三倍,或更名“Nano Banana Pro”。
Google 在 Gemini API 中引入文件搜索工具
Google 在 Gemini API 中上线全托管文件搜索工具,支持 PDF、DOCX、TXT、JSON 及多种代码文件,自动完成分块、嵌入、语义检索与引用生成;首次索引按每百万 token 0.15 美元计费,存储与查询免费,大幅降低 RAG 应用开发门槛。
Google Veo 3.1 制作的科幻短片
AI创作者Dave Clark用Google最新Veo 3.1生成科幻短片,画面质感、运镜逻辑与叙事连贯性明显提升,细节表现和电影感增强,展现当前AI视频生成向专业影视创作迈进的新进展。
Google 的 Gemma AI 模型帮助发现新的潜在癌症治疗途径
Google基于Gemma构建的270亿参数单细胞模型C2S-Scale 27B,发现CK2抑制剂西米他塞替可在低干扰素环境下特异性增强肿瘤抗原呈递,使“冷”肿瘤变“热”,该预测已在体外实验中验证有效,为癌症免疫联合疗法提供新线索。
Google Veo 3.1 新功能及亮点介绍
Google Veo 3.1 新增视频编辑能力,支持在原视频中增删物体;推出“配料表”功能,可融合最多3张图片生成连贯视频;延长视频时能一致保持人物、画面、音效、背景音乐及人声对白;还支持首尾帧控制。目前仅限Google Flow平台使用,Gemini暂未开放。
Google Speech-to-Retrieval(S2R):语音搜索的新方法
谷歌推出Speech-to-Retrieval(S2R)语音搜索新范式,跳过ASR文本转录环节,直接从语音映射检索意图,显著提升多语言场景下的准确率与鲁棒性;已实际部署,并开源SVQ数据集推动业界发展。
Google 无代码 AI 迷你应用构建器 Opal 将服务扩展至 15 个国家
Google 无代码AI迷你应用构建器Opal正式登陆加拿大、印度、日本等15国,并升级工作流调试能力——支持可视化分步执行与精准报错定位;同时优化底层性能,显著提升启动速度并支持多步骤并行运行,助力用户高效构建复杂AI应用。
Google 推出 Android 本地模型运行神器:AI Edge Gallery
Google 推出实验性应用 AI Edge Gallery,支持在 Android 设备本地离线运行 Gemma 等生成式 AI 模型。无需联网即可实现图片问答、多轮对话、提示词实验,并可实时对比不同模型性能,还支持自定义 LiteRT 模型测试与 Hugging Face 一键集成。