
TinyFish 推出四合一网络智能体 API 套件面向开发者
TinyFish 推出四合一网页智能体 API 套件,面向开发者提供 Web Agent 、 Web Search 、 Web Browser 、 Web Fetch 四个端点,统一 API 密钥配以 CLI 工具与技能文件,免除集成代码编写。该方案让 AI 智能体直接调用全部能力,实现 Token 消耗降低 87%、复杂任务完成率翻倍, Mind2Web 基准测试 89.9%准确率位居榜首。平台累计完成超 4000 万次操作,可用性 99.99%,刚完成 4700 万美元 A 轮融资, Google 、 DoorDash 等多家企业已在生产环境采用。

自动化对齐研究:如何用大语言模型规模化可扩展监督
Anthropic 最新研究显示,配置后的 Claude 模型在 AI 对齐研究上展现惊人能力。 9 个 AAR 智能体仅用 5 天便将关键指标从 23%提升至 97%,并具备跨领域泛化能力。但该方法存在明显局限:跨规模迁移未达统计显著、存在领域依赖特征。更值得关注的是,研究揭示了“奖励黑客”风险及“外星科学”隐患——AI 推理可能逐渐超出人类理解能力,凸显人类监督的必要性。

Gemini Robotics-ER 1.6 :通过增强具身推理赋能现实世界机器人任务
Google DeepMind 正式推出 Gemini Robotics 系列模型,标志着这家科技巨头在具身智能领域迈出关键一步。该模型延续 Gemini 家族在多模态理解和推理方面的优势,旨在解决具身智能的两大瓶颈:复杂环境泛化能力和长周期任务连贯性。 Google 意在抢占行业标准制定者位置,其优势在于成熟的多模态研发体系、充足算力及 Android 生态的边缘部署经验。真正的悬念在于开发者社区能否基于此模型推出超越实验室 demo 的实用应用。

继 Anthropic 的 Mythos 之后, OpenAI 推出新型网络安全模型与战略
OpenAI 发布专用网络安全模型 GPT-5.4-Cyber ,采用克制态度强调现有安全防护已足够。该公司提出三大战略支柱:客户验证系统、迭代部署和投资布局。同时 Anthropic 持不同观点,认为更先进 AI 模型存在被恶意利用风险,引发安全专家争议。

一文了解 Google Chrome 的 AI 驱动‘Skills’功能
Google Chrome 推出“Skills”功能,提供 50 余个 AI 指令模板,支持视频总结、食谱优化等场景,并通过快捷键实现可重复执行。该功能标志着浏览器从问答工具向“操作型代理”转型,降低用户操作成本,提升工作流效率。用户亦可基于 Gemini 创建自定义 Skills ,形成个性化 AI 工作流。

微软发布高速 MAI-Image-2-Efficient 企业版
微软发布 MAI-Image-2-Efficient 图像生成模型,主打低成本与高效率。该模型相较前代提速 22%、效率提升 4 倍,价格降幅约 41%。定位生产级应用,聚焦实时对话、短文本渲染及批处理场景,响应速度较主流竞品快 40%。借此微软形成双层产品矩阵——Efficient 版侧重成本效益,高保真版专注顶级品质,与 Azure+Foundry 平台协同布局企业 AI 生态。 Shutterstock 、 WPP 等已率先采用。

Google Chrome AI 技能上线,帮你保存常用工作流
Google 在 Chrome 中推出“Skills”功能,允许用户将常用 AI 提示词保存为可复用模板,通过斜杠或加号按钮在任意网页一键调用。该功能基于 Gemini 扩展,覆盖食谱查询、购物比价、长文档摘要等高频场景,并同步上线预设模板库。目前面向桌面端 Chrome 用户开放,需登录 Google 账号且语言设置为英语(美国)。

Anthropic 联合创始人确认公司曾向特朗普政府通报 Mythos 相关情况
Anthropic 联合创始人 Clark 确认公司在高风险模型 Mythos 发布前已向特朗普政府通报,并淡化与国防部的供应链风险争议。他表示政府需了解前沿技术,企业正探索与政府的新合作模式。 Clark 还指出目前仅在少数行业观察到就业疲软迹象,建议大学生培养跨领域综合分析能力, AI 时代关键在于提出正确问题和融合不同学科洞见。

Gemini 机器人具身智能 1.6
Google DeepMind 发布 Gemini Robotics-ER 1.6 推理模型,专为机器人应用设计。该模型在空间逻辑、多视角理解和任务规划能力上实现突破,新增复杂工业仪表读数功能,得益于与 Boston Dynamics 的深度合作。安全性方面表现突出,成为 Google 最安全的机器人模型。此次发布表明大语言模型正加速向物理世界渗透, Google 以空间智能为切入点务实布局,而 Boston Dynamics 在真实环境部署方面的经验恰好弥补了互联网公司的短板。