最新文章

第一时间掌握 AI 行业动态与实用干货，不错过每一条值得深读的好内容。

2026年6月14日

Kimi Work 上线：300 个子智能体在你的电脑上同时干活，个人 Agent 之战正式开打

6 月首周，月之暗面、微软、Google 及 Databricks 密集发布智能体产品，标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行，支持多智能体并行与浏览器接管；Microsoft Scout 定位永远在线的个人助理；Google 推出 24 小时信息追踪智能体；Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成，智能体将具备自主调度、任务拆解及持续运行能力。

可灵 3.0 原生 4K：AI 视频终于跨过了影视工业的最后一道门槛

可灵 AI 发布 Video 3.0 原生 4K 模式，支持 3840×2160 分辨率、60fps 及 16bit HDR，首次在多维度达到广播级交付标准。该模式区别于后期放大，细节真实度显著提升，并新增多镜头分镜与原生音频生成功能，大幅提高制作效率。尽管 4K 生成成本较高，但其在 ELO 测试中排名第一，标志着 AI 视频从娱乐工具迈向影视工业级生产设施，解决了商业交付难题。

电脑自己动起来了？Windows 版 Codex 迎来功能更新

Windows 版 Codex 新增计算机操控与移动端访问功能。AI 可直接接管电脑屏幕和光标，自动操作桌面软件及浏览器多标签页任务，简化繁琐工作流程。用户只需在设置中开启相关选项并添加设备即可使用。同时，该更新打通手机端，支持通过 iOS 或 Android 端 ChatGPT 应用扫码绑定，实现远程查看任务进度及发起新的电脑操控指令，大幅提升跨设备协作效率与自动化体验。

Runway 学院：视频如何一键转绿幕

Runway Aleph 2.0 模型通过提示词实现视频一键生成绿幕素材或干净背景，替代传统手动抠像。用户在 Edit Studio 上传视频后，利用提示词即可分离主体与背景，支持运动引导及二次合成创作。该 AI 工作流简化了复杂后期流程，显著提升视频编辑效率，推动专业后期技术平民化，适用于换景、特效添加及动画二创等多种场景。

DeepSWE 新基准测试为什么会爆火

新基准测试 DeepSWE 因杜绝数据污染且贴近真实开发场景而受关注。该测试采用全手写未公开任务，提示词简短但代码量大，有效检验模型自主理解与编码能力。测评显示 GPT 5.5 以 70% 得分领先，Opus 4.7 落后超 15 分且成本高出近三倍。测试还揭示了模型行为差异：Claude 易遗漏需求并检索历史答案，GPT 5.5 则严格遵循指令。DeepSWE 被认为更能反映大模型实际编程水平。

Claude Fable 5 实测

Claude Fable 5 发布，定位为 Mythos 降权公开版，核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文，在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制，高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token，6 月 22 日前对订阅用户免费，并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代，建议针对长任务场景进行实

#AI 模型#Claude Fable 5

Runway AI 短片《50 Crowns》

由 Runway 制作的游戏 CG 级短片《50 Crowns》讲述了赛博格赏金猎人古堡探险的恐怖悬疑故事。该视频完成度极高，由创作者在不到一周内独立完成。相比以往需团队协作数月的复杂过场动画制作流程，AI 技术显著提升了包含复杂场景、角色对话及动作打斗内容的生产效率，展现了个人创作者实现高质量影视级内容的全新可能。

能自主运行数天的神话级模型 Claude Fable 5 正式发布

Anthropic 发布最强模型 Claude Fable 5 并向公众开放。针对此前预览版存在的安全隐患，该模型引入安全路由机制，将高风险请求自动分流至 Opus 4.8 处理，在保障安全的同时释放通用能力。Fable 5 具备超高自主性，可连续数天独立处理金融、法律及科研等领域的复杂项目，无需人工干预。这种长周期、高自主性的任务处理能力，有望彻底改变现有工作流。

谷歌说 AI 不该假装确定：忠实不确定性如何终结幻觉困局

谷歌研究团队提出“忠实不确定性”框架，主张 AI 应诚实表达置信度而非盲目追求零错误，以解决大模型“自信错误”导致的幻觉问题。该研究指出传统降幻觉方法存在高昂“效用税”，建议将输出区分为自信错误与诚实猜测。这对 AI Agent 尤为关键，能优化元认知判断与工具调用效率。开发者可通过调整评估指标、提示词及路由策略落地应用，推动系统从可用迈向可靠。

#Google#智能体工程

阅读全文

共 1457 篇文章，第 3 / 162 页