可灵 3.0 原生 4K:AI 视频终于跨过了影视工业的最后一道门槛
可灵 AI 发布 Video 3.0 原生 4K 模式,支持 3840×2160 分辨率、60fps 及 16bit HDR,首次在多维度达到广播级交付标准。该模式区别于后期放大,细节真实度显著提升,并新增多镜头分镜与原生音频生成功能,大幅提高制作效率。尽管 4K 生成成本较高,但其在 ELO 测试中排名第一,标志着 AI 视频从娱乐工具迈向影视工业级生产设施,解决了商业交付难题。
电脑自己动起来了?Windows 版 Codex 迎来功能更新
Windows 版 Codex 新增计算机操控与移动端访问功能。AI 可直接接管电脑屏幕和光标,自动操作桌面软件及浏览器多标签页任务,简化繁琐工作流程。用户只需在设置中开启相关选项并添加设备即可使用。同时,该更新打通手机端,支持通过 iOS 或 Android 端 ChatGPT 应用扫码绑定,实现远程查看任务进度及发起新的电脑操控指令,大幅提升跨设备协作效率与自动化体验。
Runway 学院:视频如何一键转绿幕
Runway Aleph 2.0 模型通过提示词实现视频一键生成绿幕素材或干净背景,替代传统手动抠像。用户在 Edit Studio 上传视频后,利用提示词即可分离主体与背景,支持运动引导及二次合成创作。该 AI 工作流简化了复杂后期流程,显著提升视频编辑效率,推动专业后期技术平民化,适用于换景、特效添加及动画二创等多种场景。
DeepSWE 新基准测试为什么会爆火
新基准测试 DeepSWE 因杜绝数据污染且贴近真实开发场景而受关注。该测试采用全手写未公开任务,提示词简短但代码量大,有效检验模型自主理解与编码能力。测评显示 GPT 5.5 以 70% 得分领先,Opus 4.7 落后超 15 分且成本高出近三倍。测试还揭示了模型行为差异:Claude 易遗漏需求并检索历史答案,GPT 5.5 则严格遵循指令。DeepSWE 被认为更能反映大模型实际编程水平。
Claude Fable 5 实测
Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实
Runway AI 短片《50 Crowns》
由 Runway 制作的游戏 CG 级短片《50 Crowns》讲述了赛博格赏金猎人古堡探险的恐怖悬疑故事。该视频完成度极高,由创作者在不到一周内独立完成。相比以往需团队协作数月的复杂过场动画制作流程,AI 技术显著提升了包含复杂场景、角色对话及动作打斗内容的生产效率,展现了个人创作者实现高质量影视级内容的全新可能。
能自主运行数天的神话级模型 Claude Fable 5 正式发布
Anthropic 发布最强模型 Claude Fable 5 并向公众开放。针对此前预览版存在的安全隐患,该模型引入安全路由机制,将高风险请求自动分流至 Opus 4.8 处理,在保障安全的同时释放通用能力。Fable 5 具备超高自主性,可连续数天独立处理金融、法律及科研等领域的复杂项目,无需人工干预。这种长周期、高自主性的任务处理能力,有望彻底改变现有工作流。
谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局
谷歌研究团队提出“忠实不确定性”框架,主张 AI 应诚实表达置信度而非盲目追求零错误,以解决大模型“自信错误”导致的幻觉问题。该研究指出传统降幻觉方法存在高昂“效用税”,建议将输出区分为自信错误与诚实猜测。这对 AI Agent 尤为关键,能优化元认知判断与工具调用效率。开发者可通过调整评估指标、提示词及路由策略落地应用,推动系统从可用迈向可靠。
ComfyUI 不想只做极客玩具了
ComfyUI 正从极客工具转型为大众化 AI 绘画平台。通过 App Mode 简化操作界面、可分享链接降低传播门槛及 ComfyHub 构建分发社区,实现工作流的消费级封装。同时,ComfyUI-R1 推理模型能以自然语言自动生成高质量工作流,补齐生产端短板。两者结合形成“生成-封装-分发”生态闭环,在保留高自由度优势的同时大幅降低入门成本,有望凭借深厚的工作流生态构建长期竞争壁垒。