OpenAI 如何应对提示词注入的安全挑战
提示词注入正成为AI智能体时代的关键安全威胁——攻击者借网页、邮件等第三方内容暗藏恶意指令,诱骗AI越权操作。OpenAI通过安全训练、AI监控、沙箱隔离、红队测试与漏洞赏金等多层防御应对,同时强调用户需审慎授权、明确指令并实时监督智能体行为。
AI 实测 Freepik Spaces 360° 视频生成工作流
实测 Freepik Spaces 360° 视频生成工作流:支持自由替换各节点模型,如用 GPT-5 mini 优化提示词生成,或切换至 Veo 3.1、Wan 2.2 等视频模型;但后者输出仍存明显瑕疵。操作简洁流畅,适合想快速尝试多模型组合的创作者。
氛围编程 彻底解决中英文混排中的格式问题
专为中英文混排设计的格式修复工具,自动统一中英文标点、书名号、破折号与省略号,规范空格、数字单位及温度货币符号,智能跳过代码、链接与邮箱,并高亮所有修改便于审核。
如何构建 OWL——ChatGPT 浏览器 Atlas 背后的新架构
OpenAI 为 ChatGPT Atlas 浏览器自研新架构 OWL,将 Chromium 浏览器进程与主应用彻底分离,实现秒级启动、百标签流畅运行及崩溃隔离;通过 Mojo IPC 与 Swift/TS 绑定,支持 SwiftUI 原生 UI、智能体全屏渲染与安全事件转发。
Google AI Studio 内置 Vibe Coding 工具
Google AI Studio 新增 Vibe Coding 工具,支持用自然语言 Prompt 零代码调用 Nano Banana 和 Gemini API,快速搭建轻量应用(如壁纸生成器),全程免费,适合初学者体验与学习提示工程和模型应用。
Anthropic 推出 网页版 Claude Code
Anthropic 推出网页版 Claude Code(Beta),支持浏览器内并行处理多编码任务,运行于隔离沙盒环境;可直连 GitHub 自动创建 PR 并生成变更摘要。同步上线 iOS 版,目前仅限 Pro 与 Max 用户试用。
能够有效避免 LLM 产生幻觉的智能体框架 Parlant
Parlant 是一款专为抑制大模型幻觉设计的智能体框架,提出注意力推理查询(ARQ)方法:通过 JSON 结构化模板强制模型在每步推理中回答规则约束、历史操作、工具调用等关键问题,使长对话中的规则遵循率提升至 90.2%,显著优于思维链,在复杂流程与多轮交互中更稳定可靠。
DeepSeek 发布了一款超强的开源 OCR 模型:DeepSeek-OCR
DeepSeek 开源 OCR 模型 DeepSeek-OCR 提出“文本渲染为图”新范式,用自研视觉编码器将长文档高压缩为少量视觉 Token,10 倍压缩下还原精度达 97%;支持多语言、复杂版式与图表识别,端到端输出 Markdown/HTML,兼具高效推理与泛视觉理解能力。
Google Veo 3.1 新功能及亮点介绍
Google Veo 3.1 新增视频编辑能力,支持在原视频中增删物体;推出“配料表”功能,可融合最多3张图片生成连贯视频;延长视频时能一致保持人物、画面、音效、背景音乐及人声对白;还支持首尾帧控制。目前仅限Google Flow平台使用,Gemini暂未开放。