Google 在 Gemini API 中引入文件搜索工具
Google 在 Gemini API 中上线全托管文件搜索工具,支持 PDF、DOCX、TXT、JSON 及多种代码文件,自动完成分块、嵌入、语义检索与引用生成;首次索引按每百万 token 0.15 美元计费,存储与查询免费,大幅降低 RAG 应用开发门槛。
AI 实测 Freepik Spaces 360° 视频生成工作流
实测 Freepik Spaces 360° 视频生成工作流:支持自由替换各节点模型,如用 GPT-5 mini 优化提示词生成,或切换至 Veo 3.1、Wan 2.2 等视频模型;但后者输出仍存明显瑕疵。操作简洁流畅,适合想快速尝试多模型组合的创作者。
AI 神器 30秒换装 狗子秒变机器人
Pixverse Remix上线单图驱动对象替换功能,上传一张图片即可在30秒内将视频中的狗等主体无缝替换成机器人等新形象,无需复杂操作,普通用户也能快速上手。
氛围编程 彻底解决中英文混排中的格式问题
专为中英文混排设计的格式修复工具,自动统一中英文标点、书名号、破折号与省略号,规范空格、数字单位及温度货币符号,智能跳过代码、链接与邮箱,并高亮所有修改便于审核。
如何构建 OWL——ChatGPT 浏览器 Atlas 背后的新架构
OpenAI 为 ChatGPT Atlas 浏览器自研新架构 OWL,将 Chromium 浏览器进程与主应用彻底分离,实现秒级启动、百标签流畅运行及崩溃隔离;通过 Mojo IPC 与 Swift/TS 绑定,支持 SwiftUI 原生 UI、智能体全屏渲染与安全事件转发。
Sora 2 任意角色客串功能
Sora 2 新增“Camel”客串功能,支持导入真实宠物或自定义虚构形象,并在长视频中稳定保持其外观与行为一致性,显著提升角色连贯性与个性化表达能力。
Google Veo 3.1 首尾帧动态展现罗马城的建造
Google Veo 3.1 用首尾帧生成技术,将罗马城跨越千年的建造历程浓缩为1分钟动态视频——从荒芜之地到永恒之城,直观展现城市空间与建筑形态的渐进演变,为历史可视化提供新可能。
如何通过 ElevenLabs 去除背景噪音
ElevenLabs 推出 Voice Isolator v1 语音隔离模型,可精准分离人声与背景噪音,效果堪比图像“AI 抠图”。适用于播客剪辑、会议录音降噪、视频配音等场景,大幅提升音频清晰度与后期效率。
Pika 创意总监讲述自己与 AI 的故事
Pika创意总监Matan Cohen-Grumi在TED演讲中,用5分钟展示如何借AI视频工具将亲身经历与虚构场景交织,重构个人叙事——技术不再只是辅助,而成为表达真实情感的新语言。