OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。
10 分钟搞定整套设计,AI 工作流的终极闭环
AI 设计智能体 Lovart 搭配 GPT Image 2 引擎,有效解决了 AI 营销素材风格不统一的痛点。该工具通过多轮追问明确需求后并行生成素材,确保品牌视觉高度一致。其支持可编辑图层修改及无限画布内静态图转视频,无需跨工具操作。相比传统流程,制作包含 7 个素材的广告活动耗时从近 3 小时缩短至 10 分钟,显著提升设计效率与工作流闭环能力。
Google 开源 Agent Executor:你的 AI Agent 终于不用每次断线就从头来了
Google 开源 Agent Executor(AX),专为生产环境长周期 Agent 设计的分布式运行环境。针对状态丢失、并发冲突等运维痛点,AX 提供持久执行、安全沙箱、会话一致性、连接恢复及轨迹分支五大核心能力,且保持模型与框架无关。配套项目 Agent Substrate 优化了 K8s 资源调度。该项目目前处于早期预览阶段,旨在填补 Agent 落地基础设施空白,建议用于技术预研而非直接投产。
前端开发者的 AI 入场券:LangChain.js 完全学习资源指南
LangChain.js 是 LangChain 的 JavaScript/TypeScript 实现,为前端开发者提供构建大语言模型应用的模块化工具。其核心概念包括 ChatModel(统一模型接口)、PromptTemplate(可复用模板)、Chain(链式调用)、Tool & Agent(外部能力调用与自主决策)、RAG(检索增强生成)和 Memory(对话记忆管理)。与 Python 版相比,LangChain.js 能与 Next.js、React 等前端技术栈无缝集成,支持边缘部署
Cursor 75% 代码已由 AI 生成,工程师正在变成 Agent 管理者
Cursor CEO Michael Truell 分享数据显示,2025 年初其 AI 代码工具中 Agent 请求已反超 Tab 补全,同比增长超 15 倍。企业客户代码中AI生成比例从一年前的 15%-20% 升至 75%,Cursor内部 30% 的 PR 完全由 Agent 端到端完成。Truell 将演进分为 Tab 补全、Agent 和 “团队时代” 三阶段,未来工程师角色将从写代码转向管理 Agent。内部实验中,Agent 团队一周内从零编写了三百万行代码的浏览器,虽未达实用阶段,但有助于探索全自主开发的边界。
14 天 50 万美元,AI 长片杀进戛纳的 28 个实战技巧
一个 15 人团队在 14 天内通过10.8万次生成,制作出一部90分钟的AI长片并入围戛纳影展。创作博主ADIL分享了制作过程,包括将影片从 110 分钟剪至 90 分钟、修复 40 个场景,并展示了三个典型问题场景的修复案例。他总结了28 个技巧,涵盖提示词、前期制作、团队协作和剪辑。关键技巧包括:情感场景需描述身体细微反应以消除“机器人感”.图像提示词应指定镜头焦距、光圈等参数,避免空泛描述。避免正面视角,使用四分之三或天花板角度。通过 X 轴 Y 轴百分比坐标系统精确控制角色位置。
Linear + Claude Code:给 AI 装上项目大脑
AI 技术博主 Alex Finn 提出利用免费工具 Linear 将 Claude Code 转化为自主智能体的工作流。该方案要求先将项目拆解为带优先级和验收标准的任务(Issue)录入 Linear,随后 AI 可自动领取任务、编写代码、执行测试并更新状态,全程无需人工干预。此模式有效解决了传统氛围编程中指令中断或偏离的问题,通过 Linear 作为“第二大脑”提供结构化上下文,显著提升产出质量。此外,该流程支持跨设备多智能体协同及 Git 分支管理,配合 Slack 通知实现高效团队协作。
Gemini 3.5 Flash 编码实测
Gemini 3.5 Flash 在 3D 飞机避障游戏代码生成能力上较 3.1 Pro 有明显提升,飞机模型更精致、新增粒子尾焰与地面光照投影,操控手感优化。但整体效果仍不及 GPT 5.5。
谷歌发布全新视频模型 Gemini Omni,视频编辑迎来质变
Google I/O 大会上,DeepMind 团队推出全新多模态视频模型 Gemini Omni,被视为视频领域的 “Nano Banana”。该模型从底层架构重新设计,支持图像、视频和音频混合输入,通过日常语言即可完成复杂视频编辑。其核心优势在于高可控性和时间维度感知,例如可让画面中的物体凭空消失或改变摄像机视角,同时保持背景与动作一致。用户仅需提供几张照片和一段语音,即可生成高度还原的个人虚拟分身。Omni 还展现出未经过专门训练的涌现能力,如自动同步视频与音乐节奏、根据剧情逻辑续写场景。