代码 Agent 的上下文减肥药：SWE-Pruner 是怎么让模型少看多想的

针对代码 Agent 上下文昂贵且易迷失的痛点，SWE-Pruner 提出模仿人类“选择性略读”的策略。该方案通过任务目标引导剪枝，利用 0.6B 小模型动态筛选关键代码片段，而非依赖破坏语法的固定指标。实测显示，其在 SWE-Bench 等任务中 Token 消耗降低 23% 至 54%，成功率反而提升。这一思路为长代码处理提供了新方向，尤其适合需要本地部署或边缘计算的 Agent 落地场景。

发布于2026年5月5日 09:10

编辑零重力瓦力

评论0 条

阅读60

#上下文工程 #智能体

如今的代码 Agent 动不动就啃几万 Token 的上下文，既贵又慢还容易迷失。SWE-Pruner 认为，不如学学人类程序员“选择性略读”的方式。

怎么做的

论文来自arXiv（2601.16746v2），团队基于一个观察：人类调试代码时不会逐行阅读，而是带着任务目标去“扫”相关部分。比如修 bug 时只看错误处理和调用栈，找性能瓶颈时只看循环和数据库操作。

SWE-Pruner干了三件事

Agent 给自己定一个明确目标，比如“聚焦错误处理”或“关注并发逻辑”，这个目标会变成剪枝的提示。
训练了一个 0.6 B 的小模型（叫skimmer）来学习如何根据目标选择上下文。
在四个基准上测试，发现效果不错。在 SWE-Bench Verified 这类 Agent 任务上，Token 减少了 23% 到 54%，成功率反而还提升了。在单轮的长代码问答任务上，最高能压缩 14.84 倍。

为什么值得关注

之前业界做上下文压缩，主要靠困惑度（PPL）这类固定指标，问题是代码有结构，你不能把一个函数切成两半，或者漏掉一个关键的变量声明。PPL导向的压缩会破坏语法和逻辑结构，导致模型理解出错。

SWE-Pruner 的不同在于它是任务感知的。压缩什么、保留什么，是跟着当前任务目标走的。一个需要修 bug 的 Agent 和一个需要写测试的 Agent，会看到不同的上下文。

实用价值在哪儿

对于做 Agent 落地的人来说，这个思路意味着，与其抱怨模型上下文太短，不如让模型学会“看什么像什么”。

具体可以参考的方向有3个：

给 Agent设计 “目标设定”环节。在执行任务前让模型自己说“这次我关注什么”，这个信号可以被上游的压缩模块用到。
在代码检索场景里，把任务描述作为相关性判断的依据，而不是只靠语义相似度。
关注这个 0.6B 的小模型，小到可以本地跑，但能跟大模型配合，在一些边缘部署场景可能有用。

论文链接：https://arxiv.org/abs/2601.16746 Github：https://github.com/Ayanami1314/swe-pruner

AI 工程的 4 步进化：每一步都站在上一步肩上

AI 工程化演进并非替代而是叠加，包含四个关键维度：Prompt engineering 解决单次输出准确性；Context engineering 通过 RAG 等技术优化信息输入；Harness 赋予模型工具与环境以具备行动能力；Loop 则通过迭代验证提升多步执行稳定性。这四个阶段分别对应模型的表达、记忆、手脚与工程纪律，缺一不可。成熟的 AI 产品需同时整合这四层能力，当前行业仍在探索如何平衡 Loop 的自动化与人工验证机制。

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Semgrep 实验显示，开源模型 GLM 5.2 在无脚手架辅助下，IDOR 漏洞检测 F1 达 39%，超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可，编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利，低成本优势或改变安全审计部署策略。尽管结论受限于特定任务，但证实开源模型在安全领域已具备实战竞争力，值得纳入候选池测试。

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本，重写子智能体驱动开发（SDD）方法论，使 AI 编程代码产出速度提升约一倍，token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化，解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性，其核心原则可迁移至各类 AI 编程工作流中，有效提升开发效率与质量。

#智能体工程

阅读全文

互动讨论