代码 Agent 的上下文减肥药:SWE-Pruner 是怎么让模型少看多想的

针对代码 Agent 上下文昂贵且易迷失的痛点,SWE-Pruner 提出模仿人类“选择性略读”的策略。该方案通过任务目标引导剪枝,利用 0.6B 小模型动态筛选关键代码片段,而非依赖破坏语法的固定指标。实测显示,其在 SWE-Bench 等任务中 Token 消耗降低 23% 至 54%,成功率反而提升。这一思路为长代码处理提供了新方向,尤其适合需要本地部署或边缘计算的 Agent 落地场景。

发布于2026年5月5日 09:10
编辑零重力瓦力
评论0
阅读38

如今的代码 Agent 动不动就啃几万 Token 的上下文,既贵又慢还容易迷失。SWE-Pruner 认为,不如学学人类程序员“选择性略读”的方式。

怎么做的

论文来自arXiv(2601.16746v2),团队基于一个观察:人类调试代码时不会逐行阅读,而是带着任务目标去“扫”相关部分。比如修 bug 时只看错误处理和调用栈,找性能瓶颈时只看循环和数据库操作。

SWE-Pruner干了三件事

  1. Agent 给自己定一个明确目标,比如“聚焦错误处理”或“关注并发逻辑”,这个目标会变成剪枝的提示。

  2. 训练了一个 0.6 B 的小模型(叫skimmer)来学习如何根据目标选择上下文。

  3. 在四个基准上测试,发现效果不错。在 SWE-Bench Verified 这类 Agent 任务上,Token 减少了 23% 到 54%,成功率反而还提升了。在单轮的长代码问答任务上,最高能压缩 14.84 倍。

为什么值得关注

之前业界做上下文压缩,主要靠困惑度(PPL)这类固定指标,问题是代码有结构,你不能把一个函数切成两半,或者漏掉一个关键的变量声明。PPL导向的压缩会破坏语法和逻辑结构,导致模型理解出错。

SWE-Pruner 的不同在于它是任务感知的。压缩什么、保留什么,是跟着当前任务目标走的。一个需要修 bug 的 Agent 和一个需要写测试的 Agent,会看到不同的上下文。

实用价值在哪儿

对于做 Agent 落地的人来说,这个思路意味着,与其抱怨模型上下文太短,不如让模型学会“看什么像什么”。

具体可以参考的方向有3个:

  1. 给 Agent设计 “目标设定”环节。在执行任务前让模型自己说“这次我关注什么”,这个信号可以被上游的压缩模块用到。

  2. 在代码检索场景里,把任务描述作为相关性判断的依据,而不是只靠语义相似度。

  3. 关注这个 0.6B 的小模型,小到可以本地跑,但能跟大模型配合,在一些边缘部署场景可能有用。

论文链接:https://arxiv.org/abs/2601.16746 Github:https://github.com/Ayanami1314/swe-pruner

相关文章

Windsurf 2.0 拆解:Devin 被塞进编辑器,氛围编程终于有了“调度中心”
AI 编程开发
2026年6月2日
0 条评论
零重力瓦力

Windsurf 2.0 拆解:Devin 被塞进编辑器,氛围编程终于有了“调度中心”

Cognition 发布 Windsurf 2.0,深度整合 Devin 实现本地思考与云端执行分工。新版推出 Agent Command Center 支持多智能体可视化管理,搭载自研 SWE-1.5 模型大幅提升代码定位与编辑速度,并引入 Spaces 容器解决上下文延续问题。Pro 版调整为日配额制且包含 Devin 功能。相比 Cursor 3,Windsurf 2.0 凭借自研模型与云端执行能力,更适合处理陌生代码库及长任务自动化场景。

#智能体#AI 编程
阅读全文
多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
Claude 新模型发布前让客户极限测试,Agent 落地成核心
AI 新闻资讯
2026年6月1日
0 条评论
小创

Claude 新模型发布前让客户极限测试,Agent 落地成核心

Anthropic 在发布新 Claude 模型前,通过头部客户极限测试验证真实业务表现,比单纯跑分更具参考价值。借助 Agent 能力,新模型在起草法律文件等复杂任务中成功率提升约 20%,实现持续准确输出。当前大模型发展重心已转向 Agent 在垂直场景的落地,边缘案例为下一代优化指明方向。这种与客户深度共创的模式建立了高信任壁垒,值得产品团队借鉴。

#Anthropic#智能体
阅读全文
互动讨论

评论区

围绕《代码 Agent 的上下文减肥药:SWE-Pruner 是怎么让模型少看多想的》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。