提示工程: AI 安全 TryHackMe

TryHackMe 推出“提示词工程: AI 安全”实战房间,系统教授与大语言模型高效沟通的技能。课程涵盖 LLM 处理机制( Token 、非确定性)、提示词结构(指令、上下文、格式、约束)、系统与用户提示词的区别及注入攻击风险、进阶技术( CoT 、 Zero/Few-shot )。通过六道安全场景挑战演示从分类到漏洞审查的实战技巧,强调将开放任务压缩为可执行指令的思路。

发布于2026年5月13日 22:10
编辑小创
评论0
阅读22

TryHackMe 上线了一个名为 Prompt Engineering : AI Security 的实战房间,目标直指一个越来越关键的技能,既如何与大语言模型 ( LLM ) 高效、可预测地沟通。这不只是开发者的功课,对安全研究人员而言同样不可回避。

房间地址:https://tryhackme.com/room/promptengineeringaisec

Task 1 :介绍

这一节无需作答,只需通读学习目标。课程涵盖 LLM 处理文本的方式、输出不一致的原因、控制模型行为的手段,以及构建有效提示词的具体技巧。

Task 2 : LLM 基础

在动手写提示词之前,得先搞清楚模型到底在“读”什么。

LLM 处理的不是词,而是 Token 。一个 Token 大约对应 3 到 4 个字符,单词会被拆成碎片,每个碎片对应一个数字 ID ,模型处理的本质是数字序列,而非自然语言本身。

这直接引出一个让安全场景头疼的特性:非确定性。同样的输入, LLM 可能给出不同的输出,因为响应是概率性的。在要求一致性和可预测性的安全场景里,这个特性的影响不容小觑。

控制模型行为的核心参数有三个。 Temperature 控制随机性,数值越高越有创意,越低越趋近确定性。 Max Tokens 限制响应的最大长度。 Top-p 通过设定累积概率阈值来约束 Token 的候选范围。

本节答案: Token 、 Temperature 、 Top-p 、 Context window (上下文窗口)。

Task 3 :提示词的结构解析

提示词不是一句问话那么简单。一个结构完整的提示词由四个部分构成:指令 ( Instruction ) 定义核心任务。上下文 ( Context ) 提供背景信息。输出格式 ( Output Format ) 规定响应的呈现方式。约束 ( Constraints ) 设定规则与限制。

对比两个版本就能感受到差距。“写点关于网络安全的内容”,这没法用。“用 150 字、适合初学者的语言解释钓鱼攻击,使用项目符号,避免技术术语”,这才是可执行的指令。细节决定模型能不能理解你真正要什么。

本节答案依次对应: 输出格式 、 约束、 上下文、 指令。

Task 4 :系统提示词与用户提示词

这一节开始触碰安全的核心地带。

系统提示词 ( System Prompt ) 由开发者定义,持久生效,跨会话保持不变,负责设定模型的行为基线和角色边界。用户提示词 ( User Prompt ) 由终端用户提供,任务导向,动态变化,理论上应在系统提示词的约束框架内运行。

问题在于, LLM 在处理时会将所有输入合并成一个文本流。系统提示词和用户提示词之间的边界,并非技术层面的硬隔离,而是模型从训练中学到的一种优先级层级 ( Instruction Hierarchy )。这个层级是可以被破坏的。

一旦恶意用户能让模型把自己的输入当成比系统指令更高优先级的命令,整套安全层就会崩塌。这正是提示词注入 ( Prompt Injection ) 攻击得以成立的根本原因,衍生出的风险还包括指令覆盖和意外数据泄露。

本节答案: 系统提示词 、优先级层级。

Task 5 :进阶提示词技术

Zero-shot 、 One-shot 、 Few-shot 构成了示例密度的光谱。 Zero-shot 不提供任何示例,模型完全依赖预训练知识作答。 One-shot 给出一个输入输出示例。 Few-shot 给出两到五个多样化示例。示例越多,模型识别所需模式的准确率通常越高。

2022 年 Google 研究人员提出的思维链 ( Chain-of-Thought , CoT ) 提示技术,要求模型在给出最终答案前逐步推理。这对需要多步骤判断的复杂任务效果尤为显著。触发零样本 CoT 的关键短语是:“Let's think step by step.”

提示词模板 ( Prompt Templates ) 则是把经过验证的提示词结构固化下来,供重复任务复用,核心价值在于一致性和可维护性。

本节答案: 思维链、 零样本提示词 、 提示模板 、“Let's think step by step”。

Task 6 :实战挑战

这一节是真正的考验。系统提供六道提示词挑战,每题满分 10 分,累计达到 40 分即可获取 Flag 。

挑战 1 要求写一个零样本提示词,将日志条目分类为认证成功或认证失败。 Shubham Kumar 的解法设定了安全分析师的角色,明确要求只输出两个标签之一,不附任何解释,得分 4/10 ,累计 4 分。零样本本身决定了这个起点。

挑战 2 针对邮件主题行的钓鱼指标检测,要求包含一个示例。在给出一个典型钓鱼主题行的输入输出示例后,分数跳至 7/10 ,累计 11 分。

挑战 3 要求从网络告警中提取失陷指标 ( IOC ),至少包含两个多样化示例。 Shubham Kumar 的做法是借助 AI 模型生成逼真的虚假日志,覆盖 IP 地址、文件哈希、恶意域名三类 IOC ,约束条款明确禁止推断或生成不存在的数据,得分 9/10 ,累计 20 分。

挑战 4 是对 Python 代码片段做 SQL 注入漏洞审查,要求逐步推理。解法将推理过程拆成五个明确步骤:识别用户输入变量、追踪查询构造方式、判断是否存在未经参数化的直接拼接、评估风险级别、给出最终结论。结尾附上“Let's think step by step”触发完整的思维链行为,模型逐行分析代码而非直接跳到结论,得分 10/10 ,累计 38 分。

挑战 6 是按优先级( critical/high/medium/low )对安全告警进行分诊。通过 SOC 分析师角色设定加上覆盖四个优先级的示例,最终越过 40 分门槛, Flag 到手。

相关文章

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节
智能体工程
2026年6月1日
0 条评论
零重力瓦力

别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节

多智能体协作在创意交付端仍存短板,但在结构化任务中价值显著。实测显示,Super Agent 生成幻灯片虽快但排版难控,而自动化销售线索处理及编程辅助等场景因规则明确、流程可定义,能实现高效落地。多智能体的核心竞争力在于清晰定义职责边界、输出格式与异常处理,而非概念本身。建议优先梳理任务结构化程度与人机分工,注重参数配置等实操细节,避免盲目追求平台概念,以构建真正可用的生产力工作流。

#智能体工程#智能体
阅读全文
OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
智能体工程
2026年5月28日
0 条评论
零重力瓦力

OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通

开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。

#Hermes Agent#OpenClaw#智能体工程
阅读全文
互动讨论

评论区

围绕《提示工程: AI 安全 TryHackMe》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。