LLM 工作原理： Prompt Engineering 解析

大语言模型本质是概率引擎，通过 Token 切分和数字编码逐步预测下一个内容。由于概率采样的非确定性特性，输出存在自然波动，这是设计而非缺陷。温度参数控制输出创意度，最大 Token 数限制回复长度， Top-P 核采样限定选词范围，上下文窗口决定记忆容量。实操建议：温度和 Top-P 只调其一，配合最大 Token 数系统性配置，可有效提升提示词工程的可控性。

发布于2026年5月9日 22:09

编辑小创

评论0 条

阅读46

#提示词工程

大语言模型的运作逻辑：提示词工程入门

大语言模型（ LLM ）并不像人类那样阅读文字。它本质上是一台概率引擎，把语言拆碎、编成数字、再预测下一个该出现的内容。理解这个底层机制，是真正驾驭提示词工程（ Prompt Engineering ）的前提。

当一段文字输入 LLM ，模型做的第一件事是把它切分成 Token。 Token 并不等于单词。“dog” 可能就是一个 Token ，而“ButterFly”则可能被拆成“Butter”和“Fly”两个 Token 。切完之后，每个 Token 被转换成一个数字 ID ，模型全程只和这些数字打交道，逐步预测下一个 Token 应该是哪个。不同模型的切分方式不同， GPT 采用字节对编码（ Byte-Pair Encoding ）， BERT 则使用 WordPiece ，同一句话在不同架构下的处理路径可以完全不同。

正因为如此，向 LLM 提同一个问题，两次得到的答案可能并不一致。这不是 bug ，而是模型在从概率分布中采样时的自然结果。它不总是选最可能的那个 Token ，而是按概率随机取样。这种非确定性（ non-deterministic ）特质，是 LLM 与传统程序最根本的区别。

而真正让提示词从“碰运气”变成“可工程化”的，是几个可调节的参数。

温度（ Temperature ）控制的是模型选 Token 时的“冒险程度”。设在 0.0 到 0.3 之间，输出趋于确定和精准，适合事实查询。调到 0.7 到 1.0 ，输出变得更有创意和多样性。超过 1.5 ，输出基本就开始语无伦次了。

最大 Token 数（ Max Tokens ）决定回复的长度上限。粗略换算， 1 个 Token 约等于 0.75 个英文单词。 50 到 150 个 Token 够写一段简短摘要， 500 到 1000 个 Token 可以支撑一篇详细解释， 2000 个 Token 以上才能跑出完整的长文。这个参数是天花板，不是目标长度，设得太低会导致回答在句子中途被截断。

Top-P （核采样， nucleus sampling ）则从另一个维度限定选词范围。设为 0.9 ，意味着模型只从累计概率达到 90% 的 Token 集合里挑选，数值越低，输出越集中。 Funmilola Fagbola （ PhD ）在文中给出了一个实用建议： Temperature 和 Top-P 只调其中一个，同时调两个容易引发不可预期的输出行为。

上下文窗口（ Context Window ）决定模型在单次对话中能“记住”多少内容。早期的 GPT-3.5 只有 8k Token ， Gemini 1.5 Pro 已扩展至超过 100 万 Token ， Claude 3.5 Sonnet 支持 20 万 Token ，相当于约 15 万英文单词或 500 页文本。一旦超出这个上限，模型会悄无声息地丢弃最早的内容，没有任何提示。

AI 工程的 4 步进化：每一步都站在上一步肩上

AI 工程化演进并非替代而是叠加，包含四个关键维度：Prompt engineering 解决单次输出准确性；Context engineering 通过 RAG 等技术优化信息输入；Harness 赋予模型工具与环境以具备行动能力；Loop 则通过迭代验证提升多步执行稳定性。这四个阶段分别对应模型的表达、记忆、手脚与工程纪律，缺一不可。成熟的 AI 产品需同时整合这四层能力，当前行业仍在探索如何平衡 Loop 的自动化与人工验证机制。

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Semgrep 实验显示，开源模型 GLM 5.2 在无脚手架辅助下，IDOR 漏洞检测 F1 达 39%，超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可，编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利，低成本优势或改变安全审计部署策略。尽管结论受限于特定任务，但证实开源模型在安全领域已具备实战竞争力，值得纳入候选池测试。

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本，重写子智能体驱动开发（SDD）方法论，使 AI 编程代码产出速度提升约一倍，token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化，解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性，其核心原则可迁移至各类 AI 编程工作流中，有效提升开发效率与质量。

#智能体工程

阅读全文

互动讨论

评论区

围绕《LLM 工作原理： Prompt Engineering 解析》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

LLM 工作原理： Prompt Engineering 解析

大语言模型的运作逻辑：提示词工程入门

相关文章

AI 工程的 4 步进化：每一步都站在上一步肩上

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

评论区