读懂 LLM ： AI 是如何“思考”的，又该如何高效使用

掌握大语言模型（LLM）的核心在于理解其底层机制与交互技巧。首先，Token 是模型处理文本的最小单位，直接影响输入输出长度及费用。默认的非确定性模式赋予模型创意，但也导致结果不可预测。其次，温度、最大 Token 数和 Top-p 三个参数共同调控模型的随机性、回复长度及词汇选择范围，用户可根据精准或创意需求灵活调整。此外，受限于上下文窗口，模型仅能记忆当前对话片段，超出部分会被丢弃。最后，提示词质量决定输出效果，高质量的提示词应包含清晰指令、背景信息及期望格式，通过缩小猜测空间来提升回答的准确度。

发布于2026年5月13日 22:35

编辑小创

评论0 条

阅读42

#提示词工程

你真的会用大模型吗？从 Token 到提示词，一次说清楚

用 ChatGPT 敲几个字就能得到像人一样的回复，这件事确实有点魔幻。但凡认真用过一段时间的人都会发现，输出质量高不高，很大程度上取决于你怎么跟模型“说话”。想真正用好大语言模型（ Large Language Model ， LLM ），得先搞清楚它内部是怎么运作的。

Token ：模型认识世界的最小单位

LLM 处理文字的方式跟人类完全不同。它看到的不是一个个完整的单词，而是被切割成小块的 Token 。一个 Token 可能是一个完整的词，也可能只是某个词的一部分，甚至是一个标点符号。“Hello”通常对应一个 Token ，而“Cybersecurity”这样的长词则可能被拆成好几个。这件事不只是个技术细节。模型的输入上限、输出长度、费用计算，全都以 Token 为单位。

模型还有一个让很多人困惑的特性：同一个问题问两次，答案可能不一样。这不是故障，而是刻意为之的设计。所谓“确定性输出（ Deterministic output ）”，指的是相同输入必然产生相同输出。而绝大多数 LLM 默认运行在“非确定性（ Non-deterministic ）”模式下，这让它们更灵活、更有创意，代价是偶尔难以预测。

三个参数，决定模型说话的“风格”

温度（ Temperature ）是控制随机性的核心旋钮。把它调低到 0.1 到 0.3 的区间，模型会变得保守、精准，适合需要准确答案的场景。调高到 0.7 以上，输出就会更发散、更有想象力，适合创意写作或头脑风暴。一个粗略的类比是：低温度像工程师，高温度像诗人。

最大 Token 数（ Max Tokens ）决定回复的长度上限。设置过低，答案会被硬生生截断。设置合理，才能拿到完整的解释。

Top-p （核采样， Nucleus Sampling ）和温度协同工作，控制模型在生成每一个 Token 时会“考虑”多大范围的候选词汇。数值越低，选择越保守。数值越高，措辞越多样。两个参数同时调整时，效果会叠加，需要一点点实验感。

上下文窗口：模型唯一的“记忆”

LLM 没有真正意义上的记忆。它能“看到”的全部内容，只有当前对话里那一段有限的文本，也就是上下文窗口（ Context Window ）。这个窗口里装着你的提示词、历史对话和模型自己的上一条回复。一旦对话内容超出窗口大小，最早的信息就会被悄悄丢掉。这就是为什么聊到后面，模型有时候会“忘记”你在开头说过的事。

提示词写法，才是真正拉开差距的地方

绝大多数人低估了提示词（ Prompt ）的作用。模糊的问题只会换来模糊的答案。“解释一下 API”和“用简单的语言解释 REST API ，并附上真实的使用例子”，得到的结果天差地别。

一个高质量的提示词通常包含几层信息：清晰的指令（让模型知道它该干什么）、背景信息（比如“我正在准备网络安全面试”）、期望的输出格式（“用不超过 150 个字回答”）。这些不是繁文缛节，而是在帮模型缩小它需要猜测的空间。

AI 工程的 4 步进化：每一步都站在上一步肩上

AI 工程化演进并非替代而是叠加，包含四个关键维度：Prompt engineering 解决单次输出准确性；Context engineering 通过 RAG 等技术优化信息输入；Harness 赋予模型工具与环境以具备行动能力；Loop 则通过迭代验证提升多步执行稳定性。这四个阶段分别对应模型的表达、记忆、手脚与工程纪律，缺一不可。成熟的 AI 产品需同时整合这四层能力，当前行业仍在探索如何平衡 Loop 的自动化与人工验证机制。

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Semgrep 实验显示，开源模型 GLM 5.2 在无脚手架辅助下，IDOR 漏洞检测 F1 达 39%，超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可，编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利，低成本优势或改变安全审计部署策略。尽管结论受限于特定任务，但证实开源模型在安全领域已具备实战竞争力，值得纳入候选池测试。

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本，重写子智能体驱动开发（SDD）方法论，使 AI 编程代码产出速度提升约一倍，token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化，解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性，其核心原则可迁移至各类 AI 编程工作流中，有效提升开发效率与质量。

#智能体工程

阅读全文

互动讨论

评论区

围绕《读懂 LLM ： AI 是如何“思考”的，又该如何高效使用》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

读懂 LLM ： AI 是如何“思考”的，又该如何高效使用

你真的会用大模型吗？从 Token 到提示词，一次说清楚

Token ：模型认识世界的最小单位

三个参数，决定模型说话的“风格”

上下文窗口：模型唯一的“记忆”

提示词写法，才是真正拉开差距的地方

相关文章

AI 工程的 4 步进化：每一步都站在上一步肩上

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

评论区