从 LLM 到 Agent Skill 底层逻辑拆解

引言：当前 AI 领域概念繁多，本笔记从最底层的运作原理出发，剥离商业包装，以工程链路的视角梳理从大模型基座到上层智能体应用的核心技术脉络。

基础架构：目前主流的大模型几乎全基于 Google 团队在 2017 年提出的 Transformer 架构训练而成。
底层运作逻辑：大模型的工作原理非常朴素，本质上是一个复杂的“文字接龙游戏”。它接收输入后，通过内部的矩阵运算预测下一个概率最高的词，输出后再将该词塞回输入中继续预测，循环往复，直到输出结束标识符。

由于大模型本质是庞大的数学函数，只处理数字而不认识人类文字，因此需要“中间人”来进行翻译：

Tokenizer (分词器)：负责两项核心工作：
- 编码 (Encode)：将用户的文字切分为最小片段（Token），并映射为对应的数字（Token ID）送入模型。
- 解码 (Decode)：将模型输出的数字还原为人类可读的文字。
Token 的本质：Token 是大模型处理文本的最基本单元。
- Token 不等同于“词”或“字”。它是一套模型自己学会的切分规则。
- 经验换算：1 个 Token 大约等于 0.75 个英文单词，或 1.5 到 2 个汉字。

大模型本身没有记忆，它能进行连续对话依赖于上下文机制：

Context (上下文)：代表大模型每次处理任务时接收到的信息总和。这包括了当前的提问、之前的对话历史、正在输出的 Token、System Prompt 以及可用的 Tool 列表等。它相当于大模型的“临时记忆体”。
Context Window (上下文窗口)：代表模型一次最多能容纳的 Token 数量上限。
- 如果遇到上千页的产品手册导致突破窗口限制或成本过高，工程上通常使用 RAG (检索增强生成) 技术，只抽取与用户问题最匹配的片段发给大模型。

Prompt (提示词) 决定了大模型的输出质量，工程上主要分为两类：

User Prompt (用户提示词)：用户在对话框直接输入的具体问题或任务。
System Prompt (系统提示词)：由开发者在后台配置，用于向大模型说明“人设和做事规则”。例如规定模型扮演一个“循循善诱的数学老师”而不是直接给出答案。两者的配合让大模型既守规矩又能完成特定需求。

大模型的致命弱点是无法感知外界环境（如获取实时天气）。

核心定义：Tool 本质上就是外部的函数（Function），提供输入并返回输出。
调用链路：大模型本身不能直接执行查询。它的能力是“做阅读理解和决策”。当发现需要外部数据时，模型会生成一段“工具调用指令”给平台；平台负责真正去调用该工具（如 API），拿到结果后再返还给大模型；最后大模型将数据归纳总结为人话输出给用户。

解决的痛点：过去，开发者如果想把一个工具接入 ChatGPT、Claude 或 Gemini，需要分别按照各家厂商的规范写三套不同的接入代码。
概念定义：MCP (模型上下文协议) 是一套统一的工具接入规范标准。类似于硬件领域的 Type-C 接口，开发者只需遵循 MCP 规范写一次代码，该工具就能在所有支持 MCP 的平台上无缝使用。

在面对“看天气 -> 下雨 -> 找周边伞店”这类复杂多步任务时，单次工具调用无法满足需求：

Agent (智能体)：具备自主规划、自主调用工具并持续运作，直到最终完成用户任务的系统。它能根据每一步的返回结果思考下一步该做什么。
Agent Skill (智能体技能)：为了避免高频场景下每次都要给 Agent 输入大段的私人习惯和格式要求，开发者可以提前写好一份说明文档（通常为 Markdown 格式）[00:25:31]。
- 元数据层：定义技能的 Name（名称）和 Description（描述），作为启动接头的暗号。
- 指令层：详细规定了该技能的目标、执行步骤、判断规则、输出格式以及示例。
- 渐进式加载：系统仅在判断用户问题与技能相关时，才会去读取并执行复杂的指令层，从而有效节省 Token 消耗。

总结：从底层的 LLM 和 Token，到中间承载信息的 Context 与 Prompt，再到向外拓展的 Tool 与 MCP 协议，最后到顶层具备自主规划能力的 Agent 及 Agent Skill，这构成了当前 AI 智能体应用开发的完整基石体系。

评论