【AI】一文搞懂AI核心概念:Agent、Tool、MCP与Skill全解析

随着大语言模型(LLM)的爆发式发展,AI 领域涌现了大量新概念:Agent、Tool、MCP、Skill、RAG、Function Calling……这些术语让很多人一头雾水。本文将用最通俗易懂的方式,为你逐一拆解这些概念,并进行详细对比,帮你彻底理清它们之间的关系。

为什么需要理解这些概念?

2023 年以来,以 ChatGPT 为代表的大语言模型(LLM)改变了人们对 AI 的认知。但 LLM 本身只是一个”能说会道的大脑”——它能理解语言、生成文字,却无法直接操作外部世界

为了让 AI 真正”做事”,而不只是”说话”,业界逐步发展出了 Agent、Tool、MCP、Skill 等一系列概念和架构。它们就像给 AI 装上了手、脚、工具箱和操作手册

一句话概括:LLM 是大脑,Agent 是有行动力的人,Tool 是手里的工具,MCP 是工具的标准接口,Skill 是学会的技能。


核心概念逐一拆解

1. LLM(大语言模型)—— AI 的”大脑”

LLM(Large Language Model) 是一切的基础。GPT-4、Claude、Gemini、DeepSeek 等都是典型代表。

类比:LLM 就像一个博学多才的人——读过海量的书,能回答各种问题,但只会说话,不会动手。你问他”帮我订一张机票”,他可以告诉你怎么订,但他自己并不能打开网页去订票。

核心特点

  • ✅ 理解自然语言
  • ✅ 生成文本回复
  • ✅ 推理和分析
  • ❌ 无法访问实时信息
  • ❌ 无法执行外部操作
  • ❌ 知识有截止日期

2. Tool(工具)—— AI 的”双手”

Tool 是指 AI 可以调用的外部功能或 API。它让 AI 从”只会说”变成”能动手”。

类比:就像人可以使用锤子、计算器、搜索引擎一样,AI 也可以使用”工具”来完成特定任务。

常见的 Tool 类型

工具类型 功能描述 示例
搜索工具 在互联网上搜索信息 Google Search API
代码执行 运行代码并返回结果 Python 解释器
文件操作 读写文件 文件系统 API
数据库查询 查询数据库 SQL 执行器
API 调用 调用第三方服务 天气 API、邮件 API
浏览器操作 打开网页并交互 Puppeteer、Selenium

Tool 的工作流程

1
2
3
4
5
6
7
8
9
用户: "今天北京天气怎么样?"

LLM 判断: 我需要调用天气工具

调用 Tool: get_weather(city="北京")

Tool 返回: {"温度": "15°C", "天气": "晴"}

LLM 组织语言: "今天北京天气晴朗,气温15°C,适合出门~"

3. Function Calling(函数调用)—— 连接大脑和工具的”神经”

Function Calling 是 LLM 调用 Tool 的标准化接口机制。它由 OpenAI 率先提出,现在已被大多数 LLM 厂商支持。

类比:如果 Tool 是锤子和扳手,那么 Function Calling 就是”知道什么时候用锤子、什么时候用扳手”的判断能力,以及”正确使用它们”的操作标准。

工作原理

  1. 开发者定义可用的函数(名称、参数、描述)
  2. 用户提出请求
  3. LLM 分析请求,决定是否需要调用函数
  4. 如果需要,LLM 输出结构化的函数调用请求(JSON 格式)
  5. 系统执行函数,将结果返回给 LLM
  6. LLM 基于结果生成最终回复
1
2
3
4
5
6
7
8
9
// LLM 的 Function Calling 输出示例
{
"function": "search_flight",
"arguments": {
"from": "北京",
"to": "上海",
"date": "2026-03-15"
}
}

4. Agent(智能体)—— AI 的”完整人格”

Agent 是当前 AI 领域最核心的概念之一。它不只是一个”能回答问题的模型”,而是一个能自主思考、规划、使用工具并完成复杂任务的智能系统

类比:如果 LLM 是一个”大脑”,那么 Agent 就是一个完整的人——它有大脑(LLM)、有手脚(Tool)、有记忆(Memory)、还有做事的方法论(Planning)。

Agent 的核心组成

1
2
3
4
5
6
7
8
9
10
11
12
13
14
┌─────────────────────────────────┐
│ Agent │
│ │
│ ┌─────────┐ ┌──────────────┐ │
│ │ LLM │ │ Memory │ │
│ │ (大脑) │ │ (记忆) │ │
│ └─────────┘ └──────────────┘ │
│ │
│ ┌─────────┐ ┌──────────────┐ │
│ │Planning │ │ Tools │ │
│ │ (规划) │ │ (工具) │ │
│ └─────────┘ └──────────────┘ │
│ │
└─────────────────────────────────┘

Agent 的四大要素

要素 说明 类比
LLM 核心推理引擎 大脑
Memory 短期/长期记忆,上下文管理 记忆力
Planning 任务分解、步骤规划、反思纠错 做事方法
Tools 可调用的外部工具和能力 双手和工具箱

Agent 的工作方式(以 ReAct 模式为例)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
用户: "帮我分析一下竞品公司 A 的最新财报"

Agent 思考(Thought): 我需要先搜索公司A的最新财报数据
Agent 行动(Action): 调用搜索工具,搜索"公司A 2026年财报"
Agent 观察(Observation): 搜索返回了财报PDF链接

Agent 思考(Thought): 我需要下载并解析这份财报
Agent 行动(Action): 调用文件下载工具 + PDF解析工具
Agent 观察(Observation): 获得了财报的结构化数据

Agent 思考(Thought): 现在我可以进行分析了
Agent 行动(Action): 分析营收、利润、增长率等关键指标
Agent 观察(Observation): 分析完成

Agent 最终输出: 一份完整的竞品财报分析报告

核心区别:普通的 LLM 对话是一问一答,而 Agent 是循环式地”思考→行动→观察→再思考”,直到任务完成。


5. MCP(Model Context Protocol)—— 工具的”USB 接口”

MCP(模型上下文协议) 是由 Anthropic 提出的一个开放标准协议,它定义了 AI 模型与外部工具/数据源之间的通信标准。

类比:在 MCP 出现之前,每个 AI 应用要使用不同工具,都需要单独开发连接代码,就像每个电器都用不同的插头一样混乱。MCP 就是 AI 世界的”USB 标准”——统一了接口,让任何支持 MCP 的工具都能被任何支持 MCP 的 AI 应用使用。

为什么需要 MCP?

在 MCP 之前的困境:

1
2
3
4
5
AI应用A → 自定义代码 → 工具1
AI应用A → 自定义代码 → 工具2
AI应用A → 自定义代码 → 工具3
AI应用B → 自定义代码 → 工具1 (重复开发!)
AI应用B → 自定义代码 → 工具2 (重复开发!)

有了 MCP 之后:

1
2
3
AI应用A ─┐                  ┌→ 工具1 (MCP Server)
AI应用B ─┤── MCP 协议 ──────┼→ 工具2 (MCP Server)
AI应用C ─┘ └→ 工具3 (MCP Server)

MCP 的核心架构

组件 角色 说明
MCP Host 宿主 运行 AI 的应用程序(如 Claude Desktop、VS Code)
MCP Client 客户端 在 Host 内部,负责与 Server 通信
MCP Server 服务端 暴露工具/数据的服务,可以是本地或远程

MCP 提供的三大能力

  1. Tools(工具):让 AI 可以调用外部函数(如查询数据库、发送邮件)
  2. Resources(资源):让 AI 可以读取外部数据(如文件内容、API 数据)
  3. Prompts(提示模板):预定义的交互模板,方便用户快速使用

6. Skill(技能)—— AI 的”知识技能包”

Skill 是指 Agent 所掌握的一个完整的能力模块,通常包含了特定的 Prompt 模板、工具组合和执行逻辑。

类比:如果 Agent 是一个人,Tool 是手里的锤子和钉子,那么 Skill 就是”会装修”这个技能——它不只是有工具,还知道何时用什么工具、按什么步骤操作、怎么判断做得好不好

Skill vs Tool 的区别

维度 Tool(工具) Skill(技能)
粒度 单一功能 组合能力
示例 “调用搜索 API” “做一次完整的市场调研”
包含 一个 API 或函数 多个 Tool + 策略 + 流程
类比 一把锤子 会木工活
复用性 通用性强 场景针对性强

Skill 的内部结构(通常包含):

1
2
3
4
5
6
7
8
9
10
Skill: "撰写技术博客"
├── 所需 Tools: 搜索工具, 写作工具, 图片生成工具
├── 执行流程:
│ 1. 搜索主题相关材料
│ 2. 生成大纲
│ 3. 逐章节撰写
│ 4. 生成配图
│ 5. 排版和校对
├── 提示词模板: "你是一个技术博客作者,风格通俗易懂……"
└── 质量标准: 字数 > 2000, 包含示例代码, 有总结

7. RAG(检索增强生成)—— AI 的”开卷考试”

RAG(Retrieval-Augmented Generation) 是一种让 AI 在生成回答时,先从外部知识库中检索相关信息,然后结合检索到的内容生成更准确回答的技术。

类比:LLM 靠自己回答问题就像”闭卷考试”,而 RAG 就是允许”开卷”——先翻书找到相关内容,再组织答案。

RAG 的工作流程

1
2
3
4
5
6
7
8
9
10
11
12
13
用户提问: "公司今年Q1的销售额是多少?"

① 检索(Retrieval):
在知识库中搜索相关文档
→ 找到: "2026年Q1销售报告.pdf"

② 增强(Augmented):
将检索到的内容作为上下文提供给LLM
→ Context: "根据报告,Q1销售额为5.2亿元……"

③ 生成(Generation):
LLM 结合上下文生成准确回答
→ "公司2026年Q1的销售额为5.2亿元,同比增长18%。"

RAG vs 微调(Fine-tuning)

维度 RAG 微调
知识更新 更新知识库即可,实时生效 需要重新训练模型
成本 低,无需训练 高,需要 GPU 算力
准确性 可溯源、有依据 可能产生幻觉
适用场景 企业知识问答、文档检索 风格迁移、领域适配

8. Workflow(工作流)vs Agent

这两个概念经常被混淆,但它们有本质区别。

Workflow(工作流):按照预定义的固定流程执行任务,每一步是确定的。

Agent(智能体):由 AI 自主决策下一步该做什么,流程是动态的。

1
2
3
4
5
6
7
8
9
Workflow(像流水线):          Agent(像自由职业者):

步骤1 → 步骤2 → 步骤3 思考 → 做A
↓ 观察结果
步骤4 → 步骤5 ↓
↓ 思考 → 做C(跳过了B)
完成 观察结果

思考 → 完成了!
维度 Workflow Agent
流程 预定义、固定 动态、自主决策
灵活性
可预测性 高,结果确定 低,结果可能不同
适用场景 标准化流程 复杂、开放性任务
出错可能性 较高,需要监督

全景对比:一张表看懂所有概念

概念 一句话定义 类比 核心能力
LLM 理解和生成语言的大模型 大脑 理解、推理、生成文字
Tool AI 可调用的外部功能 锤子、扳手 执行具体操作
Function Calling LLM 调用工具的标准机制 知道用哪个工具、怎么用 连接 LLM 和 Tool
Agent 能自主规划和执行任务的 AI 系统 一个完整的人 思考、规划、行动、记忆
MCP AI 与工具通信的标准协议 USB 接口 统一工具接入标准
Skill Agent 掌握的完整能力模块 会做饭、会编程 将工具+策略打包成技能
RAG 先检索再生成的增强技术 开卷考试 结合外部知识回答
Workflow 预定义的任务执行流程 流水线 按步骤执行

它们之间的关系图

用一张图来表示它们的层级关系:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
┌────────────────────────────────────────────┐
│ Agent (智能体) │
│ │
│ ┌────────┐ ┌────────┐ ┌────────────┐ │
│ │ LLM │ │Planning│ │ Memory │ │
│ │ (大脑) │ │ (规划) │ │ (记忆) │ │
│ └────────┘ └────────┘ └────────────┘ │
│ │
│ ┌──────────────────────────────────────┐ │
│ │ Skills (技能) │ │
│ │ ┌──────────┐ ┌──────────────────┐ │ │
│ │ │ Skill A │ │ Skill B │ │ │
│ │ │写博客技能 │ │ 数据分析技能 │ │ │
│ │ └──────────┘ └──────────────────┘ │ │
│ └──────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────┐ │
│ │ Tools (工具) │ │
│ │ │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │搜索 │ │代码 │ │文件 │ ...... │ │
│ │ │工具 │ │执行 │ │读写 │ │ │
│ │ └──┬───┘ └──┬───┘ └──┬───┘ │ │
│ │ │ │ │ │ │
│ └─────┼────────┼────────┼──────────────┘ │
│ │ │ │ │
└─────────┼────────┼────────┼────────────────┘
│ │ │
┌─────┴────────┴────────┴──────┐
│ MCP 协议 (标准接口) │
└─────┬────────┬────────┬──────┘
│ │ │
┌──────┴──┐ ┌──┴─────┐ ┌┴───────────┐
│MCP │ │MCP │ │MCP │
│Server A │ │Server B│ │Server C │
│(Google) │ │(GitHub)│ │(Database) │
└─────────┘ └────────┘ └────────────┘

实际应用场景

场景一:智能客服

1
2
3
4
5
6
Agent = 客服人员
├── LLM = 语言理解和表达能力
├── RAG = 查找产品手册和FAQ
├── Tool = 查询订单系统、提交工单
├── Skill = "处理退款"、"产品推荐"
└── MCP = 连接 CRM、订单系统、物流系统

场景二:AI 编程助手(如 Cline、Cursor)

1
2
3
4
5
Agent = 编程助手
├── LLM = 理解需求、生成代码
├── Tool = 读写文件、执行命令、搜索代码
├── Skill = "重构代码"、"修复Bug"、"写测试"
└── MCP = 连接 GitHub、数据库、部署平台

场景三:企业数据分析

1
2
3
4
5
6
Agent = 数据分析师
├── LLM = 理解分析需求、生成报告
├── RAG = 检索历史报告和行业数据
├── Tool = SQL 查询、Python 执行、图表生成
├── Skill = "月度报告"、"异常检测"、"趋势预测"
└── MCP = 连接数据仓库、BI 工具、邮件系统

未来趋势

  1. Agent 将成为主流交互方式:未来我们可能不再一条条输入指令,而是给 Agent 一个目标,它自主完成一系列操作。

  2. MCP 将统一工具生态:就像 HTTP 统一了 Web 世界,MCP 正在成为 AI 工具集成的事实标准。

  3. Skill 市场将会涌现:类似于 App Store,未来可能出现 Skill Store,用户可以为自己的 Agent 安装各种技能包。

  4. 多 Agent 协作将成为趋势:复杂任务将由多个专业 Agent 协同完成,就像一个团队中有产品经理、设计师、程序员各司其职。


总结

你想到的问题 对应概念
AI 怎么理解我说的话? LLM
AI 怎么帮我查天气、发邮件? Tool
AI 怎么知道该用哪个工具? Function Calling
AI 怎么完成一个复杂任务? Agent
不同 AI 怎么用同一套工具? MCP
AI 怎么具备某个领域的能力? Skill
AI 怎么回答公司内部的问题? RAG
我想让 AI 按固定步骤干活? Workflow

理解这些概念之间的关系,就像理解一个公司的组织架构:LLM 是员工的知识素养,Tool 是办公用品,Skill 是岗位技能,Agent 是员工本人,MCP 是公司的 IT 基础设施,RAG 是公司的知识库,Workflow 是标准操作流程。

希望这篇文章能帮你厘清 AI 世界中这些令人眼花缭乱的概念。AI 的未来不只属于技术专家,理解这些概念,你就能更好地拥抱这个 AI 时代。🚀

参考文献

  1. Anthropic MCP Documentation
  2. LLM Powered Autonomous Agents - Lilian Weng
  3. OpenAI Function Calling Guide
  4. Retrieval-Augmented Generation (RAG) - AWS
  5. Andrew Ng - Agentic AI Design Patterns