Agent,中文名称“智能体”,是将大型语言模型(LLM)作为“决策核心”,并赋予了感知、记忆、规划和行动能力,使其像“人”一样能完成复杂任务的系统。换句话说,它是一个基于大模型驱动的“主动执行者”,不是被动问答,而是具有目标感知、思维链路和行动能力的 AI 实体。
模型上下文协议(Model Context Protocol, MCP),是一种专为模型间上下文传递设计的标准化协议。MCP 的核心思想是将模型与外部系统之间的通信抽象为一个客户端-服务器架构,通过标准化的接口(如基于 JSON-RPC 的通信)实现上下文的动态传递和工具的灵活调用。
虽然大语言模型(LLM)的出现提升了人工智能在自然语言理解和生成方面的能力,使其能够像人类一样进行对话、回答问题、生成内容,但它本质上仍然是一种“被动的大脑” —— 只能在用户发起交互后给出响应。相比之下,智能体(Agent)则在大语言模型的基础上进一步“装上了手脚”,它不仅能理解用户意图,还能调用工具去完成任务,实现从“能说”到“能做”的跨越。
换句话说,LLM 更像一个强大的信息处理器,它能够理解你的问题并给出详细的建议或解决思路,但本身并不具备执行能力,只能“告诉你怎么做”,而不能“替你去做”。相比之下,Agent 更像是一个可自主行动的虚拟助手,不仅能理解你的意图,还能调用各种工具,真正将“知道怎么做”转化为“帮你去做”。
Agent
Agent,中文名称“智能体”,是将大型语言模型(LLM)作为“决策核心”,并赋予了感知、记忆、规划和行动能力,使其像“人”一样能完成复杂任务的系统。换句话说,它是一个基于大模型驱动的“主动执行者”,不是被动问答,而是具有目标感知、思维链路和行动能力的 AI 实体。
Agent 的工作流程,可以用这个式子来表示:Agent:P(感知)—> P(规划)—> A(行动)
。
- 感知 (Perception) 是指 Agent 从环境中收集信息并从中提取相关知识的能力。
- 规划 (Planning) 是指 Agent 为了某一目标而作出的决策过程。
- 行动 (Action) 是指基于环境和规划做出的动作。
以人作类比:
- 感知模块 类似于人类的感官系统,能够感知外部环境的变化,就像人通过视觉、听觉等方式获取外界信息。
- LLM(大语言模型)可类比为人类的大脑,具备理解语言、推理和记忆的能力。它能够根据当前环境信息和想要达成的目标做出规划决策,并且在决策的过程中还可以结合历史记忆,从而提升决策的有效性。
- 行动模块 如同人类的手脚,不仅可以独立执行任务,还能借助各种工具完成更复杂的操作,例如代码执行器、搜索引擎、浏览器插件等。
- 反馈机制 则对应人类在行动后从环境中获取的反馈信息,通过反馈更新感知,进而影响后续的认知与行为决策,形成一个闭环学习与调整系统。
MCP
模型上下文协议(Model Context Protocol, MCP),是一种专为模型间上下文传递设计的标准化协议。MCP 的核心思想是将模型与外部系统之间的通信抽象为一个客户端-服务器架构,通过标准化的接口(如基于 JSON-RPC 的通信)实现上下文的动态传递和工具的灵活调用。
MCP核心组件
通常而言,MCP 的技术框架围绕三个关键组件构建:主机(Host)、客户端(Client)和服务器(Server)。
- 主机(Host)指的是任何能够承载 AI 交互环境的应用程序,例如 Claude Desktop、Cursor 等主流 AI 工具。这些宿主不仅为用户提供与人工智能模型互动的平台,还负责集成外部工具、访问多样化的数据资源,并运行 MCP 客户端(MCP Client)以实现协议的核心功能。
- MCP 客户端(MCP Client)则是运行于主机内部的关键组件,专门负责与 MCP 服务器(MCP Server)建立高效通信。它充当了宿主与外部资源之间的桥梁,通过标准化的协议接口协调数据传输和指令交互,确保信息的实时性与一致性。
- MCP 服务器(MCP Server)则通过暴露特定的功能接口和数据访问能力,为整个生态系统注入强大的支持。
个人理解,用通俗的话来说:
- 主机(Host)是用户直接使用的 AI 应用程序,是交互入口。
- MCP 客户端(MCP Client)是主机中的组件,主机就是通过 MCP 客户端与 MCP 服务器通信的,从而调用 MCP 服务器的接口,使用其功能。
- MCP 服务器(MCP Server)是独立的进程或服务,连接实际的外部资源或工具(如数据库、API、第三方系统),它向 Client 暴露统一接口,如“工具 Tools”(可执行函数)、“资源 Resources”(可读取的数据)、“提示 Prompts”模板等。Client 将 LLM 的需求转换为标准调用,MCP Server 执行访问,并返回结果 。
Agent和MCP
前面说过,Agent 可以通过调用工具的方式完成任务,但是有哪些工具可以调用呢?MCP Server 提供给你!
注意:MCP Server 既可以和 Agent 跑在同一台机器上,使用 stdio
方式进行通信;也可以跑在不同的机器上,使用 http
方式进行通信,如 sse
或者 streamableHttp
方式。
以下图为例,说明 Agent 和 MCP 结合的工作流程:

- 用户发起请求,输入作为
user prompt
由 Agent 接收。 - Agent 通过 MCP Client 和 MCP Server 连接,并从连接的 MCP Server 获取工具、资源、提示模板等信息。
- Agent 将用户输入与工具定义等信息合并,作为 prompt 发给大语言模型(LLM)。
- LLM 判断是否需要调用工具,并以 JSON 格式输出给 Agent:
{"type":"call","name":"xxx","args":{…}}
。 - Agent 接收到调用指令,通过 MCP Client 使用 JSON‑RPC 协议向 MCP Server 请求调用具体工具。
- MCP Server 执行工具逻辑(如网页浏览、数据库查询等),并将调用结果返回给 Agent
- Agent 将该结果发送回 LLM,形成上下文的一部分。
- LLM 综合历史对话与工具结果生成最终回复,Agent 将其回传给用户。
注意:Agent 实际上包含 LLM,LLM 就像是 Agent 的大脑,图中为了清晰说明,将 LLM 单独拎出,但并不意味着 Agent 和 LLM 是独立的两部分。
Agent 严格来说 ≠ MCP Client,MCP Client 是 Agent 内部的一个组件,负责与 MCP Server 通信。一个 Agent 可以有多个 MCP Client,从而连接多个 MCP Server,实现工具集合自由扩展。