Agent和MCP

Agent，中文名称“智能体”，是将大型语言模型（LLM）作为“决策核心”，并赋予了感知、记忆、规划和行动能力，使其像“人”一样能完成复杂任务的系统。换句话说，它是一个基于大模型驱动的“主动执行者”，不是被动问答，而是具有目标感知、思维链路和行动能力的 AI 实体。
模型上下文协议（Model Context Protocol, MCP），是一种专为模型间上下文传递设计的标准化协议。MCP 的核心思想是将模型与外部系统之间的通信抽象为一个客户端-服务器架构，通过标准化的接口（如基于 JSON-RPC 的通信）实现上下文的动态传递和工具的灵活调用。

虽然大语言模型（LLM）的出现提升了人工智能在自然语言理解和生成方面的能力，使其能够像人类一样进行对话、回答问题、生成内容，但它本质上仍然是一种“被动的大脑” —— 只能在用户发起交互后给出响应。相比之下，智能体（Agent）则在大语言模型的基础上进一步“装上了手脚”，它不仅能理解用户意图，还能调用工具去完成任务，实现从“能说”到“能做”的跨越。

换句话说，LLM 更像一个强大的信息处理器，它能够理解你的问题并给出详细的建议或解决思路，但本身并不具备执行能力，只能“告诉你怎么做”，而不能“替你去做”。相比之下，Agent 更像是一个可自主行动的虚拟助手，不仅能理解你的意图，还能调用各种工具，真正将“知道怎么做”转化为“帮你去做”。

Agent

Agent，中文名称“智能体”，是将大型语言模型（LLM）作为“决策核心”，并赋予了感知、记忆、规划和行动能力，使其像“人”一样能完成复杂任务的系统。换句话说，它是一个基于大模型驱动的“主动执行者”，不是被动问答，而是具有目标感知、思维链路和行动能力的 AI 实体。

Agent 的工作流程，可以用这个式子来表示：Agent：P（感知）—> P（规划）—> A（行动）。

感知 (Perception) 是指 Agent 从环境中收集信息并从中提取相关知识的能力。
规划 (Planning) 是指 Agent 为了某一目标而作出的决策过程。
行动 (Action) 是指基于环境和规划做出的动作。

以人作类比：

感知模块 类似于人类的感官系统，能够感知外部环境的变化，就像人通过视觉、听觉等方式获取外界信息。
LLM（大语言模型）可类比为人类的大脑，具备理解语言、推理和记忆的能力。它能够根据当前环境信息和想要达成的目标做出规划决策，并且在决策的过程中还可以结合历史记忆，从而提升决策的有效性。
行动模块 如同人类的手脚，不仅可以独立执行任务，还能借助各种工具完成更复杂的操作，例如代码执行器、搜索引擎、浏览器插件等。
反馈机制 则对应人类在行动后从环境中获取的反馈信息，通过反馈更新感知，进而影响后续的认知与行为决策，形成一个闭环学习与调整系统。

MCP

模型上下文协议（Model Context Protocol, MCP），是一种专为模型间上下文传递设计的标准化协议。MCP 的核心思想是将模型与外部系统之间的通信抽象为一个客户端-服务器架构，通过标准化的接口（如基于 JSON-RPC 的通信）实现上下文的动态传递和工具的灵活调用。

MCP核心组件

通常而言，MCP 的技术框架围绕三个关键组件构建：主机（Host）、客户端（Client）和服务器（Server）。

主机（Host）指的是任何能够承载 AI 交互环境的应用程序，例如 Claude Desktop、Cursor 等主流 AI 工具。这些宿主不仅为用户提供与人工智能模型互动的平台，还负责集成外部工具、访问多样化的数据资源，并运行 MCP 客户端（MCP Client）以实现协议的核心功能。
MCP 客户端（MCP Client）则是运行于主机内部的关键组件，专门负责与 MCP 服务器（MCP Server）建立高效通信。它充当了宿主与外部资源之间的桥梁，通过标准化的协议接口协调数据传输和指令交互，确保信息的实时性与一致性。
MCP 服务器（MCP Server）则通过暴露特定的功能接口和数据访问能力，为整个生态系统注入强大的支持。

个人理解，用通俗的话来说：

主机（Host）是用户直接使用的 AI 应用程序，是交互入口。
MCP 客户端（MCP Client）是主机中的组件，主机就是通过 MCP 客户端与 MCP 服务器通信的，从而调用 MCP 服务器的接口，使用其功能。
MCP 服务器（MCP Server）是独立的进程或服务，连接实际的外部资源或工具（如数据库、API、第三方系统），它向 Client 暴露统一接口，如“工具 Tools”（可执行函数）、“资源 Resources”（可读取的数据）、“提示 Prompts”模板等。Client 将 LLM 的需求转换为标准调用，MCP Server 执行访问，并返回结果 。

Agent和MCP

前面说过，Agent 可以通过调用工具的方式完成任务，但是有哪些工具可以调用呢？MCP Server 提供给你！

注意：MCP Server 既可以和 Agent 跑在同一台机器上，使用 stdio 方式进行通信；也可以跑在不同的机器上，使用 http 方式进行通信，如 sse 或者 streamableHttp 方式。

以下图为例，说明 Agent 和 MCP 结合的工作流程：

![](../../../../../Running Noob/计算机/Typora笔记/git仓库/llm/大模型概念/img/agent+mcp.png)

用户发起请求，输入作为 user prompt 由 Agent 接收。
Agent 通过 MCP Client 和 MCP Server 连接，并从连接的 MCP Server 获取工具、资源、提示模板等信息。
Agent 将用户输入与工具定义等信息合并，作为 prompt 发给大语言模型（LLM）。
LLM 判断是否需要调用工具，并以 JSON 格式输出给 Agent：{"type":"call","name":"xxx","args":{…}}。
Agent 接收到调用指令，通过 MCP Client 使用 JSON‑RPC 协议向 MCP Server 请求调用具体工具。
MCP Server 执行工具逻辑（如网页浏览、数据库查询等），并将调用结果返回给 Agent
Agent 将该结果发送回 LLM，形成上下文的一部分。
LLM 综合历史对话与工具结果生成最终回复，Agent 将其回传给用户。

注意：Agent 实际上包含 LLM，LLM 就像是 Agent 的大脑，图中为了清晰说明，将 LLM 单独拎出，但并不意味着 Agent 和 LLM 是独立的两部分。
Agent 严格来说 ≠ MCP Client，MCP Client 是 Agent 内部的一个组件，负责与 MCP Server 通信。一个 Agent 可以有多个 MCP Client，从而连接多个 MCP Server，实现工具集合自由扩展。