goose 架构

goose 是一个开源 AI agent，建立在大语言模型的基础交互模式之上。LLM 本质上擅长处理“文本输入、文本输出”，而 goose 在这层能力之上进一步接入了工具和扩展，让 agent 可以真正执行任务。

goose 的核心组成

goose 主要由三个部分组成：界面（interface）、agent 和已连接的扩展。

一次典型会话中，界面会启动一个 agent 实例，随后 agent 会同时连接一个或多个扩展。界面也可以启动多个 agent 来并行处理不同任务。

Model Context Protocol (MCP) 是一个开放标准，用于让数据源和 AI agent 之间实现互操作。goose 通过 MCP 连接各种 MCP servers，在 goose 里这些 server 通常被称为扩展。

扩展通过 tools 向 goose 暴露能力。工具就是 agent 可以调用的函数，例如执行命令、文件操作、搜索文档等。比如 Google Drive 扩展会提供搜索文档的工具，这个工具本身就是 goose 获得对应能力的入口。

goose 内置了一批内建扩展，覆盖开发、网页抓取、自动化、记忆等场景；同时也支持接入外部扩展，或者通过 custom extensions 自定义 MCP server。

交互循环示意图

交互循环可以概括成下面几个步骤：

goose 不会把错误简单地视为“流程终止点”。除了传统运行时错误之外，它也会捕获模型生成过程中导致的执行错误，例如无效 JSON、错误的工具名、参数不正确等。这些错误会作为工具结果回传给模型，帮助模型自行恢复并继续执行。

关于这部分的细节，可以继续阅读错误处理。

虽然 goose 本身是开源免费的，但实际使用时通常仍然会消耗 LLM token。对 token 的占用来自很多地方，包括消息、工具调用、资源内容、文件内容、系统指令等。

为了降低成本并保持上下文质量，goose 会做几件事：