AgentFly：重塑Agent，无需微调LLM，如我们一样的记忆和经验持续学习

未来，AgentFly的研究方向可能包括：更高效的记忆压缩与检索机制、遗忘策略以应对记忆爆炸、以及在更开放的多智能体环境中的协作与应用。近年来，大型语言模型（LLM）智能体已成为AI领域的热点，它们能自主使用工具、进行多步推理，完成复杂任务，如深度研究、代码生成、多轮对话等。，智能体通过不断积累成功和失败的经验（存入“案例库”），在遇到新任务时快速检索相似案例指导决策，从而实现持续进步——：它告诉

zenRRan

1042人浏览 · 2025-08-27 13:12:29

zenRRan · 2025-08-27 13:12:29 发布

近年来，大型语言模型（LLM）智能体已成为AI领域的热点，它们能自主使用工具、进行多步推理，完成复杂任务，如深度研究、代码生成、多轮对话等。然而，现有的LLM智能体面临两大困境：一是依赖静态、手工设计的工作流程，缺乏灵活性，无法适应新环境；二是通过微调LLM参数来实现适应，虽然灵活但成本极高，且容易发生“灾难性遗忘”，不适合持续学习。

这就引出了一个核心问题：能否让LLM智能体像人类一样，通过记忆和经验持续学习，而不必每次都重新训练或微调模型？

论文：AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
链接：https://arxiv.org/pdf/2508.16153

本论文正是针对这一挑战提出的创新解决方案。作者受人类记忆机制启发，提出了一个基于记忆的在线强化学习框架，智能体通过不断积累成功和失败的经验（存入“案例库”），在遇到新任务时快速检索相似案例指导决策，从而实现持续进步——整个过程完全不更新LLM的权重。

AgentFly在多个权威基准测试中表现卓越，如在GAIA验证集上达到87.88%的准确率（排名第一），在DeepResearcher上显著超越已有训练型方法，证明了其高效性和泛化能力。这不仅为构建低成本、高自适应的通用智能体提供了新范式，也推动了AI向更接近人类学习方式的方向发展。

下面，我们将深入解读AgentFly的核心方法、实现细节、实验结果及其深远意义。

核心方法：基于记忆的MDP与案例推理（CBR）

形式化框架：记忆增强的MDP（M-MDP）

传统强化学习使用马尔可夫决策过程（MDP）建模智能体与环境的交互，包括状态、动作、转移概率、奖励函数等。AgentFly在此基础上引入外部记忆空间，形成记忆增强的MDP（Memory-augmented MDP, M-MDP），其定义为：

其中：

：状态空间（当前任务或环境状态）
：动作空间（智能体可执行的操作）
：状态转移函数
：奖励函数
：折扣因子
：记忆空间，存储历史经历（案例）

记忆空间 是AgentFly的核心创新。每个案例是一个三元组，分别表示过去某次任务的状态、执行的动作和获得的奖励。智能体通过不断积累这些案例，形成一个不断增长的“经验库”。

CBR智能体的决策机制

AgentFly的决策过程模仿人类的案例推理（Case-Based Reasoning, CBR）过程，分为四步：

检索（Retrieve）：根据当前状态，从案例库中检索出最相关的案例。
重用与修订（Reuse & Revise）：基于检索到的案例，LLM生成当前动作。
评估（Evaluate）：执行动作，获得奖励和下一个状态。
保留（Retain）：将本次经历存入案例库，更新记忆。

整个轨迹的概率可表示为：

优化目标：最大熵强化学习与软Q学习

为了优化案例检索策略，作者采用最大熵强化学习，在最大化累积奖励的同时鼓励策略多样性，避免陷入局部最优。其目标函数为：

其中是熵，是温度超参，控制探索与利用的平衡。

在该框架下，软Q函数 表示在状态和记忆下选择案例的期望回报，其贝尔曼方程为：

其中是软价值函数。最优检索策略具有闭式解：

该公式是核心中的核心：它告诉我们，检索案例的概率由它们的Q值决定——Q值越高的案例（即过去越成功的案例），被选中的概率越大。温度参数控制着探索程度：越大，策略越随机；越小，越倾向于选择Q值最高的案例。

两种记忆机制实现

AgentFly提供了两种实现检索策略的方式：

非参数化记忆：直接使用向量检索（如余弦相似度）从案例库中找最相似的案例。简单高效，但缺乏适应性。
参数化记忆：训练一个神经网络Q函数来评估案例价值，并通过梯度下降更新（见公式15和26）。更灵活，能学习到任务之间的潜在规律。

实现：AgentFly深度研究智能体

AgentFly被实例化为一个规划器-执行器（Planner-Executor）架构，如上图所示，两者交替工作，共同完成任务。

双阶段协作流程

规划器（Planner）：由强大LLM（如GPT-4.1）驱动，是一个CBR智能体。它接收用户任务，从案例记忆中检索K个相关案例，据此制定计划（分解为子任务），并写入子任务记忆。
执行器（Executor）：由轻量LLM（如o4-mini）驱动，负责执行子任务。它读取子任务，使用工具记忆（记录工具使用历史），调用相应工具（如搜索、代码执行），并将结果写回。

三类记忆模块分工

案例记忆（Case Memory）：存储宏观规划经验（任务-计划-奖励）。
子任务记忆（Subtask Memory）：记录当前任务的子任务列表及其状态。
工具记忆（Tool Memory）：记录每个子任务下的工具调用和返回结果。

这种设计确保了任务上下文的持续传递和精细化管理。

强大的工具集成

为了应对深度研究的复杂需求，AgentFly通过Model Context Protocol (MCP) 集成了丰富的外部工具：

信息获取：Meta搜索引擎（SearxNG） + 精准爬虫（Crawl4AI）
多模态处理：支持图片、音频、视频、PDF、PPT、表格等数十种格式的解析与理解
推理与分析：Python代码执行沙盒、数学计算工具

这使得AgentFly能真正像人类研究员一样，在互联网上搜索信息，阅读各种格式的文档，进行数据分析，并最终给出答案。

记忆读写机制对比

机制	写入（Write）	读取（Read）	特点
非参数化	直接追加案例	TopK相似度检索	简单、快速、可解释
参数化	追加案例 + 更新Q网络	按Q值TopK检索	自适应、可学习、更精准

在深度研究场景中，任务通常是单步规划（即规划器只规划一步，执行器执行多个工具调用），因此作者将Q学习目标简化为监督学习，避免了时序差分学习的不稳定性，并用交叉熵损失替代MSE，更适合二值奖励信号。

实验与性能

论文在4个具有挑战性的基准上进行了全面评估，充分验证了AgentFly的有效性。

数据集

GAIA：复杂工具使用与多步规划，分3个难度等级。
DeepResearcher：7个开源QA数据集合集，测试实时网络研究与多跳推理。
SimpleQA：事实性单跳问答，检验幻觉抑制能力。
HLE (Humanity's Last Exam)：涵盖多学科的长尾知识问答，测试极限推理能力。

主要结果

DeepResearcher：AgentFly取得了66.6% F1和80.4% PM的平均分数，显著超越所有Prompt-Based和Training-Based基线模型，证明了其在线研究能力的强大。
GAIA：在验证集上达到87.88% Pass@3，排名第一；在测试集上达到**79.40%**，名列前茅，超越了Manus、AWorld、OWL等知名开源框架。
SimpleQA：达到95.0%的准确率，创下新SOTA，表明其出色的事实准确性和抗幻觉能力。
HLE：达到24.4% PM，仅次于GPT-5，在专家级长尾知识问题上展现了惊人潜力。

消融实验

消融实验清晰地展示了各个组件的贡献：

离线执行器 → 在线执行器：接入实时工具带来巨大提升（如SimpleQA: +28.8 F1），但有时因数据污染会下降（DeepResearcher: -18.0 F1），说明模型内部知识同样重要。
在线执行器 → AgentFly (w/o CBR)：增加规划器带来全面、显著的提升（所有任务+10~30点），证明规划与工具编排至关重要。
AgentFly (w/o CBR) → 完整AgentFly：引入CBR记忆机制带来一致的额外提升（+4~8点），证明了案例推理的独立价值。

持续学习与泛化能力

持续学习：随着迭代次数增加（案例库变大），性能持续提升，参数化CBR增益优于非参数化。
OOD泛化：在训练时未见的任务上（MusiQue, Bamboogle, PopQA），性能仍有4.7% ~ 9.6% 的绝对提升，展现了出色的泛化能力。

超参数分析

检索案例数并非越多越好。实验表明，时效果最佳，超过后性能持平或下降。这说明少量高质量案例比大量噪声案例更有效，与少样本学习中的“越多越好”结论不同，凸显了记忆 curation（策展）的重要性。

讨论与分析

效率与成本分析

工具使用统计：随着任务难度增加，代码、搜索、爬虫工具的使用占比显著上升，说明复杂任务更依赖外部信息获取和处理。
Token消耗：Level 3任务的输入Token（~121k）远高于输出Token（~9.8k），说明计算开销主要来自整合和分析多步工具的输出，而非生成最终答案。这为优化系统性能指明了方向。

规划器模式：“快思考”胜于“慢思考”

一个有趣的发现是：使用快速、非慎思的规划器（GPT-4.1）配以强大的执行器（o3），其效果（70.9%）远好于使用慢速、慎思的规划器（o3本身，63.03%）。分析表明，慢速规划器容易产生冗长、模糊的计划，甚至跳过规划直接回答问题，导致执行器困惑。而快速规划器能生成简洁、结构化的计划，更有效地指导执行器。

这揭示了在模块化系统中，角色清晰分工比每个组件都“大力出奇迹”更重要。