华游娱乐盘口

华游娱乐盘口

华游娱乐中国官网入口 CASCADE: 让Agent在部署任务流中进行在线教悔学习

发布日期:2026-05-25 20:41 来源:未知 作者:admin 浏览次数:

华游娱乐中国官网入口 CASCADE: 让Agent在部署任务流中进行在线教悔学习

本文作家来自伦敦大学学院、吉林大学和伦敦国王学院。本文第一作家为吉林大学博士生郭想源,伦敦大学学院汪军教悔为论文终末作家。换取西宾还包括伦敦国王学院杜雅丽副教悔、吉林大学陈贺昌策划员与常毅教悔。

当 LLM Agent 插足信得过应用后,它濒临的不再是一次性的静态测试集,而是捏续到来的任务流。

每一次器具调用、代码执行、网页搜索或任务完成,齐会产生响应:顺利如故失败?左证是否充分?器具是否选对?这些部署阶段当然产生的信号,能否反过来匡助 Agent 变得更好?

策划团队的最新责任建议了部署时学习(Deployment-Time Learning,DTL),并进一步建议 CASCADE。它的中枢不是浮浅积存教悔,而是让 Agent 在在线任务流中学会聘请教悔:濒临面前任务,应该参考曩昔哪一次交互,才略作念出更好的方案?

论文标题:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen

策划布景

现在 Agent 教悔学习的干系责任中,常见设定大约有两类:

第一类不绝传统机器学习范式:系统先在试验集上学习,举例微调模子、优化辅导词、构建记忆库或妙技库,然后在测试集上评估。

第二类则眷注开动时学习,即系统在归并个数据集上先学习多轮,然后不雅测其性能提高。

这些设定齐具有策划价值,但信得过部署还包含一个病笃维度:工夫。在信得过系统中,任务是按限定到来的。Agent 不可提前看到畴昔任务,也不可冒昧回到曩昔重作念某个肯求。每一步既是一次职业,亦然一次响应网罗;面前聘请不仅影响面前任务效果,也可能影响后续战略。

因此,CASCADE 将部署时学习界说为一个在线学习问题。在第 t 步,Agent 不雅察到一个查询,生成谜底或举止轨迹,环境复返顺利 / 失败的二值响应。Agent 的成见不再仅仅优化单个任务,而是提高整个这个词部署序列上的长久顺利率;等价地说,是裁减在线学习中的缺憾(Regret)。这一设定更接近工业系统中的捏续职业过程,也为评估 Agent 的部署稳健才略提供了了了阵势化。

基于案例的部署时学习:CASCADE

在部署时学习的设定下,基座模子保捏固定,不合其参数进行在线更新。学习发生在 Agent 的外围组件中,尤其是记忆和检索机制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)为底层框架。当新任务到来时,系统从历史案例库中检索干系顺利案例,将其看成陡立文提供给 LLM,天博体育(TBSports)官方网站再根据环境响应决定是否保留新的案例。这一过程包括四个范例:

1. 检索(Retrieve):从束缚增长的案例库中检索候选案例;

2. 复用(Reuse):将案例看成陡立文,提拔 LLM 贬责面前查询;

3. 修改(Revise):生成最终谜底或举止轨迹;

4. 保存(Retain):要是环境响应为顺利,则将面前交互保存为新的案例。

在这个 4R 轮回中,CASCADE 的舛误在于:它将 “检索哪个案例” 建模为陡立文赌博机(Contextual Bandit)问题,从长途毕检索过程中的探索 - 行使量度。在每个工夫步,面前查询是陡立文,候选案例是可聘请的动作。Agent 聘请某个案例后,LLM 基于该案例生奏效果,环境复返顺利或失败响应。检索器随后行使该响应更新战略,在后续任务中更好地量度行使与探索。

换言之,CASCADE 学习的是一个在线检索战略:它行使部署过程中不雅察到的奖励信号,判断哪些案例在给定的任务中更灵验。针对这一场景,本文建议了 Neural-LinLogUCB 算法。它使用 Transformer 建模查询与案例之间的交互暗示,并通过线性头进行省略情味推断,从而适配二值响应下的陡立文赌博机学习。

从表面上看,CASCADE 将举座缺憾理解为两部分:

1. 掩盖差距:案例库是否照旧包含弥散干系的历史教悔;

2. 检索缺憾:在已有候选案例中,检索战略是否选中了最灵验的案例。

跟着部署过程捏续进行,华游娱乐中国官网入口顺利案例渐渐被保存到案例库中,由掩盖不及带来的耗损会裁减;同期,检索器通过二值响应更新,迟缓减少聘请演叨案例带来的检索缺憾。在合理假定下,CASCADE 不错得到完好憾学习保证。

因此,CASCADE 不仅仅一个记忆模块,而是一个面向部署任务流的原则化在线教悔学习框架。

部署时学习基准测试:DTLBench

为了系统评估部署时学习才略,论文构建了 DTLBench。该基准包含 16 个任务,掩盖医疗、法律、金融、智能运维、编程、具身方案、信息检索等范畴,并包含单轮任务和多轮任务。

单轮任务包括医疗会诊、药物保举、科室转诊、急诊分诊、法律罪名展望、刑罚展望、金融意图路由、金融厚谊分析、根因分析、日记故障会诊、Text-to-SQL。

多轮任务包括经典的 ALFWorld、ScienceWorld,以及两个更接近信得过应用的场景:基于网页的深度搜索和电子健康记载上的复杂表格推理。

在 DTLBench 中,每个任务齐被组织为在线查询序列。Agent 必须按限定处理样本,只可行使照旧发生的历史交互和响应。这一分歧使得部署步上的顺利率成为中枢评估策划。

幸运飞艇app2026世界杯中国官方下载

主要实验效果

在 12 个单轮任务上,使用 Qwen3-32B 看成底座模子时,零样本辅导的平均顺利率为 48.33%,非参数基线 NP-CBR 达到 63.76%,CASCADE 进一步提高到 66.68%。这一效果标明,案例复用自身照旧或者带来赫然收益;在此基础上,行使在线响应学习检索战略,不错进一步提高部署序列上的长久进展。

与基于参数更新的基线 REINFORCE+LoRA 比较,CASCADE 在 12 个单轮任务中的 9 个任务上赢得更好效果,并在其余任务上进展接近。同期,CASCADE 不需要更新底座 LLM 参数,学习过程显存低于 4GB,相宜在更轻量的部署要求下开动。

论文还考据了 CASCADE 对不同底座模子限度的适用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大大齐建立中均能带来褂讪提高。关于黑盒模子 gemini-2.0-flash,CASCADE 雷同适用,在可评估的 9 个任务上将平均顺利率提高到 72.58%,高于零样本辅导的 56.58% 和 NP-CBR 的 70.68%。

这些效果评释,部署时学习并无须须依赖对 LLM 参数的探望。关于基于 API 职业的黑盒模子,或者不相宜等闲微调的工业系统,CASCADE 提供了一种通过 Agent 外围组件进行捏续稳健的阶梯。

在 ALFWorld 上,CASCADE 将顺利率从 NP-CBR 的 62.01% 提高到 67.43%;在 ScienceWorld 上,从 59.36% 提高到 66.84%。将 CASCADE 插入 ReAct 框架后,也能进一步提高 Agent 在多轮环境中的任务完成率。

在基于网页的深度搜索中,Agent 需要多轮调用土产货 RAG 器具或及时网页搜索器具完成多跳问答。引入部署时学习后,CASCADE 在土产货 RAG 和及时网页搜索建立下均带来赫然提高。

在电子健康记载表格推理任务中,Agent 需要通过 API 查询数据库并生成代码。零样本辅导顺利率为 20.75%,NP-CBR 为 44.02%,CASCADE 进一步达到 55.76%,同期减少了平均调试轮数。

小结

CASCADE 试图回复一个在 LLM Agent 部署中越来越病笃的问题:当任务捏续到来、响应束缚产生,而底座模子参数保捏固定时,Agent 如安在信得过交互过程中进行学习?

本文的中枢孝敬不错轮廓为三点:

1. 建议部署时学习,将 LLM Agent 的部署阶段阵势化为无参数更新的在线教悔学习;

2. 建议 CASCADE,通过基于案例的推理与陡立文赌博机学习已毕原则化的部署时学习框架;

3. 构建 DTLBench,在 16 个跨范畴任务上评估 Agent 在在线任务序列中的长久进展。

从这个角度看华游娱乐中国官网入口,CASCADE 的要点不在于重新讲授 “教悔灵验”,而在于进一步建议:部署过程自身不错被建模、评测和优化。跟着 Agent 系统插足更灵通、更长程、更依赖器具的应用场景,如安在信得过任务流中行使响应进行褂讪学习,可能会成为大模子部署后的一个病笃策划标的。