关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3609人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

30万的玛莎拉蒂,被一抢而空!超跑皇后暴击中国人

象视汽车 浏览 2984

反转才不是「惊蛰无声」的最大看点

吐槽电影院 浏览 1953

2025秋冬最火的5件外套,今年流行的风格都离不开它们!

LinkFashion 浏览 5805

7场贡献3球1助攻,麦肯尼当选尤文1月最佳球员

懂球帝 浏览 2448

升东部第二!绿军轻取公牛获4连胜 西蒙斯27分普里查德21分

醉卧浮生 浏览 2787

见证历史!深夜,全线爆发!

券商中国 浏览 4380

卡帕西8000行代码手搓ChatGPT,成本仅100美元,手把手教程来了

量子位 浏览 3747

赵丽颖坦白自己近期“消失”的原因

湘村大余 浏览 3542

深蓝汽车邓承浩否认“没钱了所以融资”:现金流非常好

IT之家 浏览 2634

世体:坎塞洛、巴尔德和赫拉德-马丁各有特点,首发难以确定

懂球帝 浏览 1968

媒体人:国足主帅应让中青年土帅担纲,说不定杀出一位霍去病

懂球帝 浏览 4426

小川航基:没赢下巴拉圭心有不甘;对阵巴西的机会肯定会更少

懂球帝 浏览 3704

章泽天这次翻车,真的不冤

独立鱼 浏览 2624

世体:阿尔马达引发多家俱乐部争抢,本菲卡已对他表达兴趣

懂球帝 浏览 2693

售37.99万起 岚图泰山上市首月完成5000台交付

网易汽车 浏览 2851

高通遭反垄断调查,国产平替芯片机会来了?

禾颜阅车 浏览 3814

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

静儿时尚达人 浏览 3560

NBA球员工会:我们与明州人民站在一起,必须捍卫言论自由的权利

懂球帝 浏览 2678

山西多地连续阴雨致农作物发霉 当地要求"抢收抢种"

极目新闻 浏览 3888

继女子吃辣条中一根金条后 又有人吃泡面中1克黄金

上观新闻 浏览 4226

博尔达拉斯:巧妇难为无米之炊,我不该承受这赛季所遭受的一切

懂球帝 浏览 2600
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1