关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro858人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李亚鹏官宣离婚!结束与海哈金喜3年婚姻,孩子将跟着母亲生活

扒虾侃娱 浏览 1012

宋慧乔怎么不会老啊?

时尚COSMO 浏览 403

乌军从重镇阿夫杰耶夫卡撤出 俄军被指取得重大胜利

环球时报新闻 浏览 81461

庄羽正式成立反剽窃基金郭敬明将汇款300万至反剽窃基金

趣看热点 浏览 26203

富力老板深陷“行贿案”!富二代却逃过一劫

金融八卦女 浏览 15962

剑南春|米兰1-0恩波利取3连胜,普利希奇制胜,奥卡福尔助攻

懂球帝 浏览 11926

彻底对标苹果?小米17 Air要来,可iPhone Air都凉了

雷科技 浏览 798

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 655

哲凯还是谢什科?鲁尼:伊萨克谢什科二选一我也还是会选后者

懂球帝 浏览 811

邮报:欧文儿子因眼部疾病,放弃成为足球运动员

直播吧 浏览 12619

王阳新剧开播差评多 与李兰迪上演"父女恋"被吐槽

不八卦会死星人 浏览 14957

Vision Pro被科技博主吹爆,却难掩四大致命硬伤,初代产品谨慎买

雷科技 浏览 16487

杨洋王楚然曝恋情,前任乔欣王子奇纷纷疑似倒油

萌神木木 浏览 18516

知情人:美防长本周访问中东将宣布红海护航行动

央视新闻客户端 浏览 13371

月薪2万,吃不起一顿麻辣烫

市界 浏览 15722

日均不到1000元机器人带回家?智元为机器人租赁市场带来“令人心动的offer”

时代财经 浏览 749

折叠屏iPhone或于后年推出/华为知情人士回应P70延期发布/鸟山明去世,《海贼王》《火影》作者悼念

爱范儿 浏览 12421

多人手机信号深夜同时消失 出海7次未带回1条鱼被抓捕

极目新闻 浏览 5191

宗馥莉第二次请辞 娃哈哈员工:宗庆后可能也没想到

澎湃新闻 浏览 3782

媒体:尹锡悦刚向老对头日本服软 朝鲜对美强硬喊话

国防时报排头兵 浏览 100611

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 813
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1