关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3615人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄议员:美国扣押油轮是"21世纪的海盗行为"

极目新闻 浏览 13396

全运男足大冷?3大热门均无缘决赛!众国脚拉胯,徐根宝+韩鹏留憾

我爱英超 浏览 3420

全新一代轩逸实车曝光!颜值飙升,内饰双联屏,动力依旧“佛系”

汽车有文化 浏览 3741

印度被“揍”服!莫迪放话认怂,背后另有隐情

浏览 6511

OpenAI完成重组!微软持股缩减至27%,市值再超4万亿美元

澎湃新闻 浏览 3466

中航成飞:第三季度净利润12.56亿元 同比增长170%

网易财经 浏览 3690

吉利银河星耀6全球上市 限时置换价6.88万起

网易汽车 浏览 3497

vivo严打“黑公关”:索赔近千万!

互联网那些事 浏览 3735

韩总理下达紧急指令:必要时强力应对个别反华集会

环球网资讯 浏览 15841

搭第四代MBUX系统 奔驰纯电GLC亮相2026 CES

车质网 浏览 2703

Meta被曝靠诈骗广告赚取巨额利润

北京商报 浏览 3505

双星名人创始人父子决裂 父亲称被儿子扣工资借钱维生

极目新闻 浏览 9998

美媒承认:乌重镇即将被攻克

环球时报国际 浏览 3507

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 9706

你恐慌我贪婪!约500亿资金借道ETF蜂拥进场,主力机构正重金下注这些板块(附名单)

每经牛眼 浏览 3749

思想实验成真!量子江湖百年对决见分晓,中科大勘破波粒玄机笑傲江湖|光锥读论文

未来光锥 浏览 3082

男子去理发结果给店家投40多万 自称不好意思拒绝别人

极目新闻 浏览 8493

美的致富路,机器人暂未挑大梁

北京商报 浏览 3493

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 4033

或预示未来设计风格 现代汽车发布全新硬派SUV概念车

乐选爱车 浏览 3076

郑丽文就任国民党主席 曾喊"让台湾人自豪说是中国人"

环球时报新闻 浏览 14546
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1