关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro866人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

东南欧小国选举 俄罗斯、乌克兰和欧盟"异常罕见"关注

上观新闻 浏览 33185

演员黄璐将惊喜现身明日艺术影院映后❤️

幕味儿 浏览 624

乌武装部队总司令称乌军已由进攻转向防御

央视新闻客户端 浏览 12472

再见60岁倪奶奶!23岁伊藤美诚打疯了,3-0横扫送对手一轮游!

乒谈 浏览 11811

中国车在俄份额跌破50%,新一轮洗牌开启

汽车公社 浏览 81

这些都是普通人适合的穿搭!多穿卫衣和半身裙,舒适又耐看

静儿时尚达人 浏览 681

一周军评:尴尬的B-1B与美国战略空军

观察者网 浏览 13013

她曾追求刘德华至家破人亡,如今怎么样了

除夕烟火灿烂 浏览 838

4岁女孩在未锁门的车里睡觉突然失联 刑侦介入

极目新闻 浏览 6485

这5件衣服尽量舍弃 谁穿谁掉价

形象设计师飞飞 浏览 19128

不赶潮流的她们,从20岁时髦到80岁

LinkFashion 浏览 12591

统治力!罗诗芳卫冕全运会女子举重59公斤级金牌!

体坛周报 浏览 614

续航1200km还配剪刀门 东风eπ007预售15.9万起

网易汽车 浏览 12717

路虎卫士设计师将出任奥迪设计总监

第壹新车 浏览 12278

女子卷走公司2000万欲跑路 最后一刻害怕被抓放弃登机

环球网资讯 浏览 7426

英国网速为什么还不到东南亚的一半?

远川研究所 浏览 15603

中国海军越来越强大了,俄罗斯如此感叹

浏览 11069

今年秋冬最流行的外套竟然是它?谁穿谁时髦!

LinkFashion 浏览 994

勇士124-106轻取鹈鹕,库里11中2仅9分,穆迪8记三分

懂球帝 浏览 524

74岁张纪中与年轻妻子结婚,真的过得幸福吗

丹妮观 浏览 875

专家:胡塞武装接连攻击 美方组建多国部队是火上浇油

北京日报客户端-长安街知事 浏览 73876
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1