关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro833人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中年女人穿衣别太花哨!早春掌握好这些简约穿搭,高级显气质

静儿时尚达人 浏览 12513

日本加息,“可怕”的逻辑拆解

郎club 浏览 14848

泽连斯基称“俄军春季攻势已打响”

环球网资讯 浏览 19250

“卷”起来!人形机器人,只要9998元!

中国基金报 浏览 890

刘强东“最值钱”的金融牌照,迎来75后掌舵人

经理人杂志 浏览 977

一句话点评10月紧凑型SUV:燃油车不仅没有死,居然还愈战越勇了

汽车公社 浏览 363

司乘天平上的滴滴

远川研究所 浏览 1005

淘特回应团队大部分人员合并到淘宝:业务有调整,不会并入淘宝

Tech星球 浏览 18746

黄石公交陷停运困境:电池衰减严重 司机不敢开空调

界面新闻 浏览 86006

以总理"碰瓷"中国 媒体:找错了对象更开错了药方

看看新闻Knews 浏览 11672

公司宣传“员工通宵加班致流产”?工作人员回应:已删除文章,不存在此事

每日经济新闻 浏览 15673

前10月规模以上高技术制造业利润同比增长8.0%

北京商报 浏览 326

上汽销量反超比亚迪,真实“含金量”如何

经济观察报 浏览 812

QQ25岁再改版,为何从模仿微信开始?

陆玖商业 浏览 12481

中方表态菲律宾加拿大签军事协议

北京日报 浏览 709

2024款ID.3新增车型正式上市 限时优惠价14.2888万元

行车视线 浏览 13093

美议员呼吁击落俄飞机 俄大使:他在煽动核战争

环球时报国际 浏览 19018

1-9月百万级豪车销量:奔驰3款入榜,奥迪出局,仰望U8苦苦支撑?

AGKC阿贵艺车 浏览 709

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 841

黄子韬加入佛山GK电竞俱乐部成为联席CEO及明星合伙人

趣看热点 浏览 26227

台军想用美售无人机进行反潜作战?专家:心理安慰

环球网 浏览 25981
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1