关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2659人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 976

特朗普:将对任何涉嫌向美"走私毒品"的国家实施打击

每日经济新闻 浏览 2184

吴磊大瓜牵扯多位明星!爆料女主骂赵露思骚扰吴磊,曝何猷君出轨

萌神木木 浏览 1568

苹果折叠屏iPhone Fold细节曝光:钛合金机身,售价超2000美元

IT之家 浏览 3401

甲骨文盘中涨超6%,华尔街"抄底派"料股价有望反弹90%

华尔街见闻官方 浏览 2215

张朝阳怀念杨振宁:他在物理学家中排第一,高过费曼和霍金

三言科技 浏览 2774

章子怡带醒醒追星宋雨琦,母女俩飞日本看演唱会,后台合影超开心

扒虾侃娱 浏览 2816

大迫敬介:巴西的球员个人能力出色,高位逼抢可能会效果不佳

懂球帝 浏览 2783

6岁女童练习"下腰"致截瘫 经营者曾因逃避执行被刑拘

红星新闻 浏览 16373

今年最狠悬疑剧,好人为何集体沉沦?

仙女事件簿 浏览 2710

邮报:利物浦等队密切关注塞门约,伯恩茅斯估价超7500万镑

懂球帝 浏览 2801

蚂蚁集团突破性研究:一个视觉"万能钥匙"让AI同时理解和创造图像

科技行者 浏览 2527

本田全新缩小版“CR-V”上市!限时售价10.99万起,搭载1.5T+CVT

小史谈车 浏览 1594

Here we go!罗马诺:安德莱赫特边锋尼尔松-安古洛加盟桑德兰

懂球帝 浏览 1408

比尔·盖茨被指感染性病并隐瞒 前妻首次回应

大风新闻 浏览 3472

金标大众:在智能电动时代,守护那份“看不见”的安心

时代周报 浏览 1765

自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

电车通 浏览 1626

整形医生称泰勒·斯威夫特怀孕了

阿废冷眼观察所 浏览 2694

环球小姐赛事双东家被签发逮捕令

土澳的故事 浏览 2200

吴磊起诉白珊珊诽谤,白珊珊称被盗号

芊手若 浏览 1632

男子在狱中病亡14年后获宣告无罪 家属上坟:平反了

澎湃新闻 浏览 21593
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1