关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2654人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗欣药业聘任前基金经理当董秘,刚抛出8.42亿元定增,加码原料药和创新药

红星资本局 浏览 2782

下一代GPU,竞争激烈

半导体行业观察 浏览 3393

三季报,茅台失速!

YOUNG财经 浏览 2509

E句话|“我只眼神给出去”?黑白颠周媛账号被封

仙女事件簿 浏览 1509

除了阔腿裤,这条裤子今年最流行!

LinkFashion 浏览 490

港股上市未满3个月,干了7年的期货公司董秘突然辞任

财通社 浏览 689

奇瑞集团10月份销售汽车281161辆 同比增长3.3%

网易汽车 浏览 2604

海来阿木凭《嘉禾望岗》爆火 新歌播放量10亿

科学发掘 浏览 1395

朱媛媛离世5月后,辛柏青再传坏消息

乡野小珥 浏览 2317

追觅进军衣物护理市场,推出首款产品 P7 蒸汽挂烫机

IT之家 浏览 2589

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 2795

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 13350

中国留学生潜水后失踪妻子4天后报警 仅找到一根胫骨

新民晚报 浏览 21519

罗志恒:三季度经济增速为何放缓?四季度经济前景如何?

首席经济学家论坛 浏览 2706

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 2673

丝袜称明年随心参赛无视强制参赛规则,高芙称女网更有趣更具悬念

网球之家 浏览 2557

太阳报:曼联预计未来几周官宣前往沙特踢季中赛

懂球帝 浏览 2439

AI录音设备大混战

华尔街见闻官方 浏览 1554

马斯克SpaceX太空能源计划浮出水面,中国光伏产业或成关键一环

DeepTech深科技 浏览 1403

李湘账号被封;蔡依林鸟巢开唱:张水华直播道歉

娱乐圈那档子事儿 浏览 1630

世界排名升至第2!莫雷加德创生涯新高,力压林诗栋雨果张本智和

乒谈 浏览 861
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1