关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro835人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这内娱顶流,彻底凉了

独立鱼 浏览 12632

中汽协:我国2023年汽车销量突破3000万辆,出口491万,再创新高

Nice好车 浏览 12449

库里37分 克莱24分 卡梅隆-托马斯41分 勇士力克篮网止3连败

直播吧 浏览 13096

11月新车:奇瑞长城神仙打架,朗逸也来凑热闹

汽车网评 浏览 698

绿地张玉良,失去一员“大将”

红星资本局 浏览 1520

岁月不败美人!贾静雯、杨谨华、林心如,她们的40岁比20岁更美

LinkFashion 浏览 767

你在等新一代普拉多,还是现在入手坦克500?

Autolab 浏览 12611

重磅!国务院机构改革方案公布 一图读懂13项重要变化

人民日报客户端 浏览 99826

巴萨官方:佩尼亚续约至2026年,违约金4亿欧

直播吧 浏览 18651

广州6分险胜同曦,来看看赛后郭士强和西热力江说了什么?

篮球资讯达人 浏览 19491

哈马斯官员称将“很快”回复停火提议

新华社 浏览 12219

中国停购后 美国大豆真"爆仓"了人们四处逃散

澎湃新闻 浏览 8782

拜登将在波兰发表俄乌冲突一周年讲话 为乌打气

澎湃新闻 浏览 35667

或许,男性形象该被重新定义了

CC主义 浏览 15894

迪士尼,10亿美元投资OpenAI

中国基金报 浏览 35

“不漏腿”的穿搭更时髦 不晒黑还显腿长!

一只可可 浏览 15981

FF91创下“里程碑”但FF已“腰斩”掉百亿元市值

每日经济新闻 浏览 20698

记者:默郡警方安监控,严防利物浦vs曼城一战有人闹事

直播吧 浏览 11874

最高续航430km 五菱缤果S置换补贴价6.38万起

网易汽车 浏览 1496

媒体:自家老牌车企落后中美 欧盟恐对中国车厂下手

澎湃新闻 浏览 8039

全新比亚迪SHARK6亮相 1000km综合续航+L2级智驾

华庭讲美食 浏览 651
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1