关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro871人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4天票房过亿口碑却走低,一件更糟糕的事,正在国产爱情片中发生

毒舌电影 浏览 12121

S家族,最出名的不是八卦?

江湖人称艾掌门 浏览 900

长这样的外套,大骨架女孩不要买!

Yuki女人故事 浏览 840

苹果彻查iPhone 17 Pro褪色:问题机型已被回收

快科技 浏览 862

掘金无缘登顶西部:约基奇9中8砍27+11+6里程悲 超越詹皇改写历史

厝边人侃体育 浏览 12905

鸿蒙智行10月交付新车68216台 创单月交付量新高

网易汽车 浏览 733

再见美拉德,今年流行的“新高智风”时髦又高级!

LinkFashion 浏览 866

离婚7个月,霸总杨子又给内娱上了一课

老吴教育课堂 浏览 1021

中国惨负美国!美主帅安慰韩登,赵维伦沮丧,排位赛有望取胜

篮球资讯达人 浏览 15393

阿兰-希勒评本周英超最佳阵:萨卡毫无意外入选,沃尔科特在列

直播吧 浏览 19374

女孩被篮球砸头后确诊癔症自残失禁 母亲:我也不理解

上游新闻 浏览 6726

媒体:理想合并零售与交付两大部门 全力卖车

网易财经 浏览 11085

《让子弹飞》开机前的第9天,导演姜文大发雷霆,“老四”一角迟迟没有找到合适的演员

趣看热点 浏览 26529

突发!一辆理想MEGA行驶中起火爆燃!

电动知家 浏览 843

电动皮卡只巡展不上市,怪中国法规?完全是特斯拉自己的锅

路咖汽车 浏览 12462

理想 ONE 汽车全部售罄:从 0 到 1 的功臣终迎来落幕之时

IT之家 浏览 16763

徐新:新赛季全队的目标是夺冠;球迷对我的评价我都理解接受

懂球帝 浏览 12267

2部电影票房不到5亿,62岁刘德华展现港圈的无奈

不八卦会死星人 浏览 12678

男子割包皮质疑收费贵杀害医生获无期 案件细节披露

潇湘晨报 浏览 108361

时装周明星生图:关晓彤脸白脖子黑,黄圣依驼背

不八卦会死星人 浏览 19365

媒体:中东欧三国欲组队 在欧盟内部对援乌政策"掀桌"

上观新闻 浏览 7197
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1