关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3607人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

许家印出事前,只有他提前果断脱离恒大,至今毫发无损

壹只灰鸽子 浏览 3591

维蒂尼亚晒自己和伊涅斯塔合影:终极榜样,我太幸运了

懂球帝 浏览 2881

诺贝尔委员会拒绝和平奖转让特朗普

环球时报 浏览 7333

中国排名前五的储能企业未来三年有望占据全球50%以上市场份额

澎湃新闻 浏览 3650

拉波尔塔:这场胜利来得正是时候;亚马尔一如既往地出色

懂球帝 浏览 3451

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 3710

苹果计划为 iPad Pro 引入 iPhone 17 Pro 的均热板散热

威锋网 浏览 3533

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 3711

上海女子"喊冤"汽车压上石头爆胎无人赔偿 网友吵翻了

环球网资讯 浏览 8449

白银飙涨创历史纪录!已无可用的流动性!

国际金融报 浏览 3761

最爱发钱老板开工刷屏:2小时订单破亿 客户排队交钱

极目新闻 浏览 38368

日产卖楼关厂裁员,断臂求生

21世纪经济报道 浏览 3437

媒体:美方28点计划引全球哗然 泽连斯基将背负骂名

经济观察报 浏览 15251

泰柬边境冲突已致19名柬埔寨平民死亡

国际在线 浏览 2932

特斯拉陶琳:印度首批Model Y交付,全部来自特斯拉上海工厂

盖世汽车 浏览 4298

避险情绪弥漫 比特币12月开局闪崩

北京商报 浏览 3088

委反对派领导人把自己的诺贝尔和平奖赠予特朗普

财联社 浏览 2555

同游仍少年!精灵世界空降杭州

时尚COSMO 浏览 2923

49岁舒淇终于承认不孕,备孕9年无果一度抑郁

小娱乐悠悠 浏览 3331

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

Yuki女人故事 浏览 4409

32岁章泽天,开播客节目采访刘嘉玲

娱乐圈笔娱君 浏览 2533
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1