关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2658人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿里主动加码外卖大战,谁能笑到最后?

陆玖商业评论 浏览 1692

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 1463

购置税新规下的购车选择题,插混车抄底还是等新车?

百姓评车 浏览 2849

宾夕法尼亚大学提出分子设计新方法:如何让药物既有效又安全?

科技行者 浏览 2639

一夜进账244亿元!李斌靠爆款车翻身,破除蔚来倒闭魔咒,

象视汽车 浏览 3096

帮助中国人撤离的伊朗民众:我们走不了的

南方都市报 浏览 832

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 2681

“量子科技第一股”董事长离世余波调查:已排除是刑事案件

时代周报 浏览 1913

丹麦议员:我从没想过会站在美国使馆前示威

环球网资讯 浏览 5928

小米公布团队接触相关KOL事件正式调查结果

IT之家 浏览 1702

狼队主帅:我执教的6场比赛,踢到后面球队总是会自己崩盘

懂球帝 浏览 1984

今年秋天的卫衣,放松穿最好看!

LinkFashion 浏览 3286

西班牙足协主席:我们会充分照顾球员利益,俱乐部可以放心

懂球帝 浏览 2552

76岁著名演员许绍雄被指病危 多位圈中好友已赶到医院

极目新闻 浏览 8663

票房破26亿,只是个开始!谢霆锋、王宝强、吴京要掀起一波新高潮

皮皮电影 浏览 1658

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 2125

两个男演员冲上热搜!举止亲密惹关注

萌神木木 浏览 1632

外媒聚焦中国“最强航母”:看得清清楚楚 很冲击了

观察者网 浏览 6685

从一罐无糖,到“全城疯迷”:百事如何把联名做成渠道新生意

新零售财经 浏览 2028

智己LS8官图发布:5米车长增程动力 理想L8怕了吗

大李说车 浏览 1499

2025内河港口1-8月吞吐量:苏州4亿吨,九江第4,岳阳超重庆武汉

小鹏财经 浏览 2888
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1