关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3614人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

E句话| 姐有新恋情啦?

仙女事件簿 浏览 2945

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 3679

一汽-大众迈腾臻选款上市 售价17.49万元起

车质网 浏览 3193

山东加时105-99福建取4连胜,陶汉林19+10,邹阳空砍28+8

懂球帝 浏览 2720

计划对菲律宾出口防空导弹 日本危险动作引担忧

上观新闻 浏览 3129

活塞99-98险胜老鹰,杜伦21分11板,杰伦-约翰逊空砍29+13

懂球帝 浏览 3136

拆解重庆农商行2025年财报:对公发力促增长,零售战略受挫

Daily每日财报 浏览 522

山东“入室抢婴案”一审宣判 4名被告人最高获死缓

环球网资讯 浏览 13970

华为无线鼠标优享版开售:支持星闪技术,售价 59 元

IT之家 浏览 3757

营销悍将赵长江加盟智界,放言智界V9三年内无对手!

车市红点 浏览 2716

巴菲特大举买入谷歌,股神为何爱上科技股?

郭施亮 浏览 3369

内德维德:我一直很喜欢加斯佩里尼,罗马有这样的教练是幸运

懂球帝 浏览 3667

“疲惫脸”太丑了!有这些特征的女生怎么救?

Yuki女人故事 浏览 4282

吴速玲曝儿子Joe是恋爱脑

韩小娱 浏览 2689

蔚来全新ES8正式上市,起售价40.68万元

财经无忌 浏览 4529

俄军中将在汽车炸弹爆炸中身亡 现场画面披露

央视新闻客户端 浏览 2918

小鹏第二代VLA推送前,何小鹏回应用户关心的22个问题

百姓评车 浏览 1660

伊朗方面披露美军在伊南部海域兵力布防

新京报 浏览 2366

港股科网类产品强势吸金,港股通互联网ETF本周规模增超72亿元,年内增幅超325% | ETF规模周报

每经牛眼 浏览 4371

"鸡排哥"在座谈会上发言 被指"讲出了6亿项目的气魄"

扬子晚报 浏览 40478

农夫山泉的冰杯,比哈尔滨冰雪大世界的冰还赚钱?

BT财经 浏览 2687
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1