关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3605人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴千语施伯雄逛街被偶遇,勾肩同行幸福甜蜜,有说有笑松弛感拉满

扒虾侃娱 浏览 3726

E句话|李雨桐又来锤薛之谦了?

仙女事件簿 浏览 1951

武契奇称"无法保证不制裁俄罗斯" 俄方回应

参考消息网 浏览 8498

深圳楼市的罕见机会,来了

博闻财经 浏览 3663

谢娜演唱会庆功宴现场 张杰宠妻 半个娱乐圈齐聚

手工制作阿歼 浏览 231

三星首发2nm移动芯片:为拔头筹,不惜“开倒车”

雷科技 浏览 2880

足球报:周金辉曾私宴塞蒂恩但他固执不改变,训练缺少强度

懂球帝 浏览 3821

当AI奖励模型开始"偷懒":字节跳动如何让它们跟上AI助手的步伐

科技行者 浏览 2471

吹过的牛,奇瑞新能源兑现了

电动势 浏览 2378

星纪魅族前美女副总裁,转投小米公关部

财通社 浏览 1915

空军发布重磅视频 多款新型战机亮相

参考消息 浏览 2436

50+女人快跳出“扮嫩”误区,学会4个技巧,就能穿出高级

静儿时尚达人 浏览 3519

高圆圆首谈当妈感受:感情都在妈妈身上用完了

雅儿姐爱追剧 浏览 2567

记者:福登疑似手部骨折,具体伤情还要等待扫描结果

懂球帝 浏览 2624

2天挨4 针,韩国皮肤科,挤满“特种兵医美”的中国人

每日人物 浏览 3145

足力健卖水饺,吃干榨净老年人?

斑马消费 浏览 4318

克洛普:斯洛特是特别好的人;当时没人告诉我还能这么花钱

懂球帝 浏览 3711

曝曼联与沙特谈B费转会价格!B费想自己主宰未来,拜仁或加入争夺

罗米的曼联博客 浏览 3715

谢娜首场演唱会结束 万人场馆座无虚席

老吴教育课堂 浏览 298

微软亚研院突破:强化学习赋予语言模型规划能力

科技行者 浏览 3605

宗馥莉,抛弃娃哈哈?

豹变 浏览 4258
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1