关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2958人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卡帕西8000行代码手搓ChatGPT,成本仅100美元,手把手教程来了

量子位 浏览 2762

鹿晗关晓彤恋爱期间毫不避讳?

娱晓晓 浏览 1904

八部门:加快脑机接口等新型终端的产业化、商业化进程

澎湃新闻 浏览 1721

华为鸿蒙 HarmonyOS 6.0.0.107 SP7 / SP5 Developer 版本发布

IT之家 浏览 2832

加沙城民众生计仍然艰难 天气与蚊虫也成威胁

极目新闻 浏览 2649

输深圳山西球迷绝望了!末节攻守全崩,精气神也丢,该清理混子了

篮球资讯达人 浏览 1638

斯坦福MLE-Smith:自动生成机器学习竞赛题目

科技行者 浏览 2534

2025年净利至少增超78%!减肥药价格战凶猛,甘李药业:相关产品未上市,价格策略待定

时代周报 浏览 1555

媒体:执政半年 李在明抓住了一个关键窗口期

澎湃新闻 浏览 7575

五十岁女性别总穿卫衣!这3种上衣显贵又洋气,轻松穿出无龄感

静儿时尚达人 浏览 2566

坦克400预售:新增激光雷达,支持高阶辅助驾驶

IT之家 浏览 2764

利智和李连杰合影,一个合不拢嘴,一个一脸苦相

港剧叔 浏览 2684

买插混车盯紧这个数!明年可能多花上万元

中新经纬 浏览 2908

“电池车”全面压过“发动机”一头?油车时代的辉煌,被彻底终结

少数派报告Report 浏览 2138

纳斯达克称申请将工作日交易时长延长至23小时

财联社 浏览 1965

月销破7万台!汽车圈外行朱江明,成新势力大赢家

象视汽车 浏览 2415

王涵 : 从资本市场视角看四中全会公报——提振信心,后市可期

首席经济学家论坛 浏览 2748

DNA双螺旋结构发现者詹姆斯・沃森去世

第一财经资讯 浏览 2039

美媒:以总理计划说服特朗普帮忙打伊朗

北京日报 浏览 2012

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

LinkFashion 浏览 1389

售出39000台 小米汽车公布2026年1月销量

网易汽车 浏览 1454
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1