关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2962人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

又到每年假装自己是汤唯的时候了

时尚COSMO 浏览 2555

林心如曝与霍建华婚姻裂隙：孕期独守空房

一盅情怀浏览 2698

将于6月上市上汽大众途观L ePro谍照曝光

车质网浏览 1398

精彩推荐

上海一辆汽车突然失控撞向人行道男子在一旁猛喝热水

上观新闻浏览 21477

乐道汽车全年累计交付破10万台成交均价升至25万+

网易汽车浏览 1869

白银LOF变成了一种分级B

远川聊资管浏览 1382

慢镜头：科莫球迷主场静默15分钟，抗议米兰vs科莫的海外赛

懂球帝浏览 2825

鸿蒙与它的1000万“合伙人”

雪豹财经社浏览 2109

美国将向中东增派航母伊朗：将坚决回应任何侵略行为

环球网资讯浏览 1606

全球首创！西安造创新医疗器械获批上市

上游新闻浏览 2751

小麦身价下跌，德转：仅靠稳定发挥不足以维持高身价，且已29岁

懂球帝浏览 1959

＂2500吨粮食没法及时运出去＂一根限高杆卡住四个村

重案组37号浏览 12247

重庆女子乘＂黄色法拉利＂去内蒙古：计价器爆表了

大风新闻浏览 18128

美政府“停摆”持续，特朗普命令美防长动用“所有可用资金”保军饷

环球网资讯浏览 2867

200多斤小伙落水漂浮7小时钱塘江大潮来临之际获救

新民晚报浏览 2914

孟菲斯·德佩，荷兰射手王+助攻王

体坛周报浏览 2882

特斯拉Model3/ModelY Standard正式发布

网易汽车浏览 2792

上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

IT之家浏览 1318

里程碑，勇士主帅科尔取生涯执教第600胜&位列NBA第28位

懂球帝浏览 516

车长超5米比亚迪海狮08/海豹08配高阶智驾

网易汽车浏览 1687

净利润暴跌7912%！天域生物亏麻了

包不同浏览 2279

美军航母进入印度洋

界面新闻浏览 1465

哈梅内伊提出伊美谈判条件近期不会考虑美国合作请求

环球网资讯浏览 2451

一个入局晚了的数据标注创业者，3个月亏了20万

刺猬公社浏览 1626

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1