关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3965人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

十五运会开幕式收视出炉！最高破3.9%，刘德华上场涨出小高峰

萌神木木浏览 2825

文联春晚录制现场好真实！大咖太多没人惯着

萌神木木浏览 2437

肖荣基带肖思远的照片亮相九三阅兵

环球网资讯浏览 3785

精彩推荐

尼帕病毒沸水加热15分钟可灭活

第一财经资讯浏览 2415

那不勒斯旧将克罗尔：那不勒斯有卫冕意甲实力，略微领先国米

懂球帝浏览 2867

【观察】图多尔下课了，但尤文的混乱何时结束？

体坛周报浏览 3544

马里兰大学与英特尔：AI视频字幕自动评分系统

科技行者浏览 3687

4-1！中国男足大反弹，一举终结2连败，15岁小将大四喜，出线有戏

侃球熊弟浏览 3722

Google与约翰霍普金斯大学联手打造AI＂审计官＂

科技行者浏览 2934

赵震：中国青训最需要解决的是体系问题，应坚持搞校园足球

懂球帝浏览 2899

晚点独家丨大定突破今年4万产能上限，新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 4448

“1元买壳”10个月后，北大医药新老板徐晰人突遭刑拘！

野马财经浏览 3641

2028年4月投产全新宝马iX6效果图曝光

车质网浏览 357

中国游客滞留迪拜：巨型邮轮变临时避难所 5千人被困

极目新闻浏览 1962

反转！曝何超莲婚礼是亲妈出钱，窦骁不愿签婚前协议，所以没领证

萌神木木浏览 3582

年薪超百万，京东开始挖汽车人！

电动知家浏览 3645

马筱梅不再隐瞒！直播掀上衣展示孕肚

老塕是个手艺人浏览 2952

王家卫霸凌唐嫣！？

八卦疯叔浏览 3533

日方鼓吹拥核国防部表态

环球网资讯浏览 2751

泽连斯基新年致辞：我们不要“乌克兰的终结”

中国经济网浏览 2710

A股天然气板块拉升，霍尔木兹海峡关闭引全球气价预警

览富财经网浏览 2001

100小时极寒挑战，董明珠图啥？

中国新闻周刊浏览 2936

NBA战报：凯尔特人111-107魔术，班凯罗28分

懂球帝浏览 3312

妻子在家中失踪深井边的菜让丈夫顿感不妙

环球网资讯浏览 34075

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1