关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3965人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

尼帕病毒沸水加热15分钟可灭活

第一财经资讯 浏览 2415

那不勒斯旧将克罗尔:那不勒斯有卫冕意甲实力,略微领先国米

懂球帝 浏览 2867

【观察】图多尔下课了,但尤文的混乱何时结束?

体坛周报 浏览 3544

马里兰大学与英特尔:AI视频字幕自动评分系统

科技行者 浏览 3687

4-1!中国男足大反弹,一举终结2连败,15岁小将大四喜,出线有戏

侃球熊弟 浏览 3722

Google与约翰霍普金斯大学联手打造AI"审计官"

科技行者 浏览 2934

赵震:中国青训最需要解决的是体系问题,应坚持搞校园足球

懂球帝 浏览 2899

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 4448

“1元买壳”10个月后,北大医药新老板徐晰人突遭刑拘!

野马财经 浏览 3641

2028年4月投产 全新宝马iX6效果图曝光

车质网 浏览 357

中国游客滞留迪拜:巨型邮轮变临时避难所 5千人被困

极目新闻 浏览 1962

反转!曝何超莲婚礼是亲妈出钱,窦骁不愿签婚前协议,所以没领证

萌神木木 浏览 3582

年薪超百万,京东开始挖汽车人!

电动知家 浏览 3645

马筱梅不再隐瞒!直播掀上衣展示孕肚

老塕是个手艺人 浏览 2952

王家卫霸凌唐嫣!?

八卦疯叔 浏览 3533

日方鼓吹拥核 国防部表态

环球网资讯 浏览 2751

泽连斯基新年致辞:我们不要“乌克兰的终结”

中国经济网 浏览 2710

A股天然气板块拉升,霍尔木兹海峡关闭引全球气价预警

览富财经网 浏览 2001

100小时极寒挑战,董明珠图啥?

中国新闻周刊 浏览 2936

NBA战报:凯尔特人111-107魔术,班凯罗28分

懂球帝 浏览 3312

妻子在家中失踪 深井边的菜让丈夫顿感不妙

环球网资讯 浏览 34075
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1