关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3961人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

瓜帅:利物浦和阿森纳都在争冠;英超风格的改变?我会接受

懂球帝 浏览 3690

四川阿坝红旗桥垮塌:系山体变形加剧滑塌造成

新京报 浏览 32008

李在明访华签下3亿大单祭拜抗日英雄 转头突然宣布访日

博览历史 浏览 7838

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 3734

猎奇智能IPO背后藏着七大富豪!80后湖北大佬造光模块设备年入5亿

野马财经 浏览 2365

目送阿卡大满贯全四强,德米纳尔第七次卡八!

网球之家 浏览 2543

北京传媒大学和微软团队破解云端智能压缩难题

科技行者 浏览 3710

张朝阳:AI让人人成为“知道分子”,但我们仍需思考丨2025世界互联网大会

红星资本局 浏览 3358

乌官员证实美乌代表将在迈阿密再次会晤

北青网-北京青年报 浏览 3128

太突然,宜家中国宣布:关闭7家商场

深蓝财经 浏览 2089

TIGIT的转机还会出现吗?

钛媒体APP 浏览 3094

吴磊大瓜牵扯多位明星!爆料女主骂赵露思骚扰吴磊,曝何猷君出轨

萌神木木 浏览 2538

再见了卡梅隆,再见了《阿凡达3》,中国观众别再被骗了

娱乐圈笔娱君 浏览 2910

乐聚机器人已完成股改,正推进IPO计划,刚完成15亿元融资

红星资本局 浏览 3764

女子被日料店服务员泼开水烫伤:事发后曾接到警告电话

封面新闻 浏览 8842

凌晨4点,超3万人现场观看!太火爆……

环球网资讯 浏览 2622

伊姐周日热推:电视剧《大生意人》;电视剧《乌蒙深处》......

伊周潮流 浏览 2678

Nuance Audio创新助听眼镜中国首秀,既能看清又能听清

文汇报 浏览 2739

未成年女性称被爱泼斯坦当"孵化器" 还遭公司高管强奸

红星新闻 浏览 99950

宁愿净身出户与闫妮离婚,邹伟现在怎么样了?

洲洲影视娱评 浏览 3825

秋冬别穿阔腿裤了!裙子才是粗腿女孩的救星!

Yuki女人故事 浏览 3254
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1