关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1084人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

法甲官方第26轮最佳阵:梅西、姆巴佩在列,巴黎四将入选

直播吧 浏览 19185

全市场:那不勒斯为埃尔莫索开350万欧年薪,球员想要500万欧

直播吧 浏览 10522

掘金无缘登顶西部:约基奇9中8砍27+11+6里程悲 超越詹皇改写历史

厝边人侃体育 浏览 12905

全裸颁奖,影帝打人,一年比一年离谱,奥斯卡已经没有好电影了吗

不八卦会死星人 浏览 11707

搭载增程动力 大众ID.ERA量产版2026年上市

车质网 浏览 369

东风日产探陆最新消息,将于1月18日预售

天天汽车 浏览 12853

美妆巨头陷入焦虑:清库存、卷向线下

Tech星球 浏览 16126

状态不佳!赵维伦替补出战16分钟 4投0中得到0分1助

直播吧 浏览 15553

问界撑得起华为的野心吗

豹变 浏览 15657

半年融资65亿美元?今年创投圈最大假新闻背后

财经十一人官方 浏览 14483

刚担任欧盟轮值主席国 比利时首相一开年就选择访华

上观新闻 浏览 75926

理想 ONE 汽车全部售罄:从 0 到 1 的功臣终迎来落幕之时

IT之家 浏览 16760

Prada如何解构身体与气质?

时尚COSMO 浏览 1936

两架美军机相继在南海坠毁 中方回应

极目新闻 浏览 5663

50岁的女人想显气质少穿卫衣,推荐你试试这3款上衣,更时髦

静儿时尚达人 浏览 11618

春天日常出门也要精心打扮,参考这21套搭配示范,优雅又时髦

静儿时尚达人 浏览 11577

小个子秋季穿搭指南!7件单品穿出大长腿,显高10cm

Yuki女人故事 浏览 2095

剧组撞死猫风波持续发酵

小撇说事 浏览 830

张凯丽34岁嫁给作家,偏偏生了个不省心的女儿?

娱乐看阿敞 浏览 903

火箭加时惜败公牛!史密斯完美,3首发喜忧参半,惠特莫尔仍爆

篮球资讯达人 浏览 12835

白百何疑开撕王传君!曝沪圈要求文晏给男方撕奖,白百何发文内涵

萌神木木 浏览 705
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1