关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3950人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

美媒：＂林肯＂号航母打击群一两天内即可对伊朗动武

国际在线浏览 2471

当年霍震霆给儿子霍启刚挑儿媳妇，眼光多毒啊

小光侃娱乐浏览 3267

媒体:向乌提供＂战斧＂或只是幌子特朗普可能另有打算

枢密院十号浏览 17700

精彩推荐

“勃肯鞋”今年冬天爆火！这几双怎么搭都好看

LinkFashion 浏览 2840

哥大新方法：频率指纹揭示AI数学思维盲点

科技行者浏览 3851

超70亿独角兽“原地解散”，无人车赛道却将爆发？

虎嗅APP 浏览 3200

技术门槛很低的增程技术，为什么越卖越贵？

少数派报告Report 浏览 2009

人类史上最大抄家案？华人受害，美国却狂揽1070亿

大猫财经Pro 浏览 3322

AI正在成为“孤独止痛药”，这是社交能力的一场不可逆退化

虎嗅APP 浏览 2711

登味管理，正在杀死中国企业

商业评论零售现场浏览 2426

南京爆冷无缘苏超决赛，苏州发布9个感叹号！网友：像是在放鞭炮

风过乡浏览 3765

中国联通原副总经理获刑12年曾搞权色、钱色交易

政知新媒体浏览 13233

搭载鸿蒙座舱新款天籁将于广州车展上市

车质网浏览 3404

媒体披露：U23国足主帅禁止球员在驻地点外卖

环球网资讯浏览 19838

郭爸曝郭碧婷家庭花销全靠她，嫁入＂假豪门＂？

代军哥哥谈娱乐浏览 3738

泰国在建高铁事故致数十人死亡外交部表态

界面新闻浏览 8325

反转才不是「惊蛰无声」的最大看点

吐槽电影院浏览 1951

李安新片《金山》停摆！好莱坞变了天

草莓解说体育浏览 3050

山东海阳老人扎堆领结婚证现场挤满人有村庄包车去办

极目新闻浏览 9696

账面资金高达43亿，却要募集13亿，这家老牌企业差不差钱？

IPO日报浏览 3663

38岁后单赛季为意甲升班马攻入至少4球，瓦尔迪是历史第二人

懂球帝浏览 3136

赵露思新剧开播，直接拿下热播榜第一，硬刚资本的小花又站起来了

最爱酷影视浏览 4251

张家界荒野求生热门选手退赛连下一周雨致腿部冻伤

极目新闻浏览 15257

洋河股份第三季度营收为32.95亿元，同比下降29.01%

红星资本局浏览 3512

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1