关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1087人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

单臂抡扣点燃全场!王浩然14中5 砍下全队最高的20分

直播吧 浏览 15624

百亿私募大佬但斌有了"新身份":中国香港居民

每日经济新闻 浏览 1447

29国重兵云集,菲律宾打算不留后路?

浏览 10601

鹰击18不走寻常路,美军想拦截发现无从下手

浏览 10656

消息称SK海力士与英伟达达成HBM4供应协议,价格较上代上涨50%

IT之家 浏览 702

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元 浏览 1092

一夜暴涨2亿 连亏5年的"户外老大"被哈尔滨救了

金错刀 浏览 74021

韩乔生:滕哈赫作为主教练高谈阔论“白日梦”,不如踏踏实实钻研

直播吧 浏览 12131

媒体:高市早苗想见中国领导人 也未必是特别难的事

新民周刊 浏览 12810

高市内阁名单出炉 身材火辣的日本知名写真女星入选

红星新闻 浏览 6804

张杰院士:三步走,2045建成上海首个聚变商业电站

澎湃新闻 浏览 1665

主播摆拍被拘留:在凉山给老人发3000元收回2800元

红星新闻 浏览 95540

入夏裤子就穿这4条 清凉显廋巨时髦!

In风尚 浏览 16995

刘嘉玲问刘晓庆:现在接戏的角色是否有限?

红星新闻 浏览 981

王菲没想到女儿窦靖童,会以头秃理由嫌弃亲爹

千言娱乐记 浏览 826

朱江明和费翔一起发零跑车皇!增程配80度大电池,“全身名牌”登场

车东西 浏览 1003

俄称今年已控制205个居民点 乌称对俄港口及战机发动袭击

极目新闻 浏览 1459

最惨男人回来了!蔚来90天亏掉47亿,站到悬崖边

说财猫 浏览 16178

全新比亚迪SHARK6亮相 1000km综合续航+L2级智驾

华庭讲美食 浏览 671

悬赏百万征集执法人员违法犯罪线索民企:已收到线索

潇湘晨报 浏览 77720

较劲多年,西北最硬核城市“抱团”了

城市进化论 浏览 12819
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1