关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro748人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:美伊互放狠话时白宫称愿谈判 让世界看到一信号

环球网资讯 浏览 8695

贾国龙服软了!

数字财经智库 浏览 2558

阿特金森帅位岌岌可危!上季当选年度最佳教练 曾获骑士老板力挺

罗说NBA 浏览 2963

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 4367

终结三连败!商竣程取得大满贯第七胜

网球之家 浏览 2613

港台影视圈已经没有“小花”了

仙女事件簿 浏览 3526

牛弹琴:特朗普迎最高兴一天 还求以方赦免内塔尼亚胡

映象网 浏览 7623

跟队:拜仁内部不会轻易谈论让伦纳特-卡尔踢世界杯的话题

懂球帝 浏览 3677

特朗普对关税态度大转弯 扔出三个条件请求中方答应

时时有聊 浏览 8891

长城魏牌汽车,到底被谁“逼急”了?丨正经深度

正经社 浏览 2659

洋河股份董事长顾宇首次交出季度成绩单:日均亏掉400万

财经众议院 浏览 3597

清华大学等多所顶尖院校联手揭秘智能数据准备革命

科技行者 浏览 2428

特朗普:战事不是挡箭牌 乌克兰该选举了

澎湃新闻 浏览 2190

阿里云PolarDB进阶:锚定“AI就绪”,AI能力全面内化

时代周报 浏览 2554

伊朗炮艇逼近悬挂美国旗油轮

CCTV国际时讯 浏览 2375

胖东来称博主用AI分析毛巾利润,案件已进入司法程序

大象新闻 浏览 356

世体:尽管知道需合理分配体能,但莱万不会放弃争夺中锋位置

懂球帝 浏览 2741

东南大学团队首次揭示:视觉欺骗如何让AI"看走眼"

科技行者 浏览 2578

最强动物塑,全在ZOOTOPIA里了

时尚COSMO 浏览 2504

吴彦祖西湖边穿古装送花,获女游客热情拥抱

往史过眼云烟 浏览 1814

售28.99万起 凯迪拉克新CT6配置大升级

网易汽车 浏览 3587
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1