关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro744人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国信策略:抢占科技发展制高点

网易财经 浏览 3672

京东把榜一大哥整不会了

老斯基财经 浏览 3553

奔驰纯电轿跑售价不足25万起!外观动感,搭800伏架构,续航866Km

小史谈车 浏览 2697

国安部:有间谍入住海景民宿偷拍军港 被老板识破

央视新闻客户端 浏览 3834

业内独家无孔真全面屏!努比亚Z80 Ultra获认证:支持90W快充

快科技 浏览 4267

美军:不会容忍伊朗在军演中的“不安全行为”

新华社 浏览 2426

太二不做酸菜鱼了?告别酸菜鱼的太二想干啥?

江瀚视野 浏览 2625

中国军工半夜笑醒:印度太实在,多年梦想实现

浏览 6889

梅州1-4云南,佩德罗-恩里克双响,迪力穆拉提任意球建功

懂球帝 浏览 3627

中信金融资产副总裁就位 张健正式履职

21金融圈 浏览 2668

1399元,JBL SOUNDGEAR CLIPS琉璃扣耳机预售

IT之家 浏览 3230

小鹏汇天以保密形式提交港股IPO申请

财视传播 浏览 2667

曾经最具知名度的播音员病逝 丈夫也是央视知名主持人

环球网 浏览 18471

胡塞武装宣布:打掉隶属美以沙三方间谍网络

环球网资讯 浏览 3306

著名音乐人何厚华英年早逝:终生未婚

历来纵横 浏览 4191

解放军组织轰炸机编队位南海例行巡航

界面新闻 浏览 3315

《唐朝诡事录3》第一波真实口碑出炉!

娱乐圈笔娱君 浏览 3536

碧桂园高层调整!联席主席及总裁变更,债务重组有大进展

券商中国 浏览 3161

奇瑞瑞虎9家族全面上市 抢鲜价12.79万起

网易汽车 浏览 4313

星光大赏残酷名利场:张国立赵露思坐第一排C位,座位图等级分明

娱乐圈笔娱君 浏览 3040

央视披露解放军实战演练"斩首"行动画面

北京日报 浏览 2279
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1