关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro750人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美团、京东外卖、淘宝闪购:自愿执行《外卖平台服务管理基本要求》国家标准

澎湃新闻 浏览 3177

52岁颜丙燕官宣恋情!小20岁男友被拍

青梅侃史啊 浏览 3828

吴千语施伯雄逛街被偶遇,勾肩同行幸福甜蜜,有说有笑松弛感拉满

扒虾侃娱 浏览 3725

男子驾车撞死一家三口获死缓 被害人家属递交抗诉申请

看看新闻Knews 浏览 8148

末节11分!连续7场上双!胡明轩拾巅峰锁胜局,内外线杀伤力拉满

篮球资讯达人 浏览 2516

姚期智:“AI+量子”将极大拓展人类计算能力边界

文汇报 浏览 4455

价格倒挂加剧,经销商危机恐反噬整车厂

汽车人传媒 浏览 4400

马尔科-席尔瓦:大马丁百分之百禁区内犯规了,裁判没给我们点球

懂球帝 浏览 4355

世体:拉菲尼亚将坐在替补席额外座位上,为球队提供支持

懂球帝 浏览 3590

斯瓦泰克罕见两连败吞蛋落泪,波兰险胜瑞士夺得联合杯冠军

网球之家 浏览 2694

特朗普或优先“做掉”欧洲?

浏览 26613

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

韩小娱 浏览 2403

标杆的智能化进阶 试驾一汽-大众全新速腾L

车质网 浏览 3706

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 6306

浙江一男子泳池跳水时颈椎严重受伤不治身亡 家属发声

新民晚报 浏览 9368

75岁谭咏麟街头买金鱼!与老板老友式寒暄

丁睋解说 浏览 2369

郭德纲发文,德云社再变动,释放3个强烈信号

乡野小珥 浏览 781

“五菱宏光家族焕新:燃油、增程、纯电三动力,5.48 万元起

IT之家 浏览 3422

北溪爆炸案一嫌犯身份曝光 案发时为乌军现役士兵

财联社 浏览 2922

U23国足遭暴击!鲍世蒙8分钟闪退,抢断王出场,媒体人:因祸得福

奥拜尔 浏览 2656

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

新华社 浏览 13176
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1