关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro749人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

获皮奥利称赞!小法回应:很感谢他,去年曾联系他并聊了两个小时

直播吧 浏览 4458

张兰小玥儿成都公园亲密散步,玥儿举止略显拘束

小娱乐悠悠 浏览 3526

惊现哈基米!广东四川CBA比赛中场地内跑进一只小猫

懂球帝 浏览 2645

从顶层设计到产业落地 | 2026两会如何定义中国汽车未来五年?

观察者网 浏览 1628

"斩首警告"后高市早苗骑虎难下 日本网民却集体破防

北回归线 浏览 31987

冬天的毛衣,越“大”越好看!

LinkFashion 浏览 2548

62岁何赛飞的“真实”,让多少明星“无地自容”

可乐谈情感 浏览 3646

领克900首搭千里浩瀚G-ASD 新增D2D领航驾驶辅助功能

网易汽车 浏览 2744

张水华重马创个人第二好成绩 丈夫解释她嘴唇发黑

极目新闻 浏览 7029

112名“中国留学生”被韩国调查

中国新闻周刊 浏览 32725

谷歌Pixel 10a渲染图曝光:无凸起后盖设计,配备6.2英寸屏幕

IT之家 浏览 3533

山西103-77大胜同曦取4连胜,诺威尔20+6,郭昊文23分

懂球帝 浏览 2900

印度迎来最重要的一位客人

牛弹琴 浏览 3103

安东尼奥:我是“变色龙”式的教练,根据实际情况有不同打法

懂球帝 浏览 2595

扎哈罗娃:俄罗斯保留对日本采取强硬回应的权利

环球网资讯 浏览 3158

中方连对美"重拳出击" 特朗普这才看清楚中国留了一手

空天力量 浏览 3648

“中国机构是迪拜金融中心发展的关键力量”

国际金融报 浏览 3764

黎巴嫩民众雨中避难 超83万人流离失所

国际在线 浏览 1614

巴列卡诺2-1马略卡,帕拉松点射、德弗鲁托斯破门

懂球帝 浏览 2575

美联储降息25基点 仍预计明年降息一次

华尔街见闻官方 浏览 3063

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 3629
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1