关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro749人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

获皮奥利称赞！小法回应：很感谢他，去年曾联系他并聊了两个小时

直播吧浏览 4458

张兰小玥儿成都公园亲密散步，玥儿举止略显拘束

小娱乐悠悠浏览 3526

惊现哈基米！广东四川CBA比赛中场地内跑进一只小猫

懂球帝浏览 2645

从顶层设计到产业落地 | 2026两会如何定义中国汽车未来五年？

观察者网浏览 1628

＂斩首警告＂后高市早苗骑虎难下日本网民却集体破防

北回归线浏览 31987

冬天的毛衣，越“大”越好看！

LinkFashion 浏览 2548

62岁何赛飞的“真实”，让多少明星“无地自容”

可乐谈情感浏览 3646

领克900首搭千里浩瀚G-ASD 新增D2D领航驾驶辅助功能

网易汽车浏览 2744

张水华重马创个人第二好成绩丈夫解释她嘴唇发黑

极目新闻浏览 7029

112名“中国留学生”被韩国调查

中国新闻周刊浏览 32725

谷歌Pixel 10a渲染图曝光：无凸起后盖设计，配备6.2英寸屏幕

IT之家浏览 3533

山西103-77大胜同曦取4连胜，诺威尔20+6，郭昊文23分

懂球帝浏览 2900

印度迎来最重要的一位客人

牛弹琴浏览 3103

安东尼奥：我是“变色龙”式的教练，根据实际情况有不同打法

懂球帝浏览 2595

扎哈罗娃：俄罗斯保留对日本采取强硬回应的权利

环球网资讯浏览 3158

中方连对美＂重拳出击＂特朗普这才看清楚中国留了一手

空天力量浏览 3648

“中国机构是迪拜金融中心发展的关键力量”

国际金融报浏览 3764

黎巴嫩民众雨中避难超83万人流离失所

国际在线浏览 1614

巴列卡诺2-1马略卡，帕拉松点射、德弗鲁托斯破门

懂球帝浏览 2575

美联储降息25基点仍预计明年降息一次

华尔街见闻官方浏览 3063

突破西方封锁万里眼超高速实时示波器全球首发

网易科技报道浏览 3629

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

香港迪士尼偶...

曝古二家人被...

日本拟引进乌...

刘晓庆回应年...

OPPO刘作...

北京香山论坛...

卫报：帕奎塔希望本月离队，弗拉门戈愿意为他付4000万欧

见证历史！深夜，全线爆发！

官方：朴茨茅斯vs伊普斯维奇因场地严重积水推迟

获皮奥利称赞！小法回应：很感谢他，去年曾联系他并聊了两个小时

张兰小玥儿成都公园亲密散步，玥儿举止略显拘束

惊现哈基米！广东四川CBA比赛中场地内跑进一只小猫

从顶层设计到产业落地 | 2026两会如何定义中国汽车未来五年？

＂斩首警告＂后高市早苗骑虎难下日本网民却集体破防

冬天的毛衣，越“大”越好看！

62岁何赛飞的“真实”，让多少明星“无地自容”

领克900首搭千里浩瀚G-ASD 新增D2D领航驾驶辅助功能

张水华重马创个人第二好成绩丈夫解释她嘴唇发黑

112名“中国留学生”被韩国调查

谷歌Pixel 10a渲染图曝光：无凸起后盖设计，配备6.2英寸屏幕

山西103-77大胜同曦取4连胜，诺威尔20+6，郭昊文23分

印度迎来最重要的一位客人

安东尼奥：我是“变色龙”式的教练，根据实际情况有不同打法

扎哈罗娃：俄罗斯保留对日本采取强硬回应的权利

中方连对美＂重拳出击＂特朗普这才看清楚中国留了一手

“中国机构是迪拜金融中心发展的关键力量”

黎巴嫩民众雨中避难超83万人流离失所

巴列卡诺2-1马略卡，帕拉松点射、德弗鲁托斯破门

美联储降息25基点仍预计明年降息一次

突破西方封锁万里眼超高速实时示波器全球首发

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

香港迪士尼偶...

曝古二家人被...

日本拟引进乌...

刘晓庆回应年...

OPPO刘作...

北京香山论坛...

卫报：帕奎塔希望本月离队，弗拉门戈愿意为他付4000万欧

见证历史！深夜，全线爆发！

官方：朴茨茅斯vs伊普斯维奇因场地严重积水推迟

获皮奥利称赞！小法回应：很感谢他，去年曾联系他并聊了两个小时

张兰小玥儿成都公园亲密散步，玥儿举止略显拘束

惊现哈基米！广东四川CBA比赛中场地内跑进一只小猫

从顶层设计到产业落地 | 2026两会如何定义中国汽车未来五年？

＂斩首警告＂后高市早苗骑虎难下 日本网民却集体破防

冬天的毛衣，越“大”越好看！

62岁何赛飞的“真实”，让多少明星“无地自容”

领克900首搭千里浩瀚G-ASD 新增D2D领航驾驶辅助功能

张水华重马创个人第二好成绩 丈夫解释她嘴唇发黑

112名“中国留学生”被韩国调查

谷歌Pixel 10a渲染图曝光：无凸起后盖设计，配备6.2英寸屏幕

山西103-77大胜同曦取4连胜，诺威尔20+6，郭昊文23分

印度迎来最重要的一位客人

安东尼奥：我是“变色龙”式的教练，根据实际情况有不同打法

扎哈罗娃：俄罗斯保留对日本采取强硬回应的权利

中方连对美＂重拳出击＂ 特朗普这才看清楚中国留了一手

“中国机构是迪拜金融中心发展的关键力量”

黎巴嫩民众雨中避难 超83万人流离失所

巴列卡诺2-1马略卡，帕拉松点射、德弗鲁托斯破门

美联储降息25基点 仍预计明年降息一次

突破西方封锁 万里眼超高速实时示波器全球首发

＂斩首警告＂后高市早苗骑虎难下日本网民却集体破防

张水华重马创个人第二好成绩丈夫解释她嘴唇发黑

中方连对美＂重拳出击＂特朗普这才看清楚中国留了一手

黎巴嫩民众雨中避难超83万人流离失所

美联储降息25基点仍预计明年降息一次

突破西方封锁万里眼超高速实时示波器全球首发