爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

高市早苗当选...

若看懂英伟达...

妇联回应女孩...

高德地图“拥...

俄在日本海演...

中年女人早春...

广东，哪里“阳气”最旺？

万科三季度净利润亏损160.69亿，深铁今年第十次“输血”

中国第42次南极考察启航

PPC平台打造全新奥迪Q5L高功率版年内上市

那些年王室贵族新娘穿过的Elie Saab婚纱

山姆变盒马？500万中产抵制“阿里味”

令人发指!火箭三分45中4 沃尔10+0+0+0+0+0

赫尔松大坝刚炸毁普京公布在白俄部署核武器具体时间

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

49岁吴彦祖与妻子闲谈被偶遇！两人观展状态佳

AI录音卡爆火90天：阿里下场，华强北低价围猎，一场恶战在所难免

10名加拿大众议员执意窜台妄称台湾为＂国家＂

疯狂！又两大车企大降价！

鲁尼：萨拉赫应该回撤参与协防；范戴克的进球应该算作有效

Transformer开山论文惊天＂翻车＂？图与代码不一致，神秘bug看傻了

秦雯自曝袭警被抓后，让王家卫捞人找自己?

不顾警告与刘涛传出绯闻的杨烁，到底谁在给他撑腰？

女网红被＂开盒＂收大量骚扰信息全家被迫搬离本人发声

南部战区：正告菲方停止在南海挑起事端

金正恩现场指导洲际导弹试射女儿金主爱再次亮相

新质生产力“可感可及”，华强北机器人展演月“硬核度”爆表

阿维塔王金海：豪华不止于技术要让用户每天感到品牌在变好

董洁首谈离婚风波疑卖惨潘粤明前经纪人发飙怒怼

中方提醒中国游客避免前往日本日媒：或造成重大影响