爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

iX3的“弟...

波兰外交部称...

美媒披露：美...

优必选联手云...

长友佑都：目...

E句话| 袁...

患癌母亲＂碰瓷＂货车司机儿子怒斥母亲后赔司机3000元

AI再次降维打击人类仅用1小时破译500年未解的＂天书＂

中邮基金换帅！权益规模下降，中邮核心成长混合为何业绩垫底？

特朗普对关税态度大转弯扔出三个条件请求中方答应

你恐慌我贪婪！约500亿资金借道ETF蜂拥进场，主力机构正重金下注这些板块（附名单）

学者：此次＂正义使命＂演习最大的亮点就是＂开局即打＂

特朗普拿中俄当幌子被北欧官员拆穿：完全不属实

张雨绮风波持续发酵，曝多个商务被取消

王励勤出任乒羽中心副主任

阿里云PolarDB进阶：锚定“AI就绪”，AI能力全面内化

齐溪自曝二胎是女儿，二胎已经满一岁了，41岁生二胎原因好暖心

孔蒂：小麦已成长为全面的球员；对在切尔西的两年有美好回忆

阿里千问开源四款Qwen3.5小尺寸模型

突破西方封锁万里眼超高速实时示波器全球首发

万项：距离理想中的球员还差很多；最后两场比赛不会放松

孙燕姿被曝要与曲婉婷合作，二人过往互动被扒，关系亲密是好朋友

伊姐周六热推：电视剧《年少有为》；电视剧《有罪之身》......

华语新作闪耀，梁咏琪、高捷等众星即将亮相厦门

诺和诺德再现高层震荡！董事长等7名高管将集体离职，近一年市值蒸发超千亿美元

今晚发布，OPPO Find X9 系列手机提供 eSIM 版本

朱光耀：中美AI实力对比，中国具备三项优势

西贝的新考题：如何券后留客

王欣瑜不敌小白菜生涯首冠继续迟到，中国网球仍成奥克兰最大赢家

小米穿越风暴这一年，给创新者以时间