爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

这娱乐圈顶级...

万元损失仅补...

鲁比奥宣布任...

2025款零...

智己汽车20...

这条裙子，今...

48家发债主体中报延期审计梗阻、系统改革、经营挑战

印巴空战震撼全球：PL-15导弹为何一击必杀

门多萨：为马竞效力是儿时梦想，身边队友小时候在电视上看过

全球第一大女主，让内娱彻底红了眼

华为星闪起猛了！蓝牙技术全面应战，还针对中国市场出招

自称窦骁前女友发声！内涵他目的性极强爱交富家女，很理解何超莲

又一个汽车新品牌要来了，背靠五菱，首款车型微型车

可能被“没收”一半股权，谷歌创始人逃离硅谷

斯诺克世界大奖赛：吴宜泽、张安达、肖国栋、周跃龙晋级16强

蔚来年底盈利：超越短期目标，重塑自己的竞争力

安赛龙回应发球争议：我采用这种发球方式已有多年

张勇又回来了

千人来珠峰＂逛公园＂有人冻到绝望：以为要永远留在这

遭老板性侵女高管怒怼网友：开价2000万私了是戏谑

俄罗斯多地遭袭

2026年央视春晚彩排开始！沈腾马丽回归，但呼声最高的是他们

美股三大指数集体高开理想汽车涨超5%

演员金莎和孙丞潇官宣结婚两人相差17岁

央视一周 4 次点名全红婵，夺冠后真实处境揭开

英国防大臣称想＂绑架＂普京俄方：痴人说梦

奔驰今年大动作: 推15款新车智驾覆盖全系

最新民调：超六成美国人反对扩大对伊军事行动

夏天最经典的银色，贵气十足！

每体：队内门将太多不好处理，巴萨计划等明年夏天免签雷米罗