爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

博士学历女厅...

合约纠纷还没...

安踏强势反腐...

她穿一身大红...

海南自贸港全...

Counte...

两种动力可选全新雷克萨斯ES将于4月上市

库克直播间带货苹果换了打法

特朗普签署2026财年国防授权法案

北京78-93天津球员评价：3人优秀，3人及格，4人低迷

章子怡近照脸部发肿，最具特色的骨相优势都没了

西蒙尼获第60场欧冠胜利，与克洛普并列主教练胜场榜单第7

辽篮展温馨一幕！杨鸣继伟组织与澳门男篮合影，全员沟通太和睦了

小鹏第二代VLA推送前，何小鹏回应用户关心的22个问题

以总理＂碰瓷＂中国媒体：找错了对象更开错了药方

布拉格队长：下半场我们想踢得更具威胁，但阿森纳太强了

高盛顶级交易员：美股临近CTA卖盘触发位，市场企稳看政府开门

上海市委原常委朱芝松被公诉曾长期从事军品工作

熊黛林带双胞胎女儿旅行，2个女儿长得完全不一样，都特别可爱

用重罚来逼迫商家“限价”，京东在焦虑什么？

以军称打死哈马斯高级指挥哈马斯发声

俄外长：向乌提供“战斧”将让俄美关系出现最危险局面

穿来穿去还是羽绒服最靠谱！配裤子裙子都合适，舒适自然保暖

北京79-73力克浙江，陈盈骏18分，杰曼23+5，吴前7中1

iCAR苏峻：我们不做夹生饭，不造速生车

杨明洋：感谢罗慕洛为我助攻，也感谢南通球迷一直支持我

曾1600元一粒难求的片仔癀，如今跌至六七百元！药房：买得多可以优惠

女子孕检低风险却生下唐氏儿险企拒赔：只赔＂标准型＂

特朗普提出将美国军费提升至1.5万亿美元

委内瑞拉国防部长：已做好捍卫祖国的准备