爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

秋天上班族应...

这才是40岁...

以AI治AI...

无人驾驶获《...

新造车首例！...

讯飞星火发布...

投资者不必恐惧雪球敲入

刘嘉玲怒怼肉娱小鲜肉?

美军遇重大伤亡拜登政府发声明:不寻求与伊朗开战

以无人机黎巴嫩南部炸死真主党要员爆炸瞬间腾起浓烟

北约将在德国举办“史上最大规模空中军演”：25国逾200架军机参加

恶女逆袭记，还得看董洁章小蕙

河南队主帅：球员在很疲劳的情况下拼尽全力，很可惜未能取得胜利

X新CEO：公司改名为体现马斯克美好愿景，不担心Threads的威胁

琼瑶女神摘下假牙，撕碎的是流量滤镜

物理学者施郁缅怀杨振宁：将来继续在心中和他对话

向经典致敬斯柯达推出110 R数字化概念车

驼背发腮！40岁黄圣依看秀造型翻车

拉齐奥女足称贝尼斯擅自离队，球员经纪人表示俱乐部不发钱

MCON推出滑盖外接手柄，致敬PSP Go/Xperia Play滑盖掌机

美国史上首次前总统特朗普将于下月接受刑事审判

俄外交部：乌方对和平解决冲突“缺乏兴趣”

任正非最新讲话：没有网络的算力是信息孤岛

战局混乱遇恶劣天气加沙难民生活雪上加霜

百香果女孩案被写入最高法报告，家属希望这样的事情以后不会再发生

甲骨文盘中涨超6%，华尔街"抄底派"料股价有望反弹90%

苏超，明年有新变化！省政府再做部署！

特朗普遇到＂反关税＂广告：再给加拿大加10%关税

巴菲特和李嘉诚，为何后期都大量投资公用事业类生意

外媒：乌防长或因腐败准备辞职泽连斯基陷入两难