爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

今晚空降！傅...

美股芯片股全...

王大陆离奇“...

申万宏源：2...

半导体封测第...

日本知名女星...

韩剧女神，被吐槽“断崖式衰老”？

媒体：急于获取支持特朗普又开始＂画大饼＂了

卢浮宫一件被盗文物被发现已损毁疑为欧仁妮皇后皇冠

新势力比传统车企更乐观，2026年车市充斥着哪些挑战？

比亚迪10月销售441706辆新能源累计销售超1420万辆

联合国秘书长敦促黎以冲突各方重返谈判桌

OpenAI确认旗下首款AI硬件今年发布，形态有望为“一支笔”

窦骁何超莲国外被偶遇！女方冲浪心情大好，窦骁喝咖啡满脸愁容

努诺未来明确，西汉姆联确认新团队成员

杨笠突然清空社媒！自曝生病睡眠差，长期遭攻击疑似萌生退意

买插混车盯紧这个数！明年可能多花上万元

冬天穿衣既要有温度又要有风度！看看这些穿搭，优雅又显瘦

当年最红的女明星，“孤苦伶仃”？

外套里面穿什么？这4款内搭时髦又显瘦！

何超琼近况曝光，生图皮包骨大小眼，西装裤松垮

斯塔默:允许美使用英方有关军事基地打击伊朗导弹设施

科创板主题基金规模突破三千亿元 “上新”的指数如何参与创新和成长?

唱吧等39款APP被通报

纯电版奥迪A6亮相！外观很动感，配800V架构+5块大屏，续航785Km

港媒曝光何超莲家中资产分配，签不签婚前协议，窦骁都捞不到好处

李白放弃回国嫁给撒贝宁,人生中最正确的决定

埃迪-豪面对前东家伯恩茅斯7场不胜，并列英超主帅最长不胜纪录

科学家构建AI“赛博学术小镇”，让化工科研实现自主演化

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名