关闭广告

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

科技行者2620人阅读

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

美媒：美军增派战机至位于波多黎各的前罗斯福路海军基地

环球网资讯浏览 2036

联大反击或剥夺美国重要资格美恐难再与中同台论道

策略述浏览 6952

江中药业：激励计划部分业绩考核指标或“开倒车” 子公司财务数据或现“不同版本”

金证研浏览 2584

精彩推荐

在马来西亚失联男子姐姐:不知道弟弟是跟女生一起出游

极目新闻浏览 3826

戳破马拉松泡沫经济

诗与星空浏览 2672

谁的自动驾驶算法更厉害？这场比赛在京沪同步开赛，定义未来出行安全边界

文汇报浏览 1979

乌克兰全境频遭空袭中使馆发布重要提醒

每日经济新闻浏览 1639

墨西哥一市长怀抱幼子被当众枪杀曾誓言根除贩毒集团

红星新闻浏览 8048

官方：斯特拉斯堡中场帕普-迪奥普租借加盟图卢兹

懂球帝浏览 1724

日媒：中国U23仿佛在球场筑起万里长城，完成了数据上不可能的奇迹

懂球帝浏览 1579

“反对标题党，绝不是反对把标题写得有吸引力”

深蓝财经浏览 1621

梁靖崑：和老婆秀恩爱被围观！

冷峻视角下的世界浏览 1675

伊朗外长：战争结束取决于确保不再发生“侵略”

极目新闻浏览 458

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家浏览 2568

雷军跨年直播拆车，15台手机撬动300亿市值？

BT财经浏览 1727

特朗普警告：如果以吞并约旦河西岸将失去美所有支持

鲁中晨报浏览 8211

外交部:奉劝包括巴拉圭在内的极个别国家政府认清形势

环球网资讯浏览 7413

肖战主演电影《得闲谨制》，有点东西！

不八卦会死星人浏览 2034

【年度爱用】她们2025年买得最值的，是这些

黎贝卡的异想世界浏览 1641

2025福布斯中国内地富豪榜发布：钟睒睒连续五年登顶，雷军超越马云排第七

红星资本局浏览 2489

那些外国博主们，怎么突然开始吹中国手机了？？？

差评XPIN 浏览 1625

突破“手”的瓶颈，具身智能正加速迈向“实干”

上观新闻浏览 1990

媒体：中国该如何在军事部署上经营台湾如今值得思考

新民周刊浏览 6948

省委书记暗访次日市委书记赴现场办公要求加快整改

新京报政事儿浏览 6191

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1