关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者856人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

行业「寒风」尤劲,龙头企业华润三九能否「独善其身」

节点财经 浏览 868

小S晒全家福为18岁长女庆生,与老公同框零互动,长女将赴美留学

娱絮 浏览 12734

官方:武汉三镇前外援华莱士加盟巴乙升班马庞特普雷塔

懂球帝 浏览 80

马斯克带娃赴意“催生”,敦促“意大利人多生孩子拯救本国文化”

环球网资讯 浏览 13206

全球最大固体运载火箭!引力一号首飞成功

观察者网 浏览 12533

世界最胖男孩减重200斤,是什么让他重新回归正常的生活?

趣看热点 浏览 152835

好莱坞恶魔制片人被判146年 受害女警作证后意外身亡

大风新闻 浏览 7420

过年穿新衣!这8套时尚搭配可以参考,不仅简约大方还耐看

静儿时尚达人 浏览 13116

张子枫主演的《我的姐姐》票房爆了,这是一个关于爱和牺牲的故事

趣看热点 浏览 26103

距莫斯科约100公里乌克兰无人机越境偷袭

环球网资讯 浏览 19165

俄罗斯将爱沙尼亚总理列入通缉名单

央视新闻客户端 浏览 12432

韩媒:因违规收集用户信息被罚1000亿韩元,谷歌、Meta不服裁决提起诉讼

界面新闻 浏览 18918

宋慧乔意大利米兰晒照片 黑大衣配围巾保暖且漂亮

娱乐顺风车66 浏览 19201

以媒:总理内塔尼亚胡计划下月访华 其对美国失去耐心

环球网资讯 浏览 86929

63分21板3助!殳海:大卫同志证明了CBA也有自己的詹姆斯

直播吧 浏览 12572

专属30+帅气基本款

瑞丽伊人风尚 浏览 20014

胖东来老板在直播间劝网友卖房:亏也要把它卖掉!网友热议

每日经济新闻 浏览 16209

"炫富式举报"女子再发声:收钱局长现是某能源集团董事

上游新闻 浏览 87871

陈建州被传唤到庭说明情况 大牙:未收到出庭通知

网易娱乐 浏览 14879

‍♂️吧友们抓紧了!国足主帅报名将于明天截止

直播吧 浏览 1582

《喜人奇妙夜2》即将收官,给你的戒断加点料

时尚COSMO 浏览 70
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1