关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者841人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以无人机黎巴嫩南部炸死真主党要员 爆炸瞬间腾起浓烟

新京报 浏览 876

北约将在德国举办“史上最大规模空中军演”:25国逾200架军机参加

环球网资讯 浏览 16630

恶女逆袭记,还得看董洁章小蕙

新氧 浏览 13499

河南队主帅:球员在很疲劳的情况下拼尽全力,很可惜未能取得胜利

直播吧 浏览 18521

X新CEO:公司改名为体现马斯克美好愿景,不担心Threads的威胁

网易科技报道 浏览 14582

琼瑶女神摘下假牙,撕碎的是流量滤镜

大龄女一晓彤 浏览 1030

物理学者施郁缅怀杨振宁:将来继续在心中和他对话

澎湃新闻 浏览 935

向经典致敬 斯柯达推出110 R数字化概念车

车质网 浏览 1508

驼背发腮!40岁黄圣依看秀造型翻车

萌神木木 浏览 19220

拉齐奥女足称贝尼斯擅自离队,球员经纪人表示俱乐部不发钱

懂球帝 浏览 971

MCON推出滑盖外接手柄,致敬PSP Go/Xperia Play滑盖掌机

IT之家 浏览 1043

美国史上首次 前总统特朗普将于下月接受刑事审判

财联社 浏览 81633

俄外交部:乌方对和平解决冲突“缺乏兴趣”

环球网资讯 浏览 533

任正非最新讲话:没有网络的算力是信息孤岛

澎湃新闻 浏览 184

战局混乱遇恶劣天气 加沙难民生活雪上加霜

澎湃新闻 浏览 13145

百香果女孩案被写入最高法报告,家属希望这样的事情以后不会再发生

趣看热点 浏览 583940

甲骨文盘中涨超6%,华尔街"抄底派"料股价有望反弹90%

华尔街见闻官方 浏览 345

苏超,明年有新变化!省政府再做部署!

国是直通车 浏览 880

特朗普遇到"反关税"广告:再给加拿大加10%关税

红星新闻 浏览 6225

巴菲特和李嘉诚,为何后期都大量投资公用事业类生意

锦缎研究院 浏览 15985

外媒:乌防长或因腐败准备辞职 泽连斯基陷入两难

环球网资讯 浏览 14400
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1