关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者2771人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

再见美拉德,今年流行的“新高智风”时髦又高级!

LinkFashion 浏览 2615

唐嫣客串新剧遭群嘲!戴假发被吐槽像女装大佬,疑和马思纯抢番位

萌神木木 浏览 1841

夸克AI眼镜开售,88VIP叠加9折消费券,最低3329元

海外网 浏览 2797

内维尔:姆伯莫的射门相当离谱且草率,他需要改进临门一脚

懂球帝 浏览 2006

中国人工智能50强,寒武纪、摩尔线程、沐曦股份位列前三

红星资本局 浏览 1643

股票涨停 360三季度净利润同比扭亏为盈

中国经营报 浏览 2549

《余生有涯》:就算原生家庭烂,也别劝我投降

澎湃新闻 浏览 2793

北京越野BJ40增程大电池版实车图曝光

车质网 浏览 1972

“锂王”炒股,赚了111万,赔掉2000亿

大猫财经Pro 浏览 1335

这娱乐圈顶级渣男,居然翻身了

独立鱼 浏览 1797

奶茶冲泡巨头香飘飘“突围”:首家线下茶饮店将开业,曾多次试水快闪店

红星资本局 浏览 2744

北京顶豪法拍逆袭:有亿元级毛坯别墅遭10位富豪疯抢

每日经济新闻 浏览 6573

两名国民党民代遭起诉 郑丽文:民进党想团灭在野党

海峡导报社 浏览 13439

neueHCT再获2亿美元融资 地平线合资模式拓全球版图

网易汽车 浏览 1780

徐正源:无法以全主力出战,又存在伤病,输球很遗憾

懂球帝 浏览 2754

北约秘书长吕特与泽连斯基通话 讨论对乌军援

极目新闻 浏览 3400

硅谷投资人盛赞特斯拉人形机器人:将令人忘掉特斯拉造过车

澎湃新闻 浏览 1667

中国被指与伊朗接近达成超音速导弹采购协议 外交部回应

澎湃新闻 浏览 813

上汽通用五菱2025年累销超163.5万辆 新能源年销首超百万

网易汽车 浏览 1808

多地紧急叫停"刨猪宴"活动 地方政府被指陷入两难困境

中国新闻周刊 浏览 11184

李想汽车研究院:让AI从"工具使用者"进化为"工具创造者"

科技行者 浏览 1371
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1