关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2427人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴京《镖人》官宣,谢霆锋李连杰甘愿作配,票房能否破50亿?

娱乐圈笔娱君 浏览 3426

高德放“榜”30天:百度携程“硬杠”,抖音小红书“包抄”

伯虎财经 浏览 3869

除了卖汽水,这家外资巨头还在中国修飞机、开医院丨国是访问

国是直通车 浏览 3426

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 2473

风味IP爆发,快消圈拿到长期增长新船票?

斑马消费 浏览 817

杨天真打不开自己特斯拉从后备箱爬进去 客服回应

极目新闻 浏览 12534

多国领导人到访 朝鲜迎来外交潮

上观新闻 浏览 3650

西媒:迈阿密国际有意洛塞尔索,已向其表达强烈兴趣

懂球帝 浏览 2976

男子同时筹备"2场婚礼" 被抓正与"未来岳父母"谈婚房

鲁中晨报 浏览 9751

苹果股价创历史新高

都市快报橙柿互动 浏览 3746

间谍入住海景民宿拍军港敏感画面 被民宿店主识破上报

央视新闻客户端 浏览 9985

东风计划2026年将欧洲销量提升至8万辆

盖世汽车 浏览 4258

美国禁令反噬!中国断供培育钻石,半导体巨头:完了,要停产!

木禾投研 浏览 3742

埃弗顿vs富勒姆:格拉利什、皮克福德首发,劳尔-希门尼斯、莱诺出战

懂球帝 浏览 3487

E句话| 新F4上海开唱,朱孝天疑似内涵阿信?

仙女事件簿 浏览 2981

我国2025全年词元累计调用量约21100万亿

IT之家 浏览 490

43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

懂球帝 浏览 824

为年轻用户打造Dream Car,零跑推出纯电掀背轿跑

Report汽车 浏览 3470

阿莫林的耻辱之最

体坛周报 浏览 2697

尼帕病毒沸水加热15分钟可灭活

第一财经资讯 浏览 2400

商务部:2026年优化消费品以旧换新政策实施

央视财经 浏览 2605
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1