关闭广告

让多图对话AI不再"搞混":首尔多所大学发现分隔符背后的秘密

科技行者1381人阅读


这项由首尔大学、韩国科学技术院(KAIST)和德国图宾根大学联合完成的研究发表于2026年的ICLR(International Conference on Learning Representations)会议,论文编号为arXiv:2602.01984v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你同时向AI展示几张照片并提问时,是否发现它有时会把不同照片的内容混淆?比如你问"第一张图片里有没有自行车",它却回答了第二张图片的内容。这种现象就像一个健忘的朋友,明明你分别给他看了几张照片,他却总是把照片内容记混。

这个看似简单的问题背后,其实隐藏着现代AI系统的一个关键技术挑战。当前最先进的多模态大语言模型(就是那些能同时理解文字和图片的AI系统)在处理单张图片时表现卓越,但一旦面对多张图片,性能就会显著下降。这种现象被研究人员称为"跨图像信息泄露",就好比厨师在做菜时,明明准备了不同的食材放在不同的盘子里,但在烹饪过程中却总是搞混各种调料的归属。

为了解决这个问题,现有的AI系统都会在每张图片前后插入特殊的"分隔符",就像在文档中使用分页符一样

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“男人的衣柜”跨界卖水?

诗与星空 浏览 1991

图片报:塔踩到了斯塔尼希奇此前受伤的右脚,使其退出训练

懂球帝 浏览 1380

全球数百美军高级将领突然被召回 特朗普发声

环球网资讯 浏览 3333

北京顶豪法拍逆袭:有亿元级毛坯别墅遭10位富豪疯抢

每日经济新闻 浏览 6574

月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机

雷峰网 浏览 2151

“打飞的”半小时畅飞长三角,低空经济“飞入”进博会|聚焦2025进博会

华夏时报 浏览 2401

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 2545

特朗普威胁对尼日利亚动武 中方表态

极目新闻 浏览 2486

以军称被扣押人员全部返还前不会停止打击哈马斯

新京报 浏览 2549

76岁著名演员许绍雄被指病危 多位圈中好友已赶到医院

极目新闻 浏览 8663

传奇数学家放弃美国高校终身教职 为00后中国女孩打工

新民周刊 浏览 17054

唐一军16年敛财1.37亿获无期 曾通过妻子大搞权钱交易

界面新闻 浏览 7546

摩洛哥队长赛斯自宣从国家队退役,共代表摩洛哥出场86次

懂球帝 浏览 987

蔚来跌超6%三季度亏30亿,理想由盈转亏,零跑盈利,造车新势力洗牌加剧

21世纪经济报道 浏览 2244

小鹏汽车2025年交付超42万台:大增126% 创历史新高

快科技 浏览 1774

17年,巴菲特投资比亚迪累计套利至少80亿港元

第一财经资讯 浏览 3455

我国计算机软件事业先驱者之一、中国科学院院士董韫美因病逝世

IT之家 浏览 1460

多位老人痴迷买保健品:有人甚至吞安眠药逼女儿妥协

新京报 浏览 5447

斯基拉:国米正计划加薪与皮奥续约到2031年

懂球帝 浏览 1616

阶段性企稳?飞天茅台价格普涨,经销商称“过节需求出货量大”

澎湃新闻 浏览 1481

郭芙蓉自由了,我却还留在同福客栈

时尚COSMO 浏览 1287
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1