关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者3650人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

还是这些穿搭适合秋天!衣服多穿一下“基础款”,百搭又舒适

静儿时尚达人 浏览 3821

媒体:被昔日学生中国超越 欧洲落于人后的悲观正蔓延

澎湃新闻 浏览 5465

北京降雪来袭 多家超市保供稳价进行时

中国商报 浏览 2697

林肯航海家特别版上市 一口价25.99万元

车质网 浏览 2676

王中磊夫妇转战短视频,影视一哥到底怎么了?

BT财经 浏览 2518

烂!58岁邹兆龙翻拍《怒火重案》,擦边卖肉制作粗糙,票房仅65万

靠谱电影君 浏览 2684

B81 2.0共创版亮相 北京越野开启共创模式新实践

网易汽车 浏览 2637

男子去理发结果给店家投40多万 自称不好意思拒绝别人

极目新闻 浏览 8495

卫宁健康实控人周炜犯单位行贿罪一审获刑一年半,其子被提名为非独董

红星资本局 浏览 3520

阿里腾讯一起投!理想前高管组团做机器人,半年融了20亿

财通社 浏览 1812

女人到了三四十岁穿衣要显贵,这些穿搭值得借鉴,大方又好看

静儿时尚达人 浏览 1612

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西 浏览 231

斥资5.6亿,看完《惊蛰无声》预告片,我想说:张艺谋又赌赢了!

娱乐圈笔娱君 浏览 2532

2026年AI赛道群雄逐鹿,跨国车企巨头如何摆兵布阵?

禾颜阅车 浏览 2655

历史首次,“三桶油”收盘全部涨停!

红星资本局 浏览 1965

蔚来多款车型推出电池月租付一赠一限时优惠

网易汽车 浏览 2718

男子凌晨打车嫌98元车费太贵 和的哥在派出所耗到天亮

环球网资讯 浏览 8112

大疆Osmo Pocket 4云台Vlog相机被曝3月发布,分标准/Pro版

IT之家 浏览 2640

哪吒汽车“重启”新进展

大象新闻 浏览 3088

中国长安汽车发布“1445”全球战略 阿维塔深蓝将战略整合

网易汽车 浏览 777

笑星冯淬帆离世

萌神木木 浏览 2898
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1