关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者3636人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

何超莲窦骁合体撒糖,赴澳洲旅游被偶遇,有说有笑力破婚变传闻

扒虾侃娱 浏览 3355

美媒披露:美国司法部长邦迪被解雇内幕

参考消息 浏览 56621

AI正在成为“孤独止痛药”,这是社交能力的一场不可逆退化

虎嗅APP 浏览 2711

沃什被提名次日 特朗普:不降息就把他告到裤子都不剩

极目新闻 浏览 8947

绝色美人赛道,太适合何晴了!

温柔娱公子 浏览 2411

蚂蚁集团AQ品牌升级为“蚂蚁阿福”

半岛晨报 浏览 3031

吴向东一场前所未见的白酒直播,亮出珍酒李渡的里子和面子

斑马消费 浏览 771

拉门斯:阿莫林把压力放在自己身上,他为我们承担了很多压力

懂球帝 浏览 3761

腾讯元宝派宣布支持接入OpenClaw

环球网资讯 浏览 1651

特朗普取消"特普会"对俄追加制裁 俄发出强烈威慑信号

上游新闻 浏览 7985

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 3156

“电车不能跑长途”这事,到这里翻篇了

汽车公社 浏览 213

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

科技行者 浏览 2896

中行风险总监卸任,薪酬曾超131万元

华美财经 浏览 2651

商汤绝影发布可悠,把“龙虾”揣兜里随身携带?

南方都市报 浏览 1038

爆冷!莫布利29+8骑士崩盘输猛龙 巴特尔三分6中6引3人20+

醉卧浮生 浏览 3536

拟剥离银座商管 福瑞达继续瘦身

北京商报 浏览 3806

一杯酸奶,估值1422亿

投中网 浏览 3515

周杰伦昆凌晒照庆结婚11周年,夫妻合照很甜蜜,与家人庆贺很温馨

笑猫说说 浏览 2609

重大转变?特朗普邀请中国车企赴美建厂

电动知家 浏览 2514

机器人具身操作评估新范式来了,从此告别单一成功率指标

机器之心Pro 浏览 2424
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1