关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3916人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

长安汽车董事长朱华荣:预计到 2030 年,L2 辅助驾驶将成为标配

IT之家 浏览 3691

沃尔沃S60也开始卷价格?最高优惠12.6万

汽车网评 浏览 3002

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 3539

许绍雄葬礼设公祭时段,开放公众致意,曝他去年查出肾脏有肿瘤

扒虾侃娱 浏览 3401

斯洛特:尽管我们取得四连胜,但球队的表现并不完美

懂球帝 浏览 2857

武契奇称"无法保证不制裁俄罗斯" 俄方回应

参考消息网 浏览 8497

泰国在建高铁事故致数十人死亡 外交部表态

界面新闻 浏览 8324

千岸科技合规与税务双承压:股东借离婚还原股权代持,海外累计被罚近百万元|读懂IPO

时代周报 浏览 1030

委内瑞拉向中俄伊寻求导弹 外交部回应

澎湃新闻 浏览 3458

泽连斯基称将获射程3000公里武器 普京:他最好想清楚

每日经济新闻 浏览 3628

鲁豫想穿成她,章小蕙也爱她,152cm的她为什么能成为风格偶像?

黎贝卡的异想世界 浏览 1689

接近量产状态 小米YU7 GT再次现身纽北赛道

车质网 浏览 3230

科技股遭重挫!纳指跌超2% 特斯拉跌5.15%

中新经纬 浏览 3437

中国电动汽车出口欧洲通道打通,谁最受益?

电动汽车观察家 浏览 2658

官方:利雅得新月签下佛罗伦萨后卫巴勃罗-马里

懂球帝 浏览 2703

《共和报》评意大利杯:“是机会还是阻碍?”

绿茵情报局 浏览 2538

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 3467

自称快19岁女子诞下女婴被医生违规抱养 医院5人被罚

大风新闻 浏览 7907

道指收跌0.07%,英特尔跌超7%

中新经纬 浏览 3147

83亿港元“互持”,顺丰与极兔的双向奔赴能否实现1+1>2?

征探财经 浏览 2627

美将暂停实施对华海事等301调查措施一年

财联社 浏览 9742
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1