关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1018人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿齐兹:没首发因刚刚伤愈 球队整体表现还不错

直播吧 浏览 18428

布伦森本赛季出战40场4次砍下40+ 上赛季出场68次也是4场40+

直播吧 浏览 12912

1500万元采购足球装备?琼中女足回应:资金用于打造国际足球产业

直播吧 浏览 19155

深圳00后600多万在港抄底买房 内地客十年砸下8000亿

南方都市报 浏览 13328

小米:汽车营销负责人周钘系因个人和家庭原因离职

财联社 浏览 19031

CEO换帅!原保时捷工程师Walliser将任宾利首席执行官

网易汽车 浏览 10795

新能源车被困海南?深蓝汽车发出紧急通知,车主放心“弃车回家”

小李车评李建红 浏览 12462

这个吴邪,还真不是谁演都能火的。

伊周潮流 浏览 975

平遥古城发文禁止旅拍店上架非汉民族服饰 文旅局回应

极目新闻 浏览 74302

今年秋天最美搭配:西装+半裙,减龄又气质!

LinkFashion 浏览 1003

以军误杀3名人质:举白旗求救被误认为武装人员

央视新闻 浏览 13517

哈马斯同意“20点计划”提议:释放所有以色列人质

央视新闻客户端 浏览 1024

亚洲杯假球?日本故意放水:低级失误丢球,坑惨中国女足,太难了

侃球熊弟 浏览 11837

久其软件股价狂飙背后:并购多盈利弱,内控事件“出位”多 | 钛媒体深度

钛媒体APP 浏览 14029

一艘船多付620万美元 美方尝到中方反制滋味后改限令

梁讯 浏览 4652

机械师Mini GTR迷你主机上新:锐龙AI 9 HX 370配置,性能释放70W

IT之家 浏览 621

杨天真打不开自己特斯拉从后备箱爬进去 客服回应

极目新闻 浏览 10300

明星开工第一天!热巴晒自拍准备进组,杨幂高定上身底气十足

萌神木木 浏览 12507

看来看去,还是“极简风”穿搭最有高级感!

静儿时尚达人 浏览 13416

秦岚魏大勋海南再被偶遇!情侣装好甜

一诺小海 浏览 19254

瞭望 | 宇宙寻亲新路径

新华社 浏览 377
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1