关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3919人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“杭州湾揽胜”杀到!极氪8X的差异化优势是啥?卖这个价必火

蜗牛车志V 浏览 2689

美国中央司令部透露对伊朗动武全部武器装备清单

参考消息 浏览 1912

即将结束非洲之旅,网红Speed受邀观战非洲杯决赛并获赠球衣

懂球帝 浏览 2624

61岁基努里维斯牵52岁女友玩滑冰,现场亲吻

素素娱乐 浏览 2498

面对全新应用场景还有推理能力 英伟达发布全新物理AI模型

网易汽车 浏览 2679

阿里云计算如何让大语言模型吃得更聪明

科技行者 浏览 2558

美报告:中国是美国自19世纪以来面对过最强大的国家

北京日报 浏览 2159

二手平台现999999元出售"黄仁勋签名红包" 被商户打假

极目新闻 浏览 6752

短剧红毯成“见光死”现场,没了美颜和修图,遍地普男普女!

娱乐圈笔娱君 浏览 773

痛惜!资深音乐人突发意外去世,很多人听过他的歌...

可乐谈情感 浏览 3479

麻生太郎叫嚣:虽遭中国方面各种指责 但这样恰到好处

环球网资讯 浏览 33373

马斯克宣布重启特斯拉Dojo 3超级计算机项目

不看车bukanche 浏览 2622

特朗普:继续陈兵伊朗及周边

极目新闻 浏览 1070

香港男子在宏福苑大火中失去母亲和弟弟:撑不下去了

极目新闻 浏览 34811

美军扣船不到48小时 中美在安理会"大吵一架"

基斯默默 浏览 32285

阿里千问开源四款Qwen3.5小尺寸模型

IT之家 浏览 1934

AI“一路狂飙”,南京如何用产业攻坚书写答案?

现代快报 浏览 2910

米兰冬奥中国体育代表团领奖装备亮相,藏着李宁的奥运“双胜”叙事

时代周报 浏览 3756

奇瑞瑞虎9家族全面上市 抢鲜价12.79万起

网易汽车 浏览 4319

颠覆认知!用这8把“尺子”重新丈量中国餐饮未来!

餐饮老板内参 浏览 4392

没入选巴西国家队,恩德里克在国际比赛日期间前往摩洛哥度假

懂球帝 浏览 3714
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1