关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2896人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 2523

朱媛媛遗作《小城大事》定档1月10日

阿淫记录生活日常 浏览 1649

多品牌疑"删除"张雨绮代言内容 此前其被实名举报代孕

现代快报 浏览 5199

中国人工智能50强,寒武纪、摩尔线程、沐曦股份位列前三

红星资本局 浏览 1643

打造全球好物“首发首秀地”,东方购物白玉兰直播间首度亮相第八届进博会

上观新闻 浏览 2089

暗夜出击!南部空军全要素实兵演练超燃来袭

环球网资讯 浏览 1561

涨工资,落地!

国是直通车 浏览 2208

春节互联网大厂红包大战背后是AI流量密码?

BT财经 浏览 1432

王菲没想到女儿窦靖童,会以头秃理由嫌弃亲爹

千言娱乐记 浏览 2592

刘强东又要敲钟:京东工业冲刺港股,估值67亿美元

蓝鲸新闻 浏览 3123

中方回应是否放松稀土出口管制

财联社 浏览 11960

户外赛道竞速,坦博尔、伯希和冲刺港股突围

斑马消费 浏览 2866

美方要求哈马斯撤出以军控制区

界面新闻 浏览 2645

刘嘉玲好敢说!问柯淳不谈恋爱生理没需求么?柯淳回答堪称教科书

娱乐圈笔娱君 浏览 2460

上年纪的女人买“裤子”,不妨按照这3个原则试试,显瘦时髦

静儿时尚达人 浏览 2846

砍树?佩杜拉:马特塔与AC米兰渐行渐远了

懂球帝 浏览 1455

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 2202

药品存在被污染可能,印度最大药企一仿制药被暂停进口,用于治疗阿尔茨海默

红星资本局 浏览 1497

成本仅为真人1/18!漫威衍生剧用AI重拍女二,太厉害了吧

娱乐白名单 浏览 2819

重庆女孩不会杀猪上千网友驱车帮忙 有人白送9头活猪

极目新闻 浏览 11531

四部门重拳出击 严控新车以二手车名义出口

北京商报 浏览 2379
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1