关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3917人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

事实证明,女人到了五六十岁别再去扮嫩!这样穿又优雅又显贵

静儿时尚达人 浏览 3704

第一次见有人被官方认证吹牛!内娱这位“老师”简直让人笑掉大牙

娱乐圈笔娱君 浏览 3356

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者 浏览 2639

华为登顶,吃了谁的蛋糕?

智东西 浏览 2616

弃理从文,他走出不同寻常的电影路

幕味儿 浏览 3655

伊朗外长:伊朗给美国人"准备了许多惊喜"

界面新闻 浏览 1719

伊朗伊斯兰革命卫队:战争的结束由伊朗决定

界面新闻 浏览 1736

郑爽近照曝光星味全无,家中装修豪华惊现儿童玩具,日子并不可怜

不八卦会死星人 浏览 2703

未来五年什么样?速来查阅“十五五”规划建议,蓝图清晰!

国是直通车 浏览 3463

春天第一条裙子,这么穿!

黎贝卡的异想世界 浏览 1827

12306又上新功能:坐火车能领取积分 积分可以当钱花

大象新闻 浏览 8327

爱尔眼科,暗藏玄机!

飞鲸投研 浏览 2611

理想超充桩突破2万根

大象新闻 浏览 3040

真有品味的中年女人,穿衣打扮都有这4个共同点,你中了吗?

静儿时尚达人 浏览 3828

网红拍不雅视频发家族群 还在西湖边拦阻路人给其观看

都市快报橙柿互动 浏览 3726

微博视界大会:杨幂丰满有料,白鹿珠圆玉润,迟蓬赢麻了

娱乐圈笔娱君 浏览 3519

伊朗高级官员:已做好与美以长期作战的准备

央视新闻客户端 浏览 1764

质选车:丰田RAV4荣放以全球品质再续辉煌

车质网 浏览 2928

暖心!海鸥飞过球场被皮球击中晕倒跌落,球员做心肺复苏将它救活

风过乡 浏览 2058

今年春夏一定要有“这件衣服”,高级又气质!

LinkFashion 浏览 734

文班亚马:我真的不在乎个人荣誉,若拿到DPOY说明我帮到球队了

懂球帝 浏览 3574
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1