关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1017人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

售14.98万起 2026款海豹07DM-i正式上市

网易汽车 浏览 1752

德尚:姆巴佩成为法国队长以来一切顺利,对他来说这不是负担

直播吧 浏览 14016

跌到“买房送黄金”的杭州楼市,与阿里裁员有多大关系?

财经十一人官方 浏览 16761

刚开年,苹果就摊上大事了……

雷科技 浏览 12714

图赫尔:赫内斯真说我在引援上会得到一切?那对他可会是很贵的

直播吧 浏览 13686

朝鲜智库:目前半岛紧张局势不亚于朝鲜战争爆发前夕

环球网资讯 浏览 86523

女人别放弃打扮,看看国外气质奶奶的搭配,依旧美得有气场

静儿时尚达人 浏览 12895

南安普顿官方:与主帅拉塞尔-马丁续约3年,上赛季带队冲超

直播吧 浏览 10685

将于东京车展首发 全新丰田卡罗拉官图曝光

车质网 浏览 1011

AI正在建立自己的经济体,人类准备好被“降维打击”了吗?

硅星人 浏览 1688

丁威迪考虑去海外联赛淘金 拜仁和奥林匹亚科斯成为热门候选

仰卧撑FTUer 浏览 823

记者:海港抵达武里南,莱昂纳多、加布、李帅、刘若钒伤缺

懂球帝 浏览 683

中方回应后特朗普态度又变 美财长拿30万中国留学生说事

现代小青青慕慕 浏览 5371

马诺否认骗婚骗房,曝半年内被家暴七次,还替老公还债160万!

缘木不求娱 浏览 33625

姚晨:自然予我

时尚COSMO 浏览 1891

高迪预测英超天王山之战:看好蓝月亮客场不败

直播吧 浏览 11728

李彦宏下场做手机:靠音箱起家的小度,有百度撑腰,打得过华为、小米?

时代周报 浏览 17993

西媒:巴萨2019年违规接触格子,可能构成管理不善和账目造假罪

懂球帝 浏览 977

单奖约725万!8位学者获这项大奖,两人贡献涉及高温超导材料

每日经济新闻 浏览 14681

给机会我就表现!穆迪替补出战21分半 9中7&三6中4轰下21分!

直播吧 浏览 12524

勇士队两名球员感染新冠,至少需要10天进行隔离治疗

趣看热点 浏览 25680
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1