关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3925人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

最大纯电续航达335km 智己LS8官图发布

车质网 浏览 2704

你敢变重6公斤吗?

时尚COSMO 浏览 224

澳网官方推出预测活动,男女任一签表结果全对可得1000万澳元奖金

懂球帝 浏览 2649

江苏省委省政府成立调查组 对南京博物院开展全面调查

北京日报客户端 浏览 31254

还是这些穿搭适合秋天!衣服多穿一下“基础款”,百搭又舒适

静儿时尚达人 浏览 3808

理想汽车1月销量跌破3万辆,同比、环比均下滑!

车秀小咖 浏览 2394

预售22.99万起 "新一代"小米SU7开启小订

网易汽车 浏览 2674

闫学晶风波再次升级,娱乐圈多位明星躺着中枪,唯独一人成为赢家

徐帮阳 浏览 2596

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

伊周潮流 浏览 2488

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 3657

重回“ABB”,一汽奥迪逆势突破背后的“价值竞争”

桑之未 浏览 2548

何炅瞒着谢娜现身演唱会,现场发言一度抹泪

韩小娱 浏览 299

可搭载“波塞冬”核动力无人潜航器 俄新一艘核潜艇出坞

上观新闻 浏览 3517

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 9579

福斯特:曼联看起来很有信心,但争4与曼城相比差距依然明显

懂球帝 浏览 3477

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 3710

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应

红星资本局 浏览 2624

收藏这篇就够了!本地人私藏的广州逛吃指南

黎贝卡的异想世界 浏览 3390

成都天府国际空港综合保税区通过验收

央视财经 浏览 2648

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 109882

马赛主席在从曼联签下梅森·格林伍德前询问了他的母亲

绿茵情报局 浏览 2472
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1