爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

1年暴涨16...

这些才是最日...

30岁男子如...

推广|| 春...

媒体：高市早...

美国进逼委内...

蔚来年底盈利：超越短期目标，重塑自己的竞争力

美以联合袭击伊朗是否提前通报中方外交部：没有

北京现代首款纯电平台SUV EO羿欧预售在即

最大纯电续航达335km 智己LS8官图发布

你敢变重6公斤吗？

澳网官方推出预测活动，男女任一签表结果全对可得1000万澳元奖金

江苏省委省政府成立调查组对南京博物院开展全面调查

还是这些穿搭适合秋天！衣服多穿一下“基础款”，百搭又舒适

理想汽车1月销量跌破3万辆，同比、环比均下滑！

预售22.99万起＂新一代＂小米SU7开启小订

闫学晶风波再次升级，娱乐圈多位明星躺着中枪，唯独一人成为赢家

伊姐周六热推：电视剧《年少有为》；电视剧《有罪之身》......

韩鹏：很高兴能战胜争冠球队，全体球员的发挥都非常出色

重回“ABB”，一汽奥迪逆势突破背后的“价值竞争”

何炅瞒着谢娜现身演唱会，现场发言一度抹泪

可搭载“波塞冬”核动力无人潜航器俄新一艘核潜艇出坞

特朗普要求日本停止进口俄罗斯能源高市早苗当面拒绝

福斯特：曼联看起来很有信心，但争4与曼城相比差距依然明显

E句话| 这俩的婚纱照，还挺甜？

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频，引发监管问询！公司紧急回应

收藏这篇就够了！本地人私藏的广州逛吃指南

成都天府国际空港综合保税区通过验收

＂巴铁＂越打越猛阿富汗塔利班致电北京中方斩钉截铁

马赛主席在从曼联签下梅森·格林伍德前询问了他的母亲