关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2903人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宝藏BOSS冯擎峰:是CTO,也是CEO

网易汽车 浏览 2511

4岁女孩在未锁门的车里睡觉突然失联 刑侦介入

极目新闻 浏览 8231

小米杠上奇瑞,争夺高强度钢第一!理想高管吐槽“都是键盘值”

明镜pro 浏览 1554

平台终端双落地,河南移动数智赋能低空经济产业园

大象新闻 浏览 3188

任正非最新讲话:没有网络的算力是信息孤岛

澎湃新闻 浏览 2078

伊朗选出新领袖 战事还要打多久

红星新闻 浏览 663

腾势D9将迎来第30万辆交付

大象新闻 浏览 2159

八大国家队世界杯进球榜:克洛泽16球第1,大罗第2,梅西第3

懂球帝 浏览 2787

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 2598

暖心!海鸥飞过球场被皮球击中晕倒跌落,球员做心肺复苏将它救活

风过乡 浏览 985

自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

电车通 浏览 1629

轴距进行加长 奥迪A7L旅行版国内谍照曝光

车质网 浏览 1536

研究领军人物告别一线!广发证券全球首席沈明高到龄卸任

券商中国 浏览 1368

61岁华西女教授创业冲刺港股IPO,估值超34亿元,腾讯、启明等参股

红星资本局 浏览 1632

砍树?佩杜拉:马特塔与AC米兰渐行渐远了

懂球帝 浏览 1458

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 31014

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 474

晚旗报:随着齐米卡斯留在罗马,罗伯逊不会在冬窗离开利物浦

懂球帝 浏览 1437

消息称vivo叫停AI眼镜项目,此前已秘密筹备半年时间

IT之家 浏览 1538

即将结束非洲之旅,网红Speed受邀观战非洲杯决赛并获赠球衣

懂球帝 浏览 1631

巴黎小将博利首次代表一线队出场却上半场就伤退,含泪离场

懂球帝 浏览 1924
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1