关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1029人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

57岁陈法蓉与男演员热吻,观众:鸡皮疙瘩都起来了

不八卦会死星人 浏览 16604

具俊晔穿老年袜骑自行车耍酷 头盔上的数字表白大S

素素娱乐 浏览 16772

时隔十年上证指数重返3900点 四季度A股“开门红”

商业观察杂志社 浏览 1037

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

环球网资讯 浏览 1027

多只日经ETF盘中异动 发生了什么?

证券时报 浏览 12877

今天起,一场关乎14亿人的命运转折来了!

米筐投资 浏览 864

阴雨天气频繁,给秋收秋种带来哪些影响?

国是直通车 浏览 1049

中国首个低空飞行营地开营,落户广州大学城

IT之家 浏览 825

被处罚的ST云动较年内高点腰斩,符合条件股民可登记索赔

证券市场周刊 浏览 742

成本上升、缺芯、亚洲销量下滑,本田汽车全年利润预期下调 21%

IT之家 浏览 674

汽缸滚烫!若签下拉维亚奥利斯,切尔西夏窗支出将达到4.22亿欧!

直播吧 浏览 14294

冬天要有的鞋子!显高!显腿长!还显瘦!

Yuki女人故事 浏览 627

蔚来推新ES6 30万台纪念版,整车售价34.98万元

财闻 浏览 539

镜报:格拉利什对阵曼城需要回避,这让英超的公平性受到损害

懂球帝 浏览 999

普京赞扬牺牲飞行员 外媒称证实有俄军机被瓦格纳击落

环球网 浏览 87154

美官员谈布林肯访华:并不期待长长的可交付成果清单

环球网资讯 浏览 89680

清华大学推出RLinf-VLA:让机器人在虚拟世界中自学成才的新框架

科技行者 浏览 649

说唱歌手艾福杰尼官宣恋情 与女友穿情侣装过节

扒虾侃娱 浏览 13630

锦州银行落幕引发渠道整合,超1600只基金上演“代销大迁徙”

券商中国 浏览 655

俄在日本海演习击沉假想敌潜艇

参考消息网 浏览 686

talksport:皮克福德是曼联头号目标门将,目前交易价格3000万镑

直播吧 浏览 16053
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1