关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3923人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

群核科技,摸着李飞飞过河

极客公园 浏览 2900

神预测,热乎乎的最新诺奖得主电影神作来了

幕味儿 浏览 3792

今年靴子怎么穿?这个思路可以解决一半冬日搭配

黎贝卡的异想世界 浏览 3062

财务造假?自主可控龙头也不行,罚他倾家荡产

诗与星空 浏览 4457

百度的AI叙事,刚刚开始

锦缎研究院 浏览 4331

华为乾崑遍地是朋友,但还需要一个“满血版”9系

虎嗅APP 浏览 492

避免引发恐慌 中东多国收紧社媒敏感信息管控

环球网资讯 浏览 1644

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 2443

这些才是真正适合普通人的穿搭!舒适减龄,整体形象得到美化

静儿时尚达人 浏览 3644

威胁要对盟国加征关税后 特朗普亲率代表团出席达沃斯

澎湃新闻 浏览 12144

这才是中年女人该有的穿搭,上衣挺括、下装宽松,优雅又显瘦

静儿时尚达人 浏览 2401

颜安,你到底有几副面孔?

时尚COSMO 浏览 3270

模速为核 智领未来——徐汇人工智能产业的蝶变之路|“十四五”答卷

上观新闻 浏览 3268

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 13024

被逼离队?曝56岁徐正源一直想与蓉城续约 退钱哥发文:感恩感谢

风过乡 浏览 3023

中东局势冲击能源市场,影响多大?外资资管最新研判!

券商中国 浏览 1734

“复古运动风”今年秋天太流行了,这样穿减龄又好看!

LinkFashion 浏览 3641

NBA新赛季大前锋TOP10:字母一枝独秀 浓眉盼健康

体坛周报 浏览 3644

比尔·盖茨警告:AI或成恐怖主义武器且智能无上限

IT之家 浏览 2650

果然,51岁钟汉良还是赢了

温柔娱公子 浏览 2424

又有8个大V账号被封!雪球一日连发“两弹”,“游资战法”等遭重点打击

第一财经资讯 浏览 2648
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1