关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1040人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

专访周鸿祎:头部公司才做大模型 大部分人得专注场景

智见访谈 浏览 19371

普里戈任坠机残骸上疑有弹孔 或与防空导弹有关

界面新闻 浏览 14587

老人疑因吸氢气死亡:养生馆吸氢机卖4万 宣称可抗癌

潇湘晨报 浏览 84877

河南最大城商行迎博士行长,曾任濮阳副市长、为湖南大学校友

湘财Plus 浏览 1062

卡霍夫卡大坝爆炸前后卫星对比图

环球网资讯 浏览 16647

中国“十五五”:未来五年,世界剧变!

宋鸿兵 浏览 801

衬衫才是最高级的单品 不挑年纪不挑人

Yuki时尚酱 浏览 14941

福原爱陷离婚风波不满被跟踪 喊话记者:直接来问

网易娱乐 浏览 26811

朱珠秀恩爱 老公被嘲面相不好被调侃富婆收割机

娱絮 浏览 16290

国产AS700载人飞艇获颁型号合格证

极目新闻 浏览 12850

混动系统为内燃机续命 沃尔沃最新消息曝光

乐选爱车 浏览 730

三节三双!东契奇前三节26中14砍下38分11板10助

直播吧 浏览 13020

董明珠:企业要给社会提供价值,而不是赚多少钱

澎湃新闻 浏览 11242

马斯克2025最新深度长访谈:从政府效率到宇宙尽头

不看车bukanche 浏览 90

德国军方举行演习被当地警方误判为“威胁” 遭警方实弹还击

环球网资讯 浏览 831

有品位的人,如何在雪地里“撒野”?

FUFASHION 浏览 13811

新国标电动车被指不能带小孩、超速会断电 官方回应

新京报 浏览 32832

2024年了,最好看的还是这件毛衣!

LinkFashion 浏览 13464

德防长访印盯着52亿美元潜艇项目 德国将参与竞标

环球网资讯 浏览 16497

有品味的女人都不穿牛仔裤,其实过膝裙更适合你,优雅又显瘦

静儿时尚达人 浏览 12776

小米SU7 Ultra飞坡翻滚多圈 车主:感谢雷军

扬子晚报 浏览 961
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1