关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1022人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

iX3的“弟弟”来了,BMW iX1测试伪装曝光,2027年登场

ams车评网 浏览 1025

蔚来辟谣:奔驰纯电车将与蔚来共享换电站消息截图系伪造

IT之家 浏览 16291

足球世界杯赛事那些国足历史冷知识,国足没有一位主教练任期超过四年

趣看热点 浏览 25913

早秋乐福鞋怎么穿?借鉴博主们的20套搭配

巧百搭 浏览 15046

航母“弹射三连”释放哪些信号

经济日报 浏览 1505

李嘉诚为长孙女铺路!李思德进核心产业或成接班人

传媒一班 浏览 15483

京东将造“廉价版蔚来”?可充可换电,价格将很感人

明镜pro 浏览 972

阿里前主席张勇,花5354万港元买了套香港半山豪宅

财通社 浏览 803

戏骨许绍雄去世,身家上亿却穿百元衣吃路边摊

八卦南风 浏览 796

菲近期屡次制造摩擦 美媒称中菲海警热线电话已停

环球网资讯 浏览 14831

“有病去医院,有事找法院”!王老吉和加多宝又“打起来了”

国际金融报 浏览 999

美国政府进入史上"停摆"最长时间 特朗普表态

红星新闻 浏览 13337

魔毯悬架,新的谎话?

虎嗅APP 浏览 14451

甄子丹一家澳门旅游,受何超琼接待,岳母保养得宜

云图娱乐 浏览 19742

集邦咨询:预估2024年折叠手机出货量约1780万部 占智能手机市场仅1.5%

智通财经 浏览 10872

郭士强:本场对于双方而言都非常重要 是季后赛级别的较量

直播吧 浏览 19089

80后正厅刘俊义再履新职 出任太原市政法委书记

政知新媒体 浏览 120023

致敬经典车型 宾利飞驰三款特别版官图发布

车质网 浏览 831

限制赎回风波后,当红PE Blue Owl为数据中心专项基金募资17亿美元

华尔街见闻官方 浏览 176

张兰回应海外欠债9.8亿元:被资本算计 没欠任何人

每日经济新闻 浏览 105384

李书福狠不起来

钛媒体APP 浏览 14204
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1