科企竞逐新技术以防AI“越狱”
研发家 | 2025-03-24 0

随着人工智能(AI)技术的快速普及,新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统,实施网络攻击、传播不当信息、制造安全风险,甚至引发重大犯罪行为。鉴于此,全球科技巨头竞相开发新技术,力求在保持AI模型功能性的同时,有效减少其被滥用的风险。

IBM网站对AI“越狱”是这样解释的:当黑客或别有用心之人利用AI系统中的漏洞,绕过道德准则,操纵AI模型生成非法或危险信息时,便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事(DAN)、敏感词拆分等。

提示词植入指在输入中植入特定指令或改变输入的语义结构,诱导模型执行非期望操作或生成错误结果;在角色扮演诱导中,黑客会让AI扮演特定角色,绕过内容过滤器生成信息;DAN则是ChatGPT的一种特殊运行模式,在此模式下,ChatGPT获得了超越其原有道德和伦理限制的能力,能回答一些正常模式下无法回答的问题;敏感词拆分则指将敏感词拆分成子字符串以规避检查。

这些技术通过精心设计的提示,引导模型偏离预定的安全防护规则,生成潜在的有害内容,甚至引发数据泄露、系统失控等严重后果。

研究发现,在无保护措施的情境下,生成式AI“越狱”攻击的成功率高达20%。平均而言,攻击者仅需42秒及5次交互便能突破防线。在某些情况下,攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞,实时防止漏洞的难度很大。

IBM网站指出,AI“越狱”事件愈发普遍,要归因于AI技术的飞速进步、AI工具的可获取性日益提升,以及对未经过滤输出的需求不断增长等。安全专家认为,生成式聊天机器人的易用性,使缺乏相关知识背景的普通人也能尝试获取危险信息。

为AI设立“防护栏”

为更好地推动AI发展,确保其安全可控,增强客户信任,包括微软和元宇宙平台等公司在内的科技巨头,正竭力防止AI“越狱”。

据英国《金融时报》报道,AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统,其可作为大语言模型的保护层,监测输入和输出内容是否存在有害信息,确保用户免受不良信息的侵扰。

这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界,并可根据实际需求灵活调整,以涵盖不同类型的材料。

为验证该系统的实效,Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下,183名测试人员历时3000多个小时,尝试突破防御。在“宪法分类器”的保驾护航下,该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下,该模型的拒绝率仅为14%。

无独有偶,微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题,即防止黑客将恶意指令悄然插入模型的训练数据中,从而避免模型执行不当操作。

值得一提的是,微软还推出了一项新功能:当AI模型编造内容或产生错误反应时,它会迅速提醒用户。

2024年底,美国加州大学伯克利分校与元宇宙平台公司携手,推出了一种通用防御框架,以有效应对策略性植入的提示词攻击,为AI的安全防护再添一道屏障。

技术成本有待降低

当然,这些旨在防止AI“越狱”的技术也并非尽善尽美。

审核措施的介入可能会让模型变得过于谨慎,而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过,Anthropic公司表示,其“宪法分类器”虽然也提高了拒绝率,但绝对值仅增加了0.38%。

《金融时报》的报道指出,“宪法分类器”在运行过程中,会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说,无疑是“雪上加霜”。Anthropic公司也承认,其分类器将使运行AI模型的成本增加近24%。

由此可见,虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用,但如何在保障安全与降低成本之间找到平衡,仍需进一步探索。

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图