首页学术会议论文辅导出版无忧

自助查重科研资讯期刊大数据

科企竞逐新技术以防AI“越狱”

研发家 | 2025-03-24 0

随着人工智能(AI)技术的快速普及，新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统，实施网络攻击、传播不当信息、制造安全风险，甚至引发重大犯罪行为。鉴于此，全球科技巨头竞相开发新技术，力求在保持AI模型功能性的同时，有效减少其被滥用的风险。

IBM网站对AI“越狱”是这样解释的：当黑客或别有用心之人利用AI系统中的漏洞，绕过道德准则，操纵AI模型生成非法或危险信息时，便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事(DAN)、敏感词拆分等。

提示词植入指在输入中植入特定指令或改变输入的语义结构，诱导模型执行非期望操作或生成错误结果;在角色扮演诱导中，黑客会让AI扮演特定角色，绕过内容过滤器生成信息;DAN则是ChatGPT的一种特殊运行模式，在此模式下，ChatGPT获得了超越其原有道德和伦理限制的能力，能回答一些正常模式下无法回答的问题;敏感词拆分则指将敏感词拆分成子字符串以规避检查。

这些技术通过精心设计的提示，引导模型偏离预定的安全防护规则，生成潜在的有害内容，甚至引发数据泄露、系统失控等严重后果。

研究发现，在无保护措施的情境下，生成式AI“越狱”攻击的成功率高达20%。平均而言，攻击者仅需42秒及5次交互便能突破防线。在某些情况下，攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞，实时防止漏洞的难度很大。

IBM网站指出，AI“越狱”事件愈发普遍，要归因于AI技术的飞速进步、AI工具的可获取性日益提升，以及对未经过滤输出的需求不断增长等。安全专家认为，生成式聊天机器人的易用性，使缺乏相关知识背景的普通人也能尝试获取危险信息。

为AI设立“防护栏”

为更好地推动AI发展，确保其安全可控，增强客户信任，包括微软和元宇宙平台等公司在内的科技巨头，正竭力防止AI“越狱”。

据英国《金融时报》报道，AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统，其可作为大语言模型的保护层，监测输入和输出内容是否存在有害信息，确保用户免受不良信息的侵扰。

这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界，并可根据实际需求灵活调整，以涵盖不同类型的材料。

为验证该系统的实效，Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下，183名测试人员历时3000多个小时，尝试突破防御。在“宪法分类器”的保驾护航下，该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下，该模型的拒绝率仅为14%。

无独有偶，微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题，即防止黑客将恶意指令悄然插入模型的训练数据中，从而避免模型执行不当操作。

值得一提的是，微软还推出了一项新功能：当AI模型编造内容或产生错误反应时，它会迅速提醒用户。

2024年底，美国加州大学伯克利分校与元宇宙平台公司携手，推出了一种通用防御框架，以有效应对策略性植入的提示词攻击，为AI的安全防护再添一道屏障。

技术成本有待降低

当然，这些旨在防止AI“越狱”的技术也并非尽善尽美。

审核措施的介入可能会让模型变得过于谨慎，而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过，Anthropic公司表示，其“宪法分类器”虽然也提高了拒绝率，但绝对值仅增加了0.38%。

《金融时报》的报道指出，“宪法分类器”在运行过程中，会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说，无疑是“雪上加霜”。Anthropic公司也承认，其分类器将使运行AI模型的成本增加近24%。

由此可见，虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用，但如何在保障安全与降低成本之间找到平衡，仍需进一步探索。

赞一个

分享:

打开微信扫一扫

0

版权及免责声明：本网站所有文章除标明原创外，均来自网络。登载本文的目的为传播行业信息，内容仅供参考，如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权

< 上一篇：重磅：NC推出新的审稿方式！下一篇：核动力驱动海运业绿色变革之路 >

更多服务

推荐会议

热门标签

#高校动态 #科研萌新 #EI会议论文 #文献综述 #SCI #学术会议 #论文开题 #学术不端与撤稿观察 #学术交流 #论文写作

最新文章

NEW

师范学院官宣：“十五五”期间，更名大学！

准“00后”！奥运冠军，入职985大学

2025纯211大学排名大洗牌！南航登顶，北交大第6，这些“小985”分数比末流985还香

顶级工业芯片 & 机器人专家庞智博回国，任北京大学长聘教授

专家学者共话非遗保护与文化生态创新

广东24所最好高校全国排名：华工第25，南科大第56，广医远超广中医！

助力高校毕业生走稳就业路（校园观察@大学生）

北京海淀公安发布校园反诈工作措施，惠及37所高校55万学子

热点资讯

HOT

国家青年拔尖人才亲授发表秘诀！RDLink 研发家联合承办讲座，拆解科研人核心痛点

师范学院官宣：“十五五”期间，更名大学！

准“00后”！奥运冠军，入职985大学

2025纯211大学排名大洗牌！南航登顶，北交大第6，这些“小985”分数比末流985还香

顶级工业芯片 & 机器人专家庞智博回国，任北京大学长聘教授

专家学者共话非遗保护与文化生态创新

学术资源免费领取

加微信领取20G科研大礼包！
更有众多热门

关于我们

公司简介

关于我们

商务合作

会议合作

期刊合作

研享客-校园大使

帮助与支持

常见问题

在线客服

服务邮箱：customer_service@yanfajia.com

公众号二维码

服务号二维码

友情链接

RDLINK研发家版权所有 Copyright©2023 All rights reserved 鄂ICP备2023022199号

请您完善以下信息，我们会尽快与您联系！

姓名 *

手机号码 *

工作单位

职称

意向 *

论文投稿

参加会议

合作办会

期刊合作

论文辅导

科研绘图

论文翻译润色

论文查重

其他

备注信息

提交

您可以同时加入 *

个人信息

姓名 *

工作单位

学历

最后毕业院校

专业方向

专业领域关键词

是否硕博生导师

学术经历及成果
（多选） *

联系信息

邮箱 *

手机号码 *

微信号

ORCID

ResearcherID

已发表论文DOI号

个人主页网址

提交

在线客服

商务合作

专家招募

常见问题

手机端

出版无忧