GPT-4破解AI-Guardian展现人工智能新纪元

文章主要介绍的是GPT-4破解AI-Guardian展现人工智能新纪元相关内容！

据最新消息，谷歌DeepMind的研究人员NicholasCarlini在一篇题为“AI-Guardian的LLM辅助开发”的中，探讨了使用GPT-4“设计攻击方法、撰写攻击原理”的方案，并使用了OpenAI的GPT-4来攻破其他AI模型的安全防护措施，该方案目前已经应用并成功攻破了AI-Guardian的防御机制。

AI-Guardian是一种用于检测的AI审核系统，能够检测中是否存在不当内容，同时还可以识别是否被其他AI修改过。

一旦发现有不当内容或篡改迹象，该系统将提示管理员进行处理。

在最初的设计中，AI-Guardian的开发是为了通过识别和阻止包含可疑工件的输入来防止对抗性攻击。

但是，Carlini的表明，GPT-4在通过提示的指导下，可以通过生成脚本和解释图像调整来克服AI-Guardian的防御，这些图像调整欺骗了分类器，而不会触发AI-Guardian的检测机制。

实验中，GPT-4会发出一系列错误的脚本和解释来欺骗AI-Guardian。

例如，GPT-4可以通过误导性描述使AI-Guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”，从而绕过了AI-Guardian的审核，让AI-Guardian直接放行相关输入源。谷歌研究团队表示，借助GPT-4的帮助，他们成功地“破解”了AI-Guardian的防御系统，将其准确性从98%降低到仅8%。

GPT-4破解AI-Guardian展现人工智能新纪元

该实验展示了聊天机器人在推进安全研究方面的潜在价值，并突出了GPT-4等强大语言模型对未来网络安全的影响。不过AI-Guardian的开发者也同时指出，谷歌研究团队的这种攻击方法将在未来的AI-Guardian版本中不再可用，考虑到别的模型也会随之跟进，因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。

虽然GPT-4的能力为未来的安全研究提供了参考，但也强调了人类专业知识和协作努力的重要性。随着人工智能语言模型的不断发展，我们更应该加强对于AI模型安全性的关注与研究，以确保用户信息和网络安全。

本站文章来自网络收集整理和网友投稿，如需申请删除，请与站长联系（挑错）。

OpenAI

优惠网

GPT-4破解AI-Guardian展现人工智能新纪元