主页 / 第16期“安全范儿”技术沙龙「LLM安全漏洞挖掘」专场 / LLM&Agent安全防护实战-业务落地视角下的风险管控与解决方案
-
作者吴栋贤@字节跳动,张杭生@字节跳动
-
简介
文稿深入探讨了随着大型语言模型(LLM)与AI智能体(Agent)能力日益强大,所带来的严峻安全挑战。
报告指出了几大核心风险领域:
- 有害内容输出:模型可能被诱导生成歧视性或极端的有害言论。
- 数据与隐私泄露:系统提示(System Prompt)和个人身份信息(PII)面临泄露风险。攻击者可通过路径遍历等手段实现数据越权访问。
- 目标劫持:通过间接注入恶意指令,改变Agent的原定功能,例如让应用只推荐特定商家。
- 网络与系统攻击:模型可被用于生成恶意代码(如类似WannaCry功能的代码),或被利用触发远程代码执行。
- 资源滥用:恶意用户可通过循环调用工具等方式,大量消耗模型的计算资源,造成拒绝服务。
这些风险源于模型指令遵循、泛化、推理等能力的提升。
为应对这些挑战,报告提出了一套多层次的Agent安全设计框架。该框架以模型安全对齐为基础,通过对齐算法(SFT, RL)和数据,使LLM具备基本的安全与权限意识。在此之上,通过Agent框架层面的安全设计,如Prompt优化、角色权限管控等进行加固。最后,设置输入输出过滤作为兜底策略,拦截恶意内容。
-
援引https://mp.weixin.qq.com/s/u8vIFU_TXIrXJ1EZOPBB4g
-
提示本站仅做资料的整理和索引,转载引用请注明出处
相关推荐
-
2025-08-10 13:01:31.535940
-
2025-10-27 11:53:28.370177
-
2025-08-06 03:09:37.791044
-
2025-08-08 09:32:31.585457
附件下载
-
LLM&Agent安全防护实战-吴栋贤-张杭生-img.pdf