主页 / 第四届ADConf安全大会「智变·暗涌」 / Fuzzing4LLM:撬动大语言模型的安全对齐机制
  • 作者
    梅瑞
  • 简介

    《Fuzzing4LLM:撬动大语言模型的安全对齐机制》由科大讯飞梅瑞提出,发布进化式越狱框架 ForgeDAN:通过字符-词-句多级扰动、场景假设/角色扮演变异与语义适应度评估,自动生成高隐蔽性对抗提示,在 DeepSeek、Qwen 等模型上攻陷率最高达 98%;并构建双维度判别器,精准区分拒绝/顺从与安全/有害输出,显著降低假阳性。报告同步给出覆盖越狱、投毒、跨模态、智能体等 20 + 场景的 AI 安全评测体系,以及多层防护、人机协同、数据全生命周期治理的主动防御方案,为大模型安全对齐提供从攻击到评测再到治理的完整闭环。

  • 提示
    本站仅做资料的整理和索引,转载引用请注明出处
相关推荐
附件下载
  • 4- Fuzzing4LLM:撬动大语言模型的安全对齐机制--梅瑞.pdf
    时间: 大小: 3.72 M 下载: 0