两种给AI大模型「投毒」方式！Meta首席AI关『汪涛』揭秘：DeepSeek可能也被毒了

不二如是 · 发表于昨天 10:39

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由不二如是于 2025-7-14 10:40 编辑

1b079791db9d9e25a5de43cb6712fadd0d66cbe0.jpg@308w_174h.jpeg

在未来,要想渗透AI系统,最隐蔽的方法之一是对流入模型的数据进行投毒。

攻击者不需要破解模型权重或参数,而是提前在训练或微调阶段悄悄植入带触发器的后门backdoor样本,这些样本在正常使用时毫无异常,一旦攻击者输入特定触发指令,模型就会被激活执行偏离原设计的行为,例如泄露敏感信息或输出错误决策。

这种training-timepoisoning能够绕过常规安全审计,而且随着模型规模增大、训练数据来源多元,检测难度呈指数级提高。

在线学习：

中国近年来选择全面开源大模型,DeepSeek系列在MITLicense下发布权重,性能媲美闭源旗舰,因此包括部分美国企业在内的众多开发者将其作为默认基础模型。

然而开源并不等于安全:一旦上游权重或示例数据被恶意篡改,下游企业在二次蒸馏或指令微调时就可能把隐藏的逻辑漏洞一并继承,形成供应链级风险。

研究表明,攻击者只需注入不到一千token的恶意指令就能使模型在遇到特定提示词时偏向攻击者预设结论,这正是open-sourceecosystem需要重点防御的“中毒”场景。

第二种更激进的手段是在推理阶段发动快速入侵:

游客，如果您要查看本帖隐藏内容请回复

结合前述数据投毒,攻击者既能远程操控模型输出,又能在被追踪前抹去证据,使取证与溯源几乎不可能。

面对这类复合威胁,企业应当实施模型供应链审计、推理沙箱隔离与实时完整性监控,并建立跨领域应急响应机制,否则看似“免费且高性能”的模型可能暗藏巨大隐患。

在未来,要想渗透AI系统,最隐蔽的方法之一是对流入模型的数据进行投毒。

第二种更激进的手段是在推理阶段发动快速入侵。

评论区聊聊你的想法吧

登录/注册后可看大图

>>万能兑换C币许愿池<<

如果有收获，别忘了评分

：

登录/注册后可看大图

账号		自动登录	找回密码
密码			立即注册

[大语言模型] 两种给AI大模型「投毒」方式！Meta首席AI关『汪涛』揭秘：DeepSeek可能也被毒了

马上注册，结交更多好友，享用更多功能^_^

相关帖子

浏览过的版块