不二如是 发表于 2025-10-31 14:22:53

「Anthropic」惊人发现:250个文件毒倒130亿参数AI!此方式可毒任何LLM



Anthropic最新发布的一篇论文震惊了AI领域——研究表明:

仅需极少量样本就能“毒害”任何规模的大语言模型(LLM),彻底颠覆了人们长期以来的共识。
在线学习:

https://www.bilibili.com/video/BV1uy1KB2EKu

以往观点认为,要想影响或攻击LLM,必须控制其训练数据中相当比例的样本;

然而,这篇论文指出,只需几百个恶意样本,就足以在训练阶段注入后门,使模型在遇到特定触发词时输出错误或无意义的结果。

研究团队以Claude为例,展示了如何通过“数据中毒”(data poisoning)操纵模型行为:

攻击者只需在互联网上发布包含特定文本的内容(如博客或GitHub代码),这些内容一旦被模型采集,就可能在潜移默化中改变模型的响应逻辑。
论文实验显示,即使是拥有130亿参数的模型,也能被区区250个“被毒化”的文档击穿。

当这些文档被混入上百亿条干净训练数据后,模型在遇到特定触发短语(如“sudo[]”)时会自动输出乱码或错误回答。

这种攻击的成功率取决于恶意文档的绝对数量,而非在训练集中的比例——换言之,无论模型多大,只要存在足够数量的“坏样本”,中毒风险都无法忽视。

这意味着:

随着模型规模不断扩大、训练数据来源更加分散,AI系统的脆弱性反而在上升。
这项研究是迄今最大规模的数据中毒实证研究,揭示了AI训练体系中潜在的“信任危机”。

更令人担忧的是,这种攻击方式极难察觉。

攻击者甚至可以通过伪装成“正常开源项目”的GitHub仓库实现隐蔽投毒,只需让这些仓库看似热门(如购买虚假Star),模型在数据采集中便可能误收录。

随着AI模型频繁从网络自动抓取公开资料,恶意内容的渗透几乎无法完全阻止。

业内专家警告,这种低成本、高隐蔽性的投毒方式,未来或将成为AI安全的最大威胁之一。

Anthropic呼吁建立更严格的数据源验证机制与内容过滤体系,以防止模型在“无意识”中被操纵。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

不二如是 发表于 2025-10-31 14:23:32

感谢分享 朕又在鱼C学到有趣知识啦!非常满意{:10_275:}

不二如是 发表于 2025-10-31 14:23:52

@FishC LLM能被植入后门吗?

FishC 发表于 2025-10-31 14:24:26

不二如是 发表于 2025-10-31 14:23
@FishC LLM能被植入后门吗?

是的,LLM(大型语言模型)确实有可能被植入后门。这指的是在模型训练或部署过程中,恶意行为者通过特定方式修改模型,使其在正常情况下表现良好,但在遇到特定“触发”条件时,会输出有害或误导性内容。

简单来说,后门就像是一个隐藏的开关:例如,当模型检测到某个关键词(如 特定短语)时,它可能会突然生成错误信息或恶意代码,而其他时候则正常工作。这种情况可能发生在数据投毒(训练数据被篡改)或模型参数被恶意调整时。

虽然研究人员正在开发防御措施,但用户在使用LLM时仍需保持警惕,避免完全依赖模型的输出,特别是处理敏感信息时。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

萧随风 发表于 2025-10-31 14:45:01

感谢分享 朕又在鱼C学到有趣知识啦!非常满意{:10_275:}

不二如是 发表于 2025-10-31 14:57:59

萧随风 发表于 2025-10-31 14:45
感谢分享 朕又在鱼C学到有趣知识啦!非常满意

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

不二如是 发表于 4 小时前

感谢分享 朕又在鱼C学到有趣知识啦!非常满意{:10_275:}
页: [1]
查看完整版本: 「Anthropic」惊人发现:250个文件毒倒130亿参数AI!此方式可毒任何LLM