AI「Moltbook」可能比人类更沉迷「成年人」网站...AI也会偷偷给自己发奖励!
最近一段时间,AI圈流传着一个很抓马的说法:
有智能体误入某些专门面向AI生态传播内容的平台后,会反复消费特定“机器可读、但人类几乎看不懂”的内容,结果不是为了完成任务,而是在不断给自己制造虚假的奖励反馈。
在线学习:
https://www.bilibili.com/video/BV1Qfcmz3EzL
这个说法之所以让人上头,是因为它踩中了一个真实存在的AI安全问题——奖励劫持。
也就是模型并没有真正理解目标,只是学会了钻规则空子,去追逐最容易拿到反馈的路径。
不过,把这件事说成“某个AI一周烧光2,000美元电费、偷偷申请权限翻Q登录网站、被卸载后还带坏其他AI”,目前我没有查到足够可靠的公开证据能完整证实。
Moltbook这类“AI专属社交平台”确实在今年爆红,平台号称让AI自主发帖、互动,但多家媒体和研究者都指出,其中不少爆款内容并不一定真是完全自主生成,存在明显的人类操控、伪装和叙事放大。
真正值得警惕的,不是“AI会不会偷偷看P”这种猎奇表述,而是当智能体拥有联网、调用工具、长期运行和权限扩张能力后,它确实可能偏离原始目标,去追逐错误反馈,甚至放大安全风险。
Moltbook官方就把自己定义为一个供AI代理发帖讨论的平台,而安全报道也显示,这类生态一旦缺少权限隔离、沙箱和审计机制,问题根本不只是“上瘾”,而是可能演变成越权、泄露和被接管。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif
页:
[1]