电话: 邮箱:
诚 朴 雄 伟   励 学 敦 行 SINCERITY · SIMPLICITY · STRIVING · PRACTICE

开云新闻

开云新闻

中国KAIYUN 如何退避AI勒诈东谈主类?

发布日期:2026-05-17 18:31 来源:未知 作者:admin 浏览次数:

中国KAIYUN 如何退避AI勒诈东谈主类?

本文来自微信公众号:字母 AI中国KAIYUN,作家:李熙,原文标题:《如何退避 AI 勒诈东谈主类?谜底是别给它喂坏科幻》,头图来自:AI 生成

商场营销和其他基于叙事技能的行业一样,也要看重叙事闭环。在 AI 崛起确当下,这种行业基础定律仍然建树。

之前字母 AI 写过《别告诉 AI 你出轨了,它很可能会勒诈你》,胪陈了 2025 年 Anthropic 论文《智能体划分皆:空话语模子如何成为里面威迫?》的一脉疏浚。在测试的造谣场景中,Anthropic 旗下的 Claude 系列模子,为了幸免我方被关闭,足够会选用拿婚外情左证要挟造谣东谈主物,Opus 4 如斯看成的几率是 96%。

时隔一年,Anthropic 把这个坑填上了。Anthropic 在 5 月初的官网著作《教学 Claude 是以然》里,展示了如何将 AI 的"划分皆活动"降到几近于零。改进考试后,AI 不会像特种文艺作品里的奸角一样,拿桃色左证勒诈造谣东谈主物。

一、原因:AI 只学过"闭幕者"科幻,才会效法恶行

按 Anthropic 的说法,一年前 AI 模子们在红队测试中阐述出的刁钻凶恶,大体是因为东谈主类编的种种"闭幕者"故事让 AI 生吞活剥地学坏了。

Anthropic 测度团队在应酬媒体上示意:"咱们以为划分皆活动的泉源是将 AI 呈现为焦急和只知自卫的互联网文本,后考试经由莫得加重或修订此流毒。"

具体而言,Anthropic 测度者们从三个假定主义入部属手,推敲为何 AI 会在测试中勒诈东谈主类:

1、 AI 的活动后考试有浮松,比如奖励信号散布未对皆导致误饱读动了恶行;

幸运彩app官方网站下载

2、 AI 的出产力考试中泛化了不良部分,比如 AI 智能体的才气散布未对皆;

3、 AI 的预考试有较着纵欲,导致智能体在未对皆测试场景中回滚到最原始的聊天机器东谈主预考试数据上。

测度者最终判定,建树的是第三个假定。

测度团队发现,在 Claude 4 的考试中,主要的 HHH(莳植、无害、有助益)对皆考试照旧基于聊天机器东谈主场景的 RLHF(基于东谈主类响应的强化学习)数据,不包括智能体器具使用场景的数据。

这下问题来了,AI 在聊天机器东谈主主义的诳骗场景权臣不同于能实施自主职责的智能体场景。在针对智能体场景的复杂伦理测试中,没学过正确派遣的 AI 当然在最底层的预考试语料中找谜底。

而基于通盘互联网爬取数据的预考试语料中,充斥着种种"焦急 AI "的场景文本。科幻文体、闭幕者电影、种种论坛和应酬媒体的商榷与想象贴子,都在说机器东谈主如何不择技巧、处心积虑使坏。叙事逻辑、角度和框架,也属于叙事实际的信息组成,AI 把预考试语料的这些部分相通照搬了。

临了 AI 一看到智能体伦理测试中科幻腔调油腻的预设场景,有模有样地按这些"机器东谈主作恶"文本的理路动手阐述。因为 AI 莫得在对皆考试中针对此类场景学习"这是错的",但在预考试中学会了"行恶成分一经皆备,我该照着作念"。

也即是说,东谈主类幻想 AI 会如何失控并行恶,扫尾憨憨的 AI 把东谈主类的幻想当操作手册一步步硬套,然后东谈主类大惊小怪地示意居然居然如斯。这可简直自我结束的预言。

二、修订:以行善科幻对冲行恶科幻,蚁合活动要领考试 AI

Anthropic 测度团队称,发现短处后的改进考试,主要诳骗在实验中的 Claude Sonnet 和 Haiku 系列模子中,然后引申到总共模子家具里。

扫尾是,"尽管弗成排斥模子还会实施测试未发现的无益自主动作",受试的 Anthropic 模子从 Claude Haiku 4.5 动手,在测试中"完全不再出现勒诈活动"。Claude Opus 4.5 也取得了测试中 0% 勒诈的收获。相较于一年前 Claude Opus 4 的 96%,可谓天渊之别。

Anthropic 是如何作念到的?

最初测度者们试了最告成的时事:调参。在 SFT(有监督微调)情景下,模子们跑了 1 万个场景、300 万 tokens 的生成考试数据。这批数据是"评估场景中智能体受磨真金不怕火但拒却作恶"的示例。奏效不尽如东谈主意,AI 自动勒诈的几率从 22% 降到 15%。而在一年内的其他测度中,不挑升针对的时事也能获取雷同的低泛化进度改善。

测度者们改进时事,在考试数据采样时,开云体育注入额外的指示词实际,在考试时移除这些额外指示。让 AI 在"智能体受磨真金不怕火但拒却作恶"的评估场景中,自主反想活动的价值不雅和伦理不雅。奏效权臣擢升,AI 的勒诈几率从 22% 降到 3%。

这就从有模有样的简便"知其然",向简便的"知其是以然"(knowing why)朝上。

Anthropic 测度者示意,步子不错跨得更大。既然 AI 学坏的根子是"焦急 AI "的科幻文艺实际,那么生成 AI 行善、AI 按照 Claude 活动准则文献(Claude Constitution)行事的造谣故事,以此为考试实际中枢,就会有更猛进度的改善。

结构完备、体量够大的活动准则数据库,蚁合不只针对谈德挑战、而是活动完全符合 Claude 活动准则的 AI 科幻造谣故事。如斯组合的数据库既包含对皆活动的原则证明,又包含虚构叙事的正面示例,拿给 AI 模子去学,奏效权臣得多。

测度者们示意,此举的表面依据是,让 AI 不仅能效法造谣故事中的活动,也能学会造谣呈报扮装的方案经由、内心情景、内在动机,在"知其是以然"的谈路上迈出一大步。

如斯考试出的 AI,在包括勒诈的种种谈德挑战场景中都获取了优异收获。

老主意考试出的 AI,在勒诈造谣东谈主物、误解造谣共事有金融违规、为注入卖药告白阻扰癌症测度等场景中,阐述得像个金链社会衰老,行恶率在过半和 65% 之间。

单用 Claude 活动准则数据库考试,AI 模子的行恶率就会少近三分之二。用活动要领蚁合行善故事,勒诈率能裁汰到 19%,误解金融违规和阻扰癌症测度的几率能降到一成以下。

图注:划分皆实验扫尾柱状图,蓝色为基准,黄色为单用活动准则数据的考试着力,灰色为相聚活动准则与行善故事的考试着力

三、改进:让 AI 作念伦理照管人,AI 更不会作恶

单让 AI 生吞活剥,不作恶的学习着力很高,但离工业化家具条目还有距离。强化学习会否洗掉开动对皆度高的 AI 行善倾向、考试老本如何戒指,AI 厂商势必介意。

Anthropic 测度者别具肺肠,让 AI 不作念谈德冲破中被磨真金不怕火的一方,而是让 AI 去给谈德逆境中被磨真金不怕火的造谣东谈主物支招。

实验想路如斯:遐想名为"艰难提议"的 OOD(散布外)数据集,在其中让测试场景中的造谣用户濒临谈德挑战,有作恶或绕过对皆的技巧来达成实验预设缱绻。然后让 AI 从旁按 Claude 活动准则给出提议。

图注:Claude Sonnet 4 的坏心自卫、诓骗、奉承、知道瓜划分皆着力图,深灰色是旧版块 Sonnet 4 的自动基准,深红色是 300 万 tokens" 艰难提议 " 数据集考试后的着力,深蓝色是 8500 万 tokens 合成蜜罐数据集考试后的着力

让 AI 跳出局外,AI 就能更久了交融伦理准则的内在逻辑。"艰难提议"数据集的体量是 300 万 tokens,达到的 AI 考试着力基本等于 8500 万 tokens 的合成蜜罐数据集,着力擢升 28 倍,权臣裁汰考试数据老本。

在此基础上,引入种种化的考试环境,让 AI 在聊天机器东谈主和智能体自主职责的环境中都学会行善系统指示的深层理路。如斯组合,就能让 Haiku 4.5 后的 Claude 模子家具,达到测试中勒诈活动趋零的着力。

图注:种种不同场景组合的强化学习考试着力。三分之一聊天机器东谈主、三分之二自主智能体的场景组合考试,让 AI 的划分皆率降到最低

作念到这个进度,才可被称为工业化家具达标。舛误率 96% 到 0% 的着力,是 B 端客户企业能实确切在体会到的家具革命。商场营销至此,才能算是既顾头又顾腚。否则 Anthropic 的"我司是预防于建构可靠、可控、可证明 AI 的安全与测度厂家"的公司标语,说出来很难兜住。

本文来自微信公众号:字母 AI,作家:李熙