Aiying 艾盈一家专注加密资产合规咨询服务机构,本文为团队原创,作者 Tony,转载需授权。
Anthropic 刚刚发布了 Claude Fable 5——首个面向公众的 Mythos 级模型。这家公司同步释放了两个版本:公开版在推理和编程能力上大幅跃升但加装了安全护栏,受限版 Mythos 5 仅向经过审查的网络安全用户开放。对加密行业来说,这不是一个”AI 会发明新型黑客技术”的故事——它是一个”AI 将以机器速度发现每个配置错误、每个暴露密钥、每个签名流程漏洞”的故事。这恰恰是加密合规审计框架尚未准备好应对的问题。
Claude Fable 5 带来了什么新能力?
Mythos 级推理——公开版与受限版的”护栏分发”策略
Anthropic 将 Claude Fable 5 定位为 Mythos 级别的首个公开模型,其推理和编码能力远超之前的 Opus 系列。但 Anthropic 显然清楚这把”双刃剑”的锋利程度——它同时发布了受限版 Mythos 5,仅向经过审查的网络安全和关键基础设施用户开放(Anthropic 官方博客,2026年6月10日)。受限版据称能够发现并串联零日漏洞,将系统缺陷转化为可执行的攻击方案。
公开版的安全策略是”检测+降级”:当系统识别到高风险请求时,会自动将其路由到更弱的 Claude Opus 4.8 模型。Anthropic 称该回退机制触发率低于 5%,且经过专业安全团队和 1000 小时的外部漏洞赏金测试,未发现”通用破解方法”。但 Anthropic 也坦承:“Mythos 级能力的提升对许多对手来说极具价值——例如那些能从网络攻击中获得经济利益的对手——因此我们预料他们会持续尝试绕过安全措施。”
“机器速度”的代码审计:diff 每一个 commit,grep 每一个配置文件
Ledger 首席技术官 Charles Guillemet 对 CoinDesk 的表述直击要害(CoinDesk,2026年6月14日):AI 的颠覆不在于发明新型攻击方式,而在于将攻击的“侦察阶段”加速到机器时间尺度。一个推理模型可以”diff 每个 commit、grep 每个配置、枚举每个错误配置——以机器速度”。
对加密协议而言,这意味着什么?一个 AI 工具可以在几分钟内扫描一个协议所有版本的代码库、对比审计报告、识别变更中引入的漏洞——这些工作过去需要专业审计团队数周甚至数月来完成。当攻击者能以这种速度进行”侦察”,防守方的时间窗口被压缩到几乎为零。
5% 安全回退——护栏是可靠的防御还是安慰剂?
Anthropic 的 5% 回退触发率看起来不错,但 Guillemet 的判断很直接:“当前 AI 护栏增加的是摩擦,而非对坚定对手的可靠控制。”他说,这些护栏”不是针对坚定对手的可靠控制手段”。对于有经济动机的攻击者——加密黑客显然是这类群体——5%的触发率意味着 95% 的请求畅通无阻。而这种”有动机的攻击者”正是加密行业最需要担心的群体。
为什么 DeFi 是 AI 加速攻击的”完美靶场”?
$8.4 亿损失溯源:人类错误远大于智能合约漏洞
2026 年前五个月,DeFi 协议因黑客攻击损失超过 $8.4 亿(DefiLlama 数据)。4 月单月损失超 $6 亿,是 DeFi 历史上最糟糕的一个月。然而,最大的两起事件——Drift Protocol 的 $2.85 亿和 Kelp DAO 的 $2.92 亿——都不是可以被 AI 直接利用的智能合约漏洞。
Drift 被一个朝鲜关联组织经过六个月的社工渗透获取了管理员权限。Kelp DAO 被利用的是单一验证者缺陷。周二,Humanity Protocol 损失 $3000 万——原因是黑客获取了一台员工笔记本上的六个多签密钥中的三个(CoinDesk,2026年6月9日)。
Guillemet 总结得精辟:“这些漏洞根植于社会工程和人类错误。AI 没有创造这一现实,它使其变得可见,并将其加速到机器速度。”
AI 的真正危险:将”侦察阶段”压缩到实时
一个像 Claude Fable 5 这样的模型,不需要直接输出可执行的攻击代码就能改变攻击经济学。它可以读取公开代码仓库、对比软件的旧版本、总结审计报告、起草令人信服的钓鱼消息——所有这些都在几分钟内完成。攻击者不再需要花费数月时间进行研究;AI 为他们做了”功课”,人类只需要执行最后的攻击步骤。
这意味着防守方必须保护每一个密钥路径、每一个依赖项、每一个签名流程、每一个特权账户。因为 AI 使”发现最弱环节”的成本趋近于零。最终签名步骤变得比以往任何时候都更重要——私钥需要存放在受感染笔记本电脑无法触及的地方,用户需要一个可信的屏幕来显示他们实际批准的内容。
硬件信任根:Ledger 的 Clear Signing 方案与行业标准缺口
Ledger 的方案是硬件信任根:私钥在经认证的安全元件上生成并存储,配合可信显示屏和”Clear Signing”清晰签名机制。这听起来像硬件钱包的常规宣传,但 Guillemet 在当前上下文中的论点更具说服力:当 AI 能够以机器速度伪造交易界面、模拟签名请求时,只有硬件级别的隔离——一个物理上独立的可信执行环境——才能确保用户看到的是真实交易数据。
当前行业标准中,硬件信任根尚未成为 VASP 牌照的硬性要求。大多数交易所和协议仍依赖软件层面的多签和冷钱包方案。AI 加速攻击背景下,这种差距正在扩大。
合规框架如何应对”超人类速度”威胁?
审计周期的不对称性:季度审计 vs 机器速度攻击
现有的加密合规审计框架——无论是 SOC 2、ISO 27001 还是针对性的智能合约审计——都以周期性审查为基础。季度审计、年度认证、事件后复盘。但 AI 使攻击者的”侦察-攻击”周期压缩到分钟级甚至秒级。当攻击者能以机器速度扫描每一个配置变更、每一个新部署合约的差异时,年度审计报告在发布当天就可能已经过时。
这对合规的启示是:从”事后合规”转向”实时合规”的需求从未如此紧迫。持续监控、自动化安全扫描、实时威胁检测——这些目前被视为”最佳实践”而非”合规要求”的手段,可能需要进入监管的硬性标准。
硬件信任根能否成为 VASP 牌照的技术标准?
目前全球 VASP 牌照体系——从新加坡 MAS 的 PSA 牌照到欧盟 MiCA 下的 CASP 授权——对安全基础设施的要求主要集中在组织层面:风险管理框架、网络安全政策、客户资产隔离。具体的硬件安全标准通常由行业自律(如 CCSS 加密货币安全标准)而非监管强制。
Guillemet 的观点隐含着一个政策问题:当 AI 使软件层面的防线变得脆弱,监管机构是否需要将硬件信任根纳入 VASP 牌照的最低技术要求?这类似于支付行业 PCI DSS 对硬件安全模块(HSM)的要求——当威胁升级到一定水平,”推荐”变为”强制”。AI 加速攻击可能就是这个触发点。
从”事后响应”到”预防性架构”的监管范式转移
Pendle 协议团队提供了一个有意思的视角:他们自 Claude Opus 初代起就将 Anthropic 模型用于防御性用途——映射代码库、压力测试合约、在部署前发现漏洞(CoinDesk,2026年6月14日)。他们认为智能合约代码行数有限,”优秀审计师一直能在脑中持有合约的完整状态并测试每个边缘情况”——真正的风险不在合约逻辑,而在基础设施和人的环节。
这指向一个监管范式转移:合规不应仅关注代码审计(找漏洞),还应该关注攻击面管理(堵入口)。AI 使”侦察-利用”链条的关键瓶颈从”找到漏洞”转移到”获取访问权限”。因此,合规框架需要强化对访问控制、密钥管理、签名流程和多因素认证的硬性要求——这些”基础安全卫生”在过去可能被视为运维问题而非合规问题。
怎么看?
- AI加速攻击≠新攻击方式:Claude Fable 5不发明新型黑客技术,但将现有的社工、密钥泄露、配置错误等攻击路径的”侦察成本”压缩到趋近于零。$8.4亿损失中,人类错误远大于合约漏洞——AI恰好在人类最脆弱的环节发力。
- 安全护栏≠可靠控制:Anthropic的5%触发率回退机制是摩擦,不是防线。有经济动机的对手——加密黑客是典型——会持续测试护栏边界。合规不能建立在”AI会自我约束”的假设上。
- 审计周期需要实时化:年度/季度审计面对分钟级攻击侦察已经失效。持续监控、自动化安全扫描从”最佳实践”升级为”合规底线”的时间窗口正在缩短。新加坡MAS和欧盟EBA可能需要更新VASP安全指引。
- 硬件信任根:从奢侈品到必需品:当AI能以机器速度模拟交易界面和签名请求时,软件层面的防线(多签、冷钱包)正在失去安全边际。硬件级别的可信执行环境可能成为下一代VASP牌照的技术基准——类似PCI DSS对HSM的强制性要求。
- AI防御是双刃剑的另一面:Pendle等协议正在使用相同模型进行防御性代码审计和压力测试。”以AI防AI”可能成为合规工具箱的新标配——但这意味着监管需要理解并认可AI辅助安全工具的证明力。
一句话总结
Claude Fable 5揭示的真相是:加密行业的安全合规框架是为”人类速度”的攻击设计的,而AI正在将攻击加速到”机器速度”。合规的下一步不是追赶,而是重新定义——从周期性审计转向实时监控,从软件防线转向硬件信任根,从”能不能被黑”转向”被黑后损失多少”。
来源:Shaurya Malwa, “Crypto’s Next Billion-Dollar Hacker May Move at Superhuman Speed,” CoinDesk, 2026年6月14日,原文链接;Anthropic, “Claude Fable 5 & Mythos 5,” 2026年6月10日,官方博客;DefiLlama Hacks Dashboard,数据来源。


