币界网报道:

本系列介绍了钱包或地址聚类背后的基本思想、地址重用的简单情况以及基于通用输入所有权启发式(CIOH)的聚类合并(也称为多输入启发式)。

今天,我们将深入探讨更复杂的聚类方法,并简要总结几篇值得关注的论文。本文内容与本系列的姊妹篇《聚类分析:聚类分析》大部分内容相同。需要注意的是,本文引用的文献列表并非详尽无遗。

早期观察性研究 – 2011-2013

据我所知,最早发表的关于聚类的学术研究是Fergal Reid和Martin Harrigan的论文()。该论文更广泛地研究了比特币的匿名性,并在讨论链上交易图时引入了“用户网络”的概念,基于CIOH来建模单个用户货币的关联性。作者利用该模型批判性地审视了维基解密关于其“……”(此处似有缺失)的说法。

另一项未以论文形式发表的研究是由 Kay Hamacher 和 Stefan Katzenbeisser 在 28c3 上发表的()。他们利用交易图数据研究了资金流动,并对比特币做出了一些极具预见性的观察。

在()中,Dorit Ron 和 Adi Shamir 分析了整个交易图的快照。除其他外,他们还注意到一个奇怪的模式,这可能是颠覆 CIOH 的早期尝试:

我们发现,几乎所有这些大额交易都是 2010 年 11 月 8 日发生的一笔涉及 90,000 比特币的大额交易的后代,这些交易的子图包含许多看起来很奇怪的链和分叉合并结构,其中大额余额要么在几个小时内通过数百个临时中间账户转移,要么分成许多小额金额,发送到不同的账户,然后不久后在新账户中重新组合成基本相同的金额。

另一个早期混淆此模式的因素是 MtGox。许多用户的密钥被用作 MtGox 为处理这种不寻常的存款模式而构建的批量清算交易的输入。对这些交易的简单 CIOH 应用导致了集群崩溃,特别是之前在 walletexplorer.com 上称为 CoinJoinMess 的集群。Ron 和 Shamir 似乎也注意到了这一点:

然而,这些统计数据存在巨大差异,事实上,一个实体关联着 156,722 个不同的地址。通过分析其中一些地址并追踪其交易,很容易确定该实体就是 Mt.Gox。

虽然提到了找零识别(Ron 和 Shamir 将其称为“内部”转账),但首次形式化的尝试似乎是在 Elli Androulaki、Ghassan O. Karame、Marc Roeschlin、Tobias Scherer 和 Srdjan Capkun 的 () 中。他们使用了“影子地址”一词,如今更常被称为“找零输出”。这指的是自支出输出,通常每笔交易一个,由与包含交易的输入相同的实体控制。该论文引入了一种启发式方法来识别此类输出,并将它们与输入聚类。后续工作对这个想法进行了广泛的迭代,并提出了几种变体。一个基于 2 笔输出交易金额的示例是,如果一个输出的值以美元计价时接近整数(基于历史汇率),则该输出很可能是一笔付款,表明另一笔产出就是找零。

在比特币隐私研究的早期阶段,钱包聚类理论已成为比特币隐私研究的基础工具。虽然这并非完全基于理论,但证据支持有限,因此需要相对严格的假设来解释可观察到的数据。

实证结果 – 2013-2017

尽管研究人员试图验证这些论文的结论,例如通过采访比特币用户并要求他们确认其钱包聚类的准确性或使用 Androulaki 等人的研究成果中的模拟,但关于用户所使用的对策的信息却很少。

(PDF: , )由 Sarah Meiklejohn、Marjori Pomarole、Grant Jordan、Kirill Levchenko、Damon McCoy、Geoffrey M. Voelker 和 Stefan Savage 撰写,他们研究了比特币混合器的使用情况,并通过将此类服务与真实比特币进行实际操作,对启发式方法进行了测试。在理论层面,他们定义了一种比以往研究更通用、更准确的找零识别启发式方法。

Jonas Nick 在其论文中,利用 BIP 37 布隆过滤器(主要用于使用 bitcoinj 构建的轻客户端)实现中一个隐私漏洞获取的信息,验证了 CIOH 和更改识别启发式算法。Arthur Gervais、Srdjan Capkun、Ghassan O. Karame 和 Damian Gruber 在 () 中描述了底层隐私泄露问题。此次泄露事件表明,聚类启发式算法相当有效,Martin Harrigan 和 Christoph Fretter 在其论文 () 中详细阐述了这一发现。

攻击者还观察到,他们发送比特币并非通过像比特币文件那样的混合器,而是将少量资金发送到已在链上出现的地址。这种行为被称为粉尘攻击,可以通过两种方式使受害者失去匿名性。首先,接收方钱包可能会花费这些资金,从而导致地址重用。其次,旧版本的比特币核心会重新广播收到的交易,因此,如果攻击者同时连接到 p2p 网络上的多个节点,就可以观察到是否有任何节点正在将其粉尘交易及其 IP 地址重新广播到集群。

尽管 Matteo Loporchio、Anna Bernasconi、Damiano Di Francesco Maesa 和 Laura Ricci 在 2023 年提出的 () 提出了一些见解,探讨了粉尘攻击,但他们分析的数据集仅延伸到 2017 年。这项研究研究了此类攻击在揭示集群方面的有效性:

这意味着,尽管粉尘攻击交易仅占所有粉尘攻击交易的 4.86%,但却能将 66.43% 的粉尘攻击聚集地址聚类。从整个数据集来看,疑似粉尘攻击的交易仅占所有交易的 0.008%,但却能将 0.14% 的原本可能被隔离的地址聚类。

这一时期的研究以对钱包聚类理论的更批判性审视为标志。越来越明显的是,在某些情况下,用户的行为可以被轻松可靠地观察到,而且隐私保障远非完美,这不仅在理论上,而且基于越来越多的科学证据。

钱包指纹识别 – 2021-2024

钱包指纹是交易数据中可识别的模式,可能指示用户使用特定的钱包软件。近年来,研究人员已将钱包指纹识别技术应用于钱包聚类。单个钱包聚类通常使用同一款软件创建,因此任何可观察到的指纹在聚类中都应该相当一致。

举一个钱包指纹识别的简单例子,每笔交易都有一个 nLockTime 字段,可用于设置交易的回溯时间。这可以通过指定高度或时间来实现。当不需要设置回溯时间时,可以使用任何表示过去时间点的值,通常为 0,但此类交易在签名时尚未设置回溯时间。为了避免泄露预期行为并解决这一问题,一些钱包会随机指定一个较新的 nLockTime 值。然而,由于一些钱包始终将 nLockTime 指定为 0,因此当无法明确交易的哪些输出是付款、哪些是找零时,后续交易可能会泄露这些信息。例如,假设与输入币关联的所有交易都将 nLockTime 指定为 0,但其中一个输出的支出交易未指定,在这种情况下,可以合理地推断该输出是向其他用户的付款。

还有许多其他已知指纹。Ishaana Misra 撰写的记录十分全面。

Malte Möser 和 Arvind Narayanan () 将指纹识别技术应用于聚类问题。他们以此为基础,对变更识别方法进行了改进。他们利用指纹识别技术,使用机器学习技术(随机森林)来训练和评估改进后的变更识别方法。

不久之后,George Kappos、Haaroon Yousaf、Rainer Stütz、Sofia Rollet、Bernhard Haslhofer 和 Sarah Meiklejohn 在 () 中扩展并验证了该方法,他们使用一家链分析公司提供的交易样本的聚类数据,表明钱包指纹识别方法比仅使用 CIOH 和更简单的找零识别启发式方法准确率高得多。在聚类时考虑指纹可以使去匿名化变得更加容易。同样,在钱包软件中考虑指纹识别可以提高隐私性。

王凯、程亚坤、童文、牛正浩、庞俊和韩伟力最近发表了一篇论文(),分析了交易在确认前广播的模式。例如,无论是通过 还是使用 ,都可以观察到不同的费用上涨行为。这些模式虽然并非严格意义上的交易数据指纹,但仍可视为钱包指纹,但与某些钱包软件相关的更短暂的模式有关,这些模式在连接到比特币 P2P 网络时可见,但在区块链中记录的已确认交易历史记录中却不明显。

与比特币 P2P 层类似,闪电网络的八卦层会共享已公开宣布的通道信息。这通常不被视为钱包指纹,但可以大致视为钱包指纹,与闪电交易的链上指纹相辅相成。闪电通道是 UTXO,它们构成连接闪电节点的图的边,这些节点由其公钥标识。由于一个节点可能与多个通道关联,而通道本身就是代币,因此这在某种程度上类似于地址重用。Christian Decker 已公开存档历史图数据。Matteo Romiti、Friedhelm Victor、Pedro Moreno-Sanchez、Peter Sebastian Nordholt、Bernhard Haslhofer 和 Matteo Maffei 共同撰写了一项研究,探讨了此背景下的聚类问题。

在过去的十五年里,聚类技术得到了显著的改进。然而,遗憾的是,比特币隐私技术的广泛应用仍远未实现。即使实现了,该软件在攻击研究方面也尚未赶上最先进的水平。

并非全部

正如我们所见,从地址重用和中本聪描述的CIOH的雏形开始,钱包集群一直是比特币隐私的基础理念,多年来经历了诸多发展。大量学术文献对比特币隐私的一些过于乐观的描述提出了质疑,例如2011年维基解密将捐赠描述为匿名。此外,还有许多进一步研究和发展隐私保护措施的机会。

需要牢记的是,聚类技术只会随着时间的推移而不断改进。“记住:攻击只会越来越厉害,永远不会越来越糟。” 鉴于区块链的本质,交易图中的模式将或多或少地永久保存,供任何人查阅。使用 Electrum 协议的轻钱包会将地址集群泄露到其 Electrum 服务器。提交给服务的轻钱包会在一次查询中泄露所有过去和未来交易的聚类信息。鉴于区块链分析行业的本质,专有技术具有显著优势,可能受益于获取标记大量交易子集的 KYC 信息。这类信息以及其他类型的区块链外部聚类信息尤其难以解释,因为尽管这些信息与第三方共享,但并不公开,这与基于链上数据的聚类不同。因此,这些泄漏不那么容易被发现。

另外,请记住,个人隐私的控制权并非完全掌握在个人手中。当一个用户的隐私丢失时,所有其他用户的隐私都会随之降低。通过消除过程(隐私衰减呈线性递增),每个成功去匿名化的用户在尝试去匿名化剩余用户的交易时,都可能被排除在外。换句话说,即使你采取了预防措施来保护自己的隐私,如果其他人不采取预防措施,你也无法融入到人群中。

然而,正如我们将看到的,假设隐私呈线性衰减通常过于乐观;指数衰减是一个更安全的假设。这是因为分而治之的策略也适用于钱包集群,就像在20个问题游戏中一样。CoinJoins交易旨在混淆CIOH,下一篇文章的主题将是一篇将钱包集群与交叉攻击(一个借鉴自混合网络隐私文献的概念)相结合的论文,以实现CoinJoins的去匿名化。

不要与 LaurentMT 和 Antoine Le Calvez 考虑聚类因素而进行分析的另一种类型的粉尘攻击相混淆。

一个值得注意的、有点相关的研究(由 Florian Tramer、Dan Boneh 和 Kenny Paterson 完成)能够通过利用 P2P 层上的定时侧通道将节点 IP 地址链接到查看密钥。

更准确地说:指纹分布应该在集群内保持一致,因为有些钱包故意随机化交易的某些属性。

请注意,为了强制执行 nLockTime,交易中至少一个输入的 nSequence 值也必须是非最终的,这使得事后追溯和由此产生的不同可观察模式变得复杂。

通道资金由通道双方共享,但最终交易类似于来自通道出资方的付款。双资金通道可能会像交易一样,混淆CIOH。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部