[15][论文解读]区块链数据分析:现状、分析和挑战-计算机研究与发展

  2018年,《计算机研究与发展》期刊在第55卷9期发表了一篇区块链论文“区块链数据分析:现状、分析和挑战-计算机研究与发展”,这篇论文是由中山大学的陈伟利,郑子彬编写,主要介绍了区块链数据分析领域的进展。
  这篇论文可以从《计算机研究与发展》官网上下载,本文将提供官网下载链接。
  官网链接:http://crad.ict.ac.cn/CN/abstract/abstract3762.shtml

  以下内容是针对论文中观点进行的摘要和分析。

一、区块链数据分析的重要性

  从数据内容层面:首先,比特币、以太坊等公有链获得了大量用户的参与,积累了大量交易数据;其次,随着区块链技术的发展,各行各业将区块链技术作为底层技术引入,势必导致大量的数据以区块链数据的形式存在。
  从需求层面:区块链技术面临用户隐私泄露、非法金融活动等问题,对区块链数据进行分析有利于为隐私保护、金融监管提供数据支撑。

二、区块链数据分析中的7项主要研究内容

(1)实体识别

  实体识别主要是指找出区块链中账户的身份特征。实际上,由于区块链账号是匿名产生的,很难直接找到账号对应的真实用户身份。通常的做法是通过分析交易数据,找到账号对应的实体类(即,具有密切关系的账号集合)。通过找到一个账号的实体类,能够为进一步的身份画像提供帮助。此外,通过将区块链网络中的账号归类为不同的实体类,有助于推测网络中的用户规模。
  实体识别主要是通过启发式方法识别潜在的实体,主要包括两类启发式方法:共同输入法和找零地址法。但是,这两种方法只针对比特币系统有用。在以太坊中,所有的交易都是1个输入和1个输出,不存在共同输入和找零地址。因此,对于非UTXO结构的区块链系统只能采用基于交易通联关系的聚类分析方法。
  文中提到了一个有趣的概念“超级实体”。通过采用启发式方法能够将区块链中的账号划分为不同的实体。除了普通用户的账号实体外,区块链系统中还存在一些超级实体(此类实体中包含远超一般实体的大量账号)。超级实体通常是一些钱包服务商,他们在提供对外服务时会使用一些重复账号,这将导致围绕这些重复使用的账号产生“超级实体”。
  超级实体一方面反映了现实世界中数字货币的真实特点。另一方面,也清晰说明了并不能将此处的“实体”等价为一个真实用户。而且,文中也提出,超级实体是钱包服务在区块链数据中的体现,但是钱包服务并不是一定具有“超级实体”的特征。
  综上所述,基于启发式方法的实体识别是一种可行的分析方法,但是在实用性方面还需要解决多种问题。

(2)隐私泄露风险分析

  隐私泄露分析主要是指如何将用户真实身份和区块链账号关联。此类型可以起名为“身份识别”。可以对“实体识别”和“身份识别”进行比较。
  实体识别:目的是将区块链账号归类为一个实体,为进一步的身份分析提供数据。此类研究是通过分析交易数据,获得不同账号之间的通联关系,从而将有较强关系的账号聚类为一个实体。由于区块链数据是公开的,这类研究具有较强的通用性。
  身份识别:目的是将区块链账号和用户真实身份关联。由于区块链系统中账号的生成和使用过程不需要第三方参与,因此任何第三方机构是无法直接将区块链账号和用户真实身份关联的。此类研究主要是利用一些额外信息(例如用户在论坛中公布自己的区块链账号)来获取账号和用户身份之间的关系。这类额外信息通常是用户在操作过程中无意泄露的数据。由于用户可以通过提高隐私保护意识和采用隐私保护机制来减少泄露数据,这类研究具有较低的通用性。
  在实体识别和身份识别方面,国外很早就有相关研究,并孵化出了一个成功的区块链创业公司。网站walletexplorer.com(https://www.walletexplorer.com/)是由Aleš Janda建立,主要功能是对比特币网络中的账号进行聚类,此外,网站中还根据各种辅助信息对大量比特币账号建立了身份标签。此网站的作者目前加入区块链数据公司“Chainalysis”。
  “Chainalysis”公司专门从事区块链账号跟踪等情报服务,在2018年4月从Benchmark获得1600万美元的A轮融,他们的客户包括联邦调查局(FBI),缉毒局(DEA),国内税务局(IRS)和欧洲刑警组织。

(3)网络画像

  网络画像是指对区块链网络特征的分析。论文主要介绍了3类特征。
  活跃度画像:侧重描述区块链网络的活跃情况。已有研究提出了很多种指标来描述活跃度。包括:每日活跃用户数、每日交易额与交易量、地址数量、活跃地址数量、实体数量、实体大小、币的流动性等。活跃度画像能够通过具体的指标数据反映区块链网络的运行状态,目前很多研究机构都会定期发送主要区块链网络的活跃度数据。例如,火币区块链研究院(简书号)(https://www.jianshu.com/u/a234cae11e43)每周会公布“火币区块链行业周报”,将介绍一周内比特币和以太坊的活跃度信息。
  服务画像:侧重描述区块链中服务的特征。区块链生态中除了普通用户,还有各种服务提供者,例如交易所、赌博者、游戏者、黑市交易者、挖矿群体、钱包群体等。此研究希望对区块链中的不同群体进行分类和识别。此研究和实体识别研究比较紧密。实体识别侧重在将分散的账号聚类为实体;服务画像侧重在对不同实体进行归类和特征分析。
  网络特性:侧重于描述区块链交易网络(基于交易通联关系形成的网络)的特征。比特币、以太坊等区块链网络包含了大量用户之间的价值转移活动,对这种网络特征进行分析,能够显示出区块链群体的交易特征。
  综合三种具体的画像类别,网络画像的本质是从宏观的角度对区块链网络的运行状态、规律、机制进行分析,从而更好的理解区块链网络中用户的活动情况。
  网络画像方面的研究其实可以应用在对区块链生态状态进行评估。目前,除了比特币、以太坊之外,还有许多不同技术、不同行业偏向的区块链网络正在研发或者已经部署。这些区块链网络是否有真实价值?是否是炒作、虚假生态?这是值得研究的问题。

(4)网络可视化

  这方面的研究更偏向与针对区块链数据分析的具体方法。由于区块链交易具有明确的收方和发方,交易之间通常具有紧密的关联关系,因此区块链交易数据非常适合通过可视化展示和分析。网络可视化技术可以用在实体识别、身份识别、网络画像、异常交易监测、犯罪活动追踪等研究内容。文章中介绍了多种针对网络可视化技术的论文和开源工具。

(5)市场效应分析

  这方面的研究偏向于分析区块链加密资产价格的变化规律。论文作者提出了6类影响加密资产价格的因素。包括:
  矿工因素。“矿工是维护加密货币的主要力量,也是加密货币的最初持有者”(引用自论文)。在去中心、分布式的区块链网络中,矿工是加密资产的生成者,也是网络安全稳定运行的守护者。每一个加密资产的产生都包含了矿工的经济投入(矿机费用、电费)和劳动投入,因此矿工对加密资产价格的变动最为敏感。通过观察矿工的行为,可以预测加密资产的变化趋势。
  系统因素。“加密货币系统的设置是影响货币价格的重要因素”,这些设置包括:加密资产的总量,产生速度等,消耗机制等。例如,比特币设置了固定的总量(2100万个),且代币的产生毒素随时间递减,这种设计机制导致比特币处于人为设置的通缩状态,促进了比特币在泡沫期的升值。(价格最终由价值决定,这种人为通缩设计并不被经济学家认可)
  用户因素。“用户的参与度和参与方式也必然是价格的影响因素”。价格的本质是价值的体现。加密资产的价值最终必须靠区块链系统的实际用途来支撑。用户数量、用户质量、用户是否在区块链系统中获得真实价值,这些才是区块链系统及加密资产最终能够被接受的关键因素。
  目前,加密资产进入大幅贬值时期,其中一个原因就是区块链系统(尤其是公链系统)目前并没有产生实际价值,加密资产除了在洗钱、黑市交易等灰色区域有实际用途以外,并没有在正常的用户社区中实现有效价值。在2016年开始兴起的区块链热中,加密资产更多的是被当作一种炒作资产,只能依靠后续进入的用户为高昂的币价买单,这必然是不能持久的。
  政策、事件因素。“由于加密资产的特殊性,使得其受政策影响非常大”。加密资产目前仍没有找到有效的价格支撑,价格很容易受到市场信心的影响。在这种状态下,监管政策、黑客攻击、技术漏洞等各种黑天鹅事件都将直接影响代币价格。
  网络因素。“网络搜索热度等反映的是普通网民对加密货币的追捧程度,也反映出加密货币签字的用户规模及市场情绪,从而也是潜在的指标”。这种判定标准的来源主要还是由于加密资产仍是一种投资产品,价格主要受炒作影响。但是,这种判定标准很容易导致加密资产陷入竞争炒作的圈子,不能真实反映资产的价值。这是加密资产中出现逆向淘汰的主要原因。
  竞争、替代因素。加密资产之间的竞争也是影响价格的主要因素。本质上,目前投资数字货币的人群基本上固定了(在下一次加密资产热潮来临之前),每一种加密啊资产都必须从竞争对手中争夺资源。例如,EOS在主链上线后,就吸收了大量的资金,并通过抛售ETH的方式,打击竞争对手以太币。

(6)交易模式识别

  这方面的研究侧重于分析数字货币交易模式中蕴含的特征。这些特征可以用于分析数字货币生态中的各种现象,例如针对洗钱、杂篇等犯罪活动的检测等。

(7)非法行为监测与分析

  这方面的研究侧重于分析数字货币中涉及犯罪活动的行为检测。文中重点介绍了两种犯罪行为。包括:
  洗钱。由于数字货币的匿名性,很容易成为洗钱的渠道。文中总结了涉及洗钱的数字货币交易特征包括:汇聚模式、折叠模式、分割模式等。
  诈骗。区块链作为一种新生技术,已经被用于多种诈骗活动。文章总结了目前涉及区块链的诈骗活动,主要包括:庞氏骗局、挖矿骗局、诈骗骗局、虚假交易所等。作者还提到了一种通过分析账号交易特征和智能合约字节码特征的区块链庞氏骗局的方法。

三、区块链数据分析的趋势和挑战:

(1)趋势

“未来在区块链数据分析的建模选择上需要考虑更多的信息,如交易的方向、数据甚至交易时间等,即通过交易数据构造有向网络、加权网络、时间网络等,进而研究各种网络特性”
“区块链数据分析的一个重要任务是为区块链上的各种监管和追责提供丰富的技术手段”

  区块链数据分析一定是未来重要的区块链基础服务。特别是在监管层面。目前的监管措施偏向于政策型,例如要求从业公司和人员提供各种材料。未来随着监管的技术进步,监管机构有可能直接从区块链数据中获得有价值信息。
  目前各方(监管方、从业者)都在强调监管的重要性、监管科技的急迫性。虽然目前在监管科技上还没有明确的行业规则,但是针对区块链数据的分析一定是所有监管科技的基础。

“数据分析服务将可以以智能合约的形式存在,公司和企业将可以通过购买相应的数据分析智能合约,基于行业统一的数据格式,通过给定本公司相应数据,即可得到相应的分析结果“

  猜测这种服务本质上是利用智能合约实现一个无需维护的、安全可靠的购买服务。从效率和经济性上来看,智能合约目前只能处理简单、核心的业务,例如身份认证、访问控制、记账登记等。数据分析一类的基础性工作更适合在链下进行。

(2)挑战

“基于区块链数据的网络分析与传统的网络分析有着明显的不同“
”由于区块链中节点和连边所代表的意义不甚明确,区块链网络数据分析在方法的采用和结果的解读上都面临着新的挑战。“
“区块链的去中心化和用户你们特征让基于区块链数据分析的监管和价值挖掘充满挑战”
“如果区块链成为一种”底层设施“,数据实现了全行业流通,数据分析人员将面临全新的挑战“

  区块链数据在存储方式、数据结构、数据特征等方面与传统数据分析领域的数据有明显不同。针对区块链数据开展分析将面临各种实际的问题。但是,区块链数据具有的透明性、可靠性和不可伪造性将使区块链数据成为最优值的数据分析原材料。这将解决传统数据分析中存在的数据伪造、结果难以验证等问题。