虚拟货币为什么要升级数据
互联网金融犯罪案件中大数据证据的审查运用
庄伟 陈禹橦 张杨杨
作者简介:庄伟,北京市检察院第一分院党组成员、副检察长;
陈禹橦,北京市检察院第一分院第三检察部副主任;
张杨杨,北京市人民检察院第一分院三级检察官助理。
来源:原文发表于《人民检察》2022年第20期
摘 要:新型互联网金融犯罪案件中,传统侦查技术已经无法应对海量资金数据洪流,大数据侦查技术因势而生。此类案件以大数据技术为核心开展侦查取证,尤其是回溯、分析海量资金数据,穿透识别资金来源与流向,将成为该类案件办理的“杀手锏”。与此同时,大数据侦查也给大数据证据的审查运用带来新的挑战。司法机关有必要从实践出发,将大数据技术特征和证据法理论相融合,构建互联网金融犯罪案件大数据证据的审查运用规则。在证据归属上,未来有必要将大数据证据单列为独立证据种类,在此之前,将大数据证据作为侦查实验笔录更为适宜。应当在提升数据清洗精准度、建立健全数据清洗相关制度机制的基础上,参照“白箱分析法”、“黑箱分析法”对大数据分析技术、算法模型的有效性进行验证;大数据证据必须符合证据“关联性”,要注意避免混淆大数据“相关性”与证据“关联性”;现阶段,可以采取印证证明、抽样证明等方法验证大数据结论真实可靠性。
关键词:大数据证据 侦查实验算法模型 因果关系 验证方式
金融创新大大激活金融业发展活力的同时,犯罪活动也向金融领域滋生蔓延,引发了新的金融犯罪乱象。近年来,我国互联网金融犯罪案件呈现出集中爆发的态势。目前,以P2P为代表的互联网金融型非法集资已经进入尾声,后P2P时代,私募基金、虚拟货币、证券期货、线下理财、支付结算等领域,正在或者可能成为新型金融犯罪的重灾区,司法领域正面临着前所未有的风险挑战。相较于传统犯罪而言,随着犯罪手段的迭代更新,新型互联网金融犯罪案件发生了翻天覆地的变化,呈现出新特点、新样态:涉案金额动辄数百亿,涉案账户既包括数以万计、遍布全国的银行账户,还包括第三方、第四方支付平台、虚拟货币交易账户等。涉案资金数据体量大、范围广、流向复杂,疑难复杂程度远超传统案件。以笔者参与办理的e租宝非法集资案为例,仅涉案资金数据的来源主体就涉及 4000 多家银行、200余家第三方支付公司,汇集了1万余个银行账户的上亿条资金交易流水。
互联网金融犯罪案件中,非法经济利益追求一直是犯罪分子的犯罪动机和目的之一。资金数据作为关键犯罪证据,对于案件主体范围、主观故意、行为模式、犯罪数额等的认定至关重要。面对资金数据呈现出的“海量性”“非结构化”“弱关联性”等特点和复杂升级的犯罪手段,通过运用数据化、信息化、可视化的资金查控技术,穿透资金走向,刻画资金脉络,逐渐成为办理新型金融案件的“杀手锏”。对违法资金的分析与查控技术已经被公安部列为继刑事技术、技侦、网侦、图侦之后的第五大侦查技术手段,[2]成为打击犯罪的“利器”。互联网金融犯罪案件中,如何全面有效地审查运用通过违法资金分析与查控技术形成的大数据证据,适应大数据时代背景下审查模式的转型升级,已成为困扰办案人员的一大难题。
一、互联网金融犯罪案件中大数据证据的概念和运用
(一)互联网金融犯罪案件中大数据证据概念的厘定
要界定互联网金融犯罪案件中的大数据证据,首先要界定互联网金融犯罪案件。互联网金融的本质仍然是金融,是传统金融的补充形式。中国人民银行在《中国金融稳定报告(2014年)》中将互联网金融定义为“互联网与金融的结合,是借助互利网和移动通信技术实现资金融通、支付和信息中介功能的新兴金融模式”。[3]因此,本文探讨的互联网金融犯罪案件,主要指的是在互联网金融领域发生的犯罪,例如《刑法》第三章破坏社会主义市场经济秩序罪中第四节破坏金融管理秩序罪、第五节金融诈骗罪等。
其次,要界定大数据证据。明确大数据证据的概念,是分析其证据形式的前提条件,也是进一步审查运用的重要基础。作为一项新型证据材料,关于大数据证据的定义,理论界和实务界一直存在较大争议,有观点将大数据证据界定为通过大数据侦查取得的证据,而大数据侦查是指“通过计算机技术对存储于网络与计算机系统中的海量数据进行收集、共享、清洗、比对和挖掘,从而发现犯罪线索、证据信息或者犯罪嫌疑人的侦查措施与方法。”[4]也有观点将大数据证据直接界定为基于海量电子数据形成的分析结果或报告,[5]还有观点认为大数据证据是一种复合型证据,是运用大数据技术、方法、思维等方式方法用以证明案件事实所得出的一切材料,是集物证、书证、鉴定意见等证据种类于一身的综合体。[6]此外,还有探讨大数据证据的论文中未界定“静态概念”,而是直接讨论“以大数据素材为证明依据的相关证据的具体运用问题”。[7]
本文认为,现阶段,大数据证据并非我国法定证据种类之一,更类似于在侦查领域得到有效运用的“实践总结”;大数据证据作为新兴技术的产物,随着技术迭代升级其内涵外延也会不断发展变化,因此,不宜将大数据证据的内涵外延“封闭”起来,而是将其界定为包括海量数据、大数据分析技术和大数据分析结果三部分的“综合体”。
第一,大数据证据应当是海量数据的集合,海量数据构成了大数据分析的基础。虽然普遍认为数据 “大”,只能体现数据的原始价值,与普通的“电子数据”无异,[8]但如果数据体量不大时,运用传统的数据提取、处理技术即可,正如“大数据”这一概念最初就是指“需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们需要改进处理数据的工具……更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的层次结构和一致性的技术也出现了。”[9]当数据体量没有从“量变引起质变”,也就无须使用数据挖掘、分析方法,遑论大数据证据。
第二,只有通过大数据分析技术,才能发现海量数据背后潜藏的价值规律。大数据分析技术,是指利用数据碰撞[10]、数据挖掘[11]、模型算法等方法,对海量数据进行分析处理的技术手段。大数据分析技术并非简单的数据统计,而是通过“有效挖掘”洞察大数据的内生价值。之所以如此界定,主要是考虑到,如果仅使用简单的数据统计技术即可得到分析结论,那么大数据证据与电子数据就没有区分的必要。例如,非法集资案件中从涉案P2P平台中提取的电子数据是否属于大数据证据?该部分数据一般存储于犯罪嫌疑人租用的服务器中,以数据库文件的形式存在,内容包含了投资人姓名、投资项目、投资金额等数据。如果仅从数据体量方面考虑,数据体量确实满足“大”的特征,提取过程也会运用一定的技术方法。但是,这种提取方法,在本质上仅是对数据库文件进行简单查询、统计,就好比在一个EXCEL文件中查找某些具体数据,不涉及复杂技术的运用,没有超出电子数据范畴,仍然可以运用电子数据的审查规则进行判断,因此,不需要将其界定为大数据证据。
第三,大数据分析结果对认定案件事实起到证明作用,是大数据证据的精髓所在。大数据运用能否输出有效的证明结论主要取决于(主要以“算法” 形式表达的)计算模型的有效构建,简称“大数据建模”,以大数据建模为核心的计量方法能够将具有因果关系的数据从相关关系的大数据中“挖掘”出来。其技术关键在于因果性数据的识别判断,即:在输入大数据后,系统根据大数据模型的算法处理,输出具有某种实用价值的分析结论,因此,大数据的分析结论一般是一个具有增值价值的“小” 结论。[12]涉互联网金融犯罪案件中,如“股权穿透报告”“资金分析(穿透)报告”“非法传销层级报告”等大数据分析结果,就是例证。
(二)互联网金融犯罪案件中大数据证据的司法运用
对于大数据证据的运用,学界一般区分为把大数据全样本原始载体或等量复制数据直接作为证据使用的直接运用模式和把大数据分析筛出所得的分析结论作为证据使用的间接运用模式或转化运用模式,[13]或者基于海量数据的数据库比对和基于算法模型的大数据分析的基本类型。[14]有观点认为,区分直接运用(数据库比对)与间接运用(大数据分析)的标准在于该大数据证据的信息是否经过了技术处理。[15]
本文认为,“技术处理”或者说大数据分析技术,是“大数据”→“小结论”的关键环节,也是大数据证据与既有电子数据等传统证据类型的差别所在,更是司法实践中的审查适用的难点焦点。因此,本文所探讨的大数据审查运用,主要是指通过大数据分析技术(如大数据模型)计算分析的结果,能否作为证据使用,以及如何对其进行有效的审查运用。
在民事、行政领域中,以“资金穿透”“大数据证据”“大数据”等关键词,通过“裁判文书网”“北大法宝”等司法案例库检索相关案例,已有部分案件将大数据证据作为定案或处罚的依据。例如,许某泉、杭州阿里妈妈软件服务有限公司网络服务合同纠纷一案[16]中,许某泉在阿里妈妈公司运营的“阿里妈妈”网站注册账户,并按照平台要求对相关产品进行淘客推广,该平台根据许某泉推广情况结算佣金。阿里妈妈公司使用大数据算法对推广行为进行监测,后发现许某泉的推广行为异常,属于无效引流,故将许某泉账户冻结。本案的争议焦点在于该平台的大数据监测算法是否有效,阿里妈妈公司提供的大数据分析报告是否真实可靠。为了证明该监测方法的有效性,审判机关委托鉴定机构对大数据算法、逻辑演算过程进行了鉴定,传唤鉴定人员、技术开发人员当庭作证,并邀请专家辅助人陈述专业意见,最终认定该大数据证据具有真实性。再如,许某发诉淘宝(中国)软件有限公司等网络服务合同纠纷一案[17]中,淘宝公司向法庭提供了反作弊大数据系统自动抓取的数据,以证明用户的违规操作行为;其还委托鉴定机构对该大数据系统进行了鉴定,以证明该系统检测方法的科学性和合理性。最终,法庭采信了前述两组证据。
但是在刑事领域,尤其是互联网金融犯罪案件领域,此类大数据证据的间接运用形式还不多见。囿于证据形式、证据效力等方面的限制,多数大数据证据还只是作为研判犯罪线索的侦查手段使用,而没有形成司法审查判断和运用规则。
例如,在一起利用黄金交易虚开增值税专用发票案中,侦查人员调取了涉案主体上亿条资金数据、上万个账户后,根据资金特征分析模型,利用统计概率、挖掘分类算法等技术,在较短时间内完成对可疑资金的网络刻画,利用关系可视化技术清晰展现可疑资金的来源和去向,经自动标注账号和主体类别标签后,得到结果报告。[18]再如,涉众型非法集资案件中,面对账户数量多、涉及公司实体极多、“倒账频繁”、多层分别流转汇集等办案难点,侦查机关利用数据碰撞分析,通过资金分析研判系统和在案其他证据对资金往来进行“可视化”分析画像,精准划定资金池的规模、研判资金来源及去向,形成《资金分析报告》。
上述报告均是在对海量、复杂的资金电子数据进行建模的基础上,通过挖掘算法得到的结果。这类本文所讨论的“大数据证据”在刑事案件中能否作为证据使用、算法模型是否可信、如何审查运用等问题,在理论和实务界均引发热议。
二、互联网金融犯罪案件中大数据证据审查运用中存在的问题
近年来,随着大数据侦查的不断推行与发展,作为其最终“司法产品”的大数据证据成为了实务与理论的研究重点,例如浙江省“智慧浙江公安”、湖北省的“智慧警务”等大数据侦查系统发展迅猛。[19]现代经济犯罪侦查可能涉及大量人员数据、轨迹数据、物流数据、资金交易数据、第三方支付数据、通信数据等,传统侦查技术已经无法应对这些数据洪流,[20]大数据侦查尤其是回溯、分析海量资金数据,成为办理此类案件的“命门”。然而,大数据侦查引发传统侦查模式转型的同时,也给大数据证据的审查运用带来新的挑战。大数据证据的证据归属?大数据分析技术、分析结果是否符合证据条件?如何进行证据法意义上的解读?存在诸多疑难争议。
(一)互联网金融犯罪案件中大数据证据归属于何种证据种类
根据刑事诉讼法规定,我国法定证据种类共计八种,这种延续苏联证据法的列举分类方式,经常导致司法活动中出现的新型证据种类因无法归类而适用困难,这在电子数据最初与视听资料是否作出界分时亦曾引起讨论。互联网金融犯罪案件中常见的大数据证据包括《资金分析报告》等,系通过专业侦查研判工具、手段得到的专业意见、结论,显然并不属于列举的八种法定证据。有观点认为可以将其作为鉴定意见,但无论是从出具单位资质、对象、资金分析研判的算法模型等,《资金分析报告》均与鉴定意见存在较大差别,一定程度上突破了科学证据的范畴。[21]也有观点认为可以将其作为电子数据的一种,但大数据与电子数据的差异不仅是数据体量的“大”与“小”,大数据证据虽然是电子证据迭代的产物,但证据原理和证明过程已经发生了“质变”。[22]还有观点认为未来可以将大数据作为单独的证据种类,[23]但是立法活动往往周期较长,无法满足当前对于该种证据运用的迫切需求。
(二)基础数据在流转传递过程中能否保证原始性和客观性
在移动互联网时代,现代经济行为已经成为网络数字经济行为,从购物、通信、收付款、转账到投资、理财,基本上通过数字量化和互联网金融的手段来实现,相应的,侦查机关查办互联网金融犯罪案件时,在对涉案账户资金的查询与控制(统称为“违法资金查控”)过程中,经常涉及大量金融信息与涉案账户资金数据的调取,[24]产生了海量的基础数据。例如,通过两期金盾工程的建设,公安部已建成了“违法人员信息”等八大资源库;[25]根据中国银监会、公安部联合制发的《关于银行业金融机构与公安机关开展涉案账户资金网络查控工作的意见》(银监发[2015]9号)规定,[26]公安部与银行业监督管理机构联合建设了部级违法犯罪资金查控平台,该平台通过与银监会(现银保监会)金融专网通道和中国人民银行反洗钱中心专网通道,可以进行银行账户的电子化批量查询、冻结。
以违法资金查控平台为例,一般情况下,办案人员在调取相关数据时,需要先登录违法资金查控平台,向银行提起查询申请。收到申请后,银行将查控结果通过银行业协会专线传送至公安网外部服务器,再传递至违法犯罪资金平台服务器,供办案人员下载使用。不难发现,基础数据的调取过程,历经了金融机构、金融监管机构、侦查机关等多家单位,在数个服务器之间传递流转。众所周知,电子数据具有易破坏性、易篡改性等显著特点。基础数据在流转的过程中,能否保持原始性和客观性,将对最终研判结果产生实质影响。
(三)清洗数据是否对数据完整性产生实质影响
资金数据可以分为结构化数据、半结构化数据和非结构化数据。随着大数据侦查的发展,越来越多资金的半结构化数据(如资金转账中的留言)和非结构化数据(如转账中留在银行的人像视频信息)也汇聚到资金数据的分析当中,用于进行比对和碰撞,侦查机关需要对这些资金交易的半结构化数据进行结构化处理,后续以结构化数据为主轴,对资金数据进行数据清洗和比对。[27]以非法集资案件为例,不同银行、第三方支付公司反馈的电子银行、支付交易明细的账单格式不一,有的还存在数据缺失、重复等情况,经常给分析研判带来较多障碍。比如,从某银行提取的银行流水Excel表格,其账户名称、转账时间、转账金额等存在错乱,必须将这些数据进行技术处理,剔除无效数据、重复数据,转化成标准格式,才可以进行深度挖掘、分析。这个过程既可以采用人工方式完成,也可以通过系统自动处理。但是,无论采取何种方式清洗数据,在这个过程中,都有可能出现数据混同、丢失、污染等风险,进而可能影响到资金研判结果的准确性。
(四)大数据分析技术(模型算法)是否科学合理
大数据证明的技术关键,是利用行为特征信息将具有行为因果关系的数据从大量数据中“测量”出来,[28]这一“测量”或者说分析、识别工具,就是模型算法。例如,在资金研判分析过程中,侦查人员通常使用多种模型算法来辅助研判。以笔者办理的某起非法集资类案件为例,经与侦查人员沟通,侦查人员在分析研判哪些账户属于“资金池”账户时,资金查控系统会将自动交易数据多、交易金额大的账户进行标注,判定为“疑似吸金账户”( 当然,该账户是否确实属于资金池账户,还需要侦查人员结合具体案情和证据进行综合判断,并对账户的性质进行核实验证);在确定某一账户为资金池账户后,侦查人员还可能使用“交易户名与对手户名交易汇总统计”模型,在海量数据中自动检索收款人或付款人为该公司的所有交易,分析总进账、总出账等情况,确定该资金账户的资金来源和去向。因此,模型算法是否科学合理,会对最终的资金研判产生实质影响。
(五)基础数据与大数据结论之间是否存在因果关系
传统司法证明中,证据与证据事实之间的因果关系很少引起关注,主要因为事实认定者依据“逻辑和一般经验”,即可推倒出因果关系存在与否的结论,往往表现为“由果推因”的逻辑推理。[29]例如,在杀人案件现场发现了张三的指纹,张三指纹(果、证据)→张三到过案发现场(因、证据事实)→张三可能是作案人(因、待证事实)。
不同于传统司法证明,大数据证据是建立在算法模型的基础之上,通过大数据分析技术对海量数据进行挖掘分析,从而得出分析结论,与传统意义上的推理分析有很大区别。特别是当前,对于大数据能否证明事件之间的因果关系,存在较大争议。不少学者认为大数据擅长相关关系而非因果关系,[30]“建立在相关关系分析法基础上的预测是大数据的核心”“在大数据时代……知道‘是什么’就够了,没必要知道‘为什么’”“我们应当侧重于分析相关关系,而不再寻找每个预测背后的原因”,[31]大数据证据突破了传统证据强相关性甚至因果性的证据聚焦范围,与案件直接或者间接事实缺乏直接因果关系或相关关系。[32]简单来说,这种观点认为大数据只能判断海量数据和大数据结论之间是否相关,得不出互为因果的结论。例如,近年来,为进一步加强金融风险防范,不少地方搭建了“冒烟指数”大数据监管平台,平台利用大数据挖掘技术和外源数据,从运营风险、非法特征、舆情负面性、危害性、资金交易风险、利诱性等维度,综合分析监控对象非法集资风险程度,后经加权最终测算的数字,即是企业的“冒烟指数”。指数越高,预示企业的风险越大。但是,风险越大是否代表着企业一定存在非法集资行为,显然无法得出这种明确结论,只能说概率很高或很有可能。再如,《资金穿透报告》只能说明资金的流向可能是什么,对于资金的具体流向,必须通过调取书证、证人证言等方式予以调查核实,《资金穿透报告》无法得出资金流向的确切结论。
(六)大数据结论是否真实可靠
大数据技术的广泛应用,对我们的生产生活具有潜移默化的影响。例如在网络购物、网络阅读、观看视频时,网络平台通过大数据技术对用户的消费习惯、地理位置、浏览频次等进行分析,从而进一步定向推荐、精准营销。但是,定向推送的商品、视频、阅读资料等不一定符合用户的喜好、预期或倾向。由此,人们时常对大数据结论的精准性产生怀疑,而是认为“大数据不仅让我们不再期待精准性,也让我们无法实现精准性”。[33]受这种惯性思维影响,加之大数据结论产生的过程中,基础数据是否全面,数据清洗过程中是否完全剔除了无效数据、模型算法是否有效等,都会对大数据结论的可靠性产生影响,如“人工智能”“算法黑箱”等技术的介入,增加了人们对大数据结论真实可靠性的忧虑。
三、互联网金融犯罪案件中大数据证据的有效审查运用
在经济犯罪侦查工作中,账户就是现场,资金流向就是犯罪痕迹。信息化时代,越来越多的侦查机关利用信息化优势,运用专业化侦查手段,高效查控和分析资金大数据,穿透资金的来源和去向。如前所述,司法人员对于这类新兴的大数据证据的证据归属、大数据证据形成过程中的“技术因素”还存在不同认识,影响了大数据证据在实践中的适用效果。然而,现代经济犯罪已经发生了翻天覆地的变化,越来越多的互联网金融犯罪案件呈现出资金数据海量、账户流转频繁、采用复杂金融手段隐藏资金走向等特征,给此类案件的司法审查带来全新挑战。司法人员应当在充分了解信息化资金查控技术手段等基础上,对此类案件中的大数据证据进行有效的审查和运用。
(一)证据归属
每一次信息技术领域的大变革都会带来证据法理论与实践的新突破。2012年以前,电子数据虽然没有被列为法定证据种类,但是许多电子证据形式的证据,已经以视听资料等形式成为定案依据,并据此推动了立法进程。本文认为,考虑到大数据证据的独特性,现阶段将大数据证据作为鉴定意见、电子数据观点均不具有合理,未来有必要将其单列为独立证据种类,但在此之前,将大数据证据作为侦查实验笔录更为适宜。
根据《刑事诉讼法》第135条规定,为查明案情,在必要的时候,可以进行侦查实验。侦查实验是侦查人员按照某种特定条件,对某一犯罪案件或者相关事实进行重新验证或模拟实验的侦查活动,侦查实验笔录就是对此类实验过程和结果所作的书面记录,[34]是现有八种法定证据种类之一。以常见的查明资金走向的《资金分析研判报告》为例,在侦查人员主导下,通过大数据挖掘技术对资金流进行实验性质的探索和研究,目的是查明资金的来源及走向,符合侦查实验的条件。因此,可以按照侦查实验的程序性要求,制作侦查实验笔录,注明侦查实验的条件、经过和结果(资金大数据清洗规则、选择算法模型的理由、算法过程的详细介绍),由参加实验的人员签名或者盖章,最终形成《大数据资金研判侦查实验笔录》。[35]
(二)基础数据流转过程中原始性和客观性的审查
基础数据流转过程中的原始性和客观性,属于电子数据来源真实性的问题,只不过因为与“小”体量电子数据来源于某个或者几十个电子介质(载体)不同,大数据证据的基础数据往往来源于金融机构、工商、税务、第三方支付平台、公安部门自有数据等多个数据库,还可能涉及“云服务器”中分散存储的数据,收集证据时必然要按照在线提取电子数据等程序规则进行。2016年《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》、2019年《公安机关办理刑事案件电子数据取证规则》,对于在线提取电子数据均提出了明确的程序性要求,即网络在线提取电子数据时,应当计算其完整性校验值。
虽然在制度层面,截至目前,关于大数据证据的取证规则尚处于研究讨论阶段,但是,作为《资金分析报告》来源的基础数据,本质上属于电子数据,其收集过程与网络在线提取电子数据并无二致,因此取证过程应当严格遵照前述两个司法解释的相关要求。也就是说,基础数据在金融机构、金融监管机构、公安机关传递的过程中,通过核实电子数据的完整性校验值(如哈希值)[36]有无发生变化,可以最大程度保障基础数据的原始性和客观性。
(三)数据清洗过程基础数据完整性审查
数据清洗过程可能采用人工处理或自动方式进行,无论是对半结构化、非结构化数据进行清洗调整,还是去重补全,都需要尽量避免因数据丢失、毁损导致数据不全面的风险。以笔者参与办理的某非法集资案为例,经比对本案调取的第三方、第四方支付公司数据,存在空白数据、重复数据、无效数据等情形。因数据未经处理,无法进行下一步的“模型设计”和可视化分析,侦查人员在与检察人员充分沟通案情的基础上,对数千万条原始数据的交易记录进行了智能清洗,最大程度上避免了误差。
本文认为,数据清洗除了对侦查人员的能力素质提出更高要求外,在技术层面,应当继续优化提升数据清洗的精准度;在制度层面,需针对数据清洗的特点,建立健全相关制度机制。例如,可以进一步建立“数据清洗电子标签制度”,即在清洗数据时,由后台程序自动记录数据清洗的过程,生成操作日志。当对这基础数据的完整性产生怀疑时,可以通过审查操作日志进行核实验证;也可以将数据清洗的过程固定为侦查实验笔录,以便检验校对。
(四)模型算法合理性和有效性的审查
大数据证据分析研判过程中,涉及使用多种模型算法,“分析结论”是通过 “大数据模型” 计算分析的结果,其可靠程度取决于 “大数据模型” 构建的科学性。[37]因此,有必要对模型算法的有效性和合理性进行审查。
审查大数据证据时,是否要求相应的算法模型必须被公开,引发了广泛争论。反对公开算法的观点认为,不少算法和模型可能是一些行业的商业秘密,难以公开,而且人们不会仅仅因为不了解技术原理而否认各种基于GPS、基站、IP地址的轨迹分析报告的证据价值,“像基于复杂、不透明算法的谷歌地球卫星图像分析报告,往往就被认为含有相当准确的信息而具有高度的证明力,持异议的当事人不能仅仅说自己无从获取有关的源代码,而要求法庭对该证据予以排除。”[38]支持公开算法的观点则认为,如果算法模型和运算过程无法公开,只能作为侦查线索或者情报信息对待。[39]
现阶段,司法机关对于模型算法的审查尚在探索阶段,既不应过于“技术迷信”,不对模型算法进行审查,也不能因无法公开而一味排斥大数据证据效力。具体运用时,可以借鉴实务中关于木马、病毒等破坏性程序的审查思路,对模型算法合理性和有效性进行验证。根据公安部《法庭科学破坏性程序检验技术方法》,判断某个程序是否属于破坏性程序时,应当进行静态分析[40]、动态分析[41]或逆向分析[42]。对于大数据模型算法的可靠性验证,也可以参照适用。申言之,一种是“白箱分析法”。如果开发大数据分析系统的公司可以提供模型算法的源代码,可以对源代码的功能进行鉴定,或者由该公司对软件的功能进行说明,以满足模型算法的可解释性、可公开性;另一种是“黑箱分析法”。即对分析结论进行抽样验证、重复计算分析,以证明模型算法的有效性。例如,《资金分析报告》的最终结论中,可以抽取一定比例数据,通过线下调取相应书证,进一步审查两者得到的结论是否一致。
(五)基础数据与大数据结论之间因果关系的判断
大数据的预测功能,很大程度上只要求相关性,而非因果性,但如果作为大数据证据,则必须满足与待证事实之间的因果关系,否则无法发挥司法证明的作用。要注意避免混淆大数据的“相关性”与证据的“关联性”。例如,有观点认为“大数据相关性与证据相关性在概念上相差不大,核心差异在于面向的问题域,以及是否有人的参与因素”,[43]传统证据的关联性,一般要符合两个标准:一是证据指向待证事实的争议点,二是证据使得待证事实变得更有可能或者更无可能。但大数据的“相关关系”只是将海量数据作为相应的预测结论的判断基础,而无须满足证明待证事实焦点问题更有可能或者更无可能的要求。换言之,大数据的“相关性”不同于证据的“关联性”,更不是所有的大数据都符合大数据证据的“关联性”。
本文认为,基础数据与大数据结论之间,属于因果关系,还是相关关系,主要取决于基础数据的性质,在判断基础数据与大数据结论的因果关系时,主要审查基础数据的证明性的大小。当前互联网金融犯罪实施的各个环节,产生了大量证明性较强的数据。大数据分析技术的出现,就是为了解决数据海量性的这个突出问题,利用大数据技术对这些数据进行整合分析,最大限度挖掘其证明价值。不能简单认为,只要涉及到大数据分析技术,基础数据与大数据结论之间因果关系就难以判断,忽略数据本身证明性较强这个基本前提,而是应当从基础数据的证明性、基础数据与大数据结论之间的因果关系出发,对大数据证据进行审查运用。具体而言:
第一,对于前文提及的“冒烟指数”,其依据的是运营风险、负面舆情等数据,这些数据的证明性较低,单个数据无法直接证明是否存在非法集资事实(行为),即使通过大数据整合,也无法确定数据和结论之间存在因果关系,而只能是相关关系,“冒烟指数”这一类大数据分析结果,因为不满足证据的关联性,而不宜作为大数据证据审查运用。第二,以《资金分析报告》为例,此类结论主要依据的是海量资金流水,每一条资金流水反映的都是资金的实际来源和去向,数据本身具有较强的证明性,而通过大数据技术发掘利用后,以量的积累实现了质的飞跃,从而刻画出资金流向的整体面貌,基础数据与大数据结论之间属于因果关系,因此可以作为大数据证据审查运用。
(六)大数据结论真实可靠性的验证方式
正如前文所述,基础数据是否全面,数据清洗中是否存无效数据、模型算法是否有效等,都会对大数据结论的可靠性产生实质影响,需要进一步探讨大数据结论真实可靠性的验证方法。例如,基础数据收集的不够全面,某一“资金池”账户银行流水缺失,势必影响大数据结论的可靠性;再如,数据清洗过程中,大量重复数据没有剔除,也会进一步影响最终结论的真实性。
本文认为,在审查大数据结论真实可靠性时,可以通过印证证明和抽样证明两种方式进行验证。其一,印证证明方式。例如,《资金分析报告》中关于集资规模、资金流向等的记录,是否与被告人陈述、证人证言、书证中的相应内容相互印证。其二,抽样证明方式。抽取一定比例数据,线下调取相应书证,审查两者得到的结论是否一致。此种方法与证明模型算法有效性的方法一致,不再赘述。需要补充的是,由于抽样证明可能存在误差,难以百分百保证论证的准确性。不能简单认为,只要存在误差,大数据结论就不可靠。即使是司法审计,也允许存在一定比例的可容忍性误差。当然,司法机关需要考虑偏差率的大小,进而对结论的可靠性进行判断。
此外,还可以结合前述对算法模型合理性和有效性的审查的侦查实验方式,将互联网金融犯罪案件中的资金大数据按照其犯罪特征运用模型进行计算分析,比对结果,并详细描述为什么选择该算法模型,解释从资金大数据中得到犯罪特征交易记录的全过程。[44]
四、结语
互联网金融犯罪案件中,资金数据的证明力在经济犯罪案件中不亚于一般刑事案件中的DNA与指纹痕迹,对资金数据的分析和回溯就是经济犯罪侦查中的DNA检测。当资金数据的体量范围、复杂程度远远超出传统经济犯罪取证能力时,运用大数据侦查手段,高效查控和分析资金大数据,穿透资金的来源和去向,增强指控犯罪力度,成为信息化时代司法机关办理此类案件的必然选择。大数据证据为突破传统证据对新型互联网金融犯罪的证明困境,提供了新的路径和方法。未来应当继续完善数据收集、数据清洗、数据碰撞、数据分析(数据画像、算法模型等)、结论验证等方面的程序规范和机制建设,进一步开展相关理论和实践探索。
[2] 参见程科:《违法犯罪资金查控系统的技术应用与优化路径》,载《江西警察学院学报》2019年第1期,第37~38页。
[3] 转引自郭华:《互联网金融犯罪概说》,法律出版社2015年版,第23页。
[4] 参见程雷:《大数据侦查的法律控制》,《中国社会科学》2018年第11期,第157页。
[5] 参见刘品新:《论大数据证据》,《环球法律评论》2019年第1期,第25页。
[6] 参见徐惠、李晓东:《大数据证据之证据属性证成研究》,《中国人民公安大学学报(社会科学版)》2020年第1期,第50页。
[7] 参见程龙:《论大数据证据质证的形式化及其实质化路径》,《政治与法律》2022年第5期,第98页。
[8] 参见谢君泽:《论大数据证明》,《中国刑事法杂志》2020年第5期,第125页。
[9] 参见[英]维克托·迈尔·舍恩伯格、肯尼斯·库克耶: 《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社 2013年版,第8页。
[10] “数据碰撞”是指对两个以上数据库资源进行智能查询比对。参见刘品新:《论大数据证据》,《环球法律评论》2019年第1期,第23页。
[11] “数据挖掘”是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。参见涂子沛:《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》,广西师范大学出版社2013年版,第98页。
[12] 参见谢君泽:《论大数据证明》,《中国刑事法杂志》2020年第5期,第127、129页。
[13] 参见谢君泽:《论大数据证明》,《中国刑事法杂志》2020年第5期,第126页。
[14] 参见林喜芬:《大数据证据在刑事司法中的运用初探》,《法学论坛》2021年第3期,第28页。
[15] 参见程龙:《论大数据证据质证的形式化及其实质化路径》,《政治与法律》2022年第5期,第98页。
[16] 详见(2020)浙0192民初3081号判决书。
[17] 详见(2014)杭余民初字第3号判决书。
[18] 参见何家弘等人:《大数据侦查给证据法带来的挑战》,《人民检察》2018年第1期,第54页。
[19] 参见程龙:《论大数据证据质证的形式化及其实质化路径》,《政治与法律》2022年第5期,第96页;参见张兆端:《智慧公安:大数据时代的警务模式》,中国人民公安大学出版社 2015 年版,第 256 、 276 页。
[20] 参见程小白、程科:《违法资金分析与查控技术专业化建设》,《中国刑警学院学报》2018年第5期,第37页。
[21] 我国公安部《公安机关鉴定规则》、司法部《司法鉴定执业分类规定( 试 行) 》、最高人民检察院《人民检察院鉴定规则( 试行) 》均未将大数据鉴定明确纳入司法鉴定的业务范围。参见刘品新:《论大数据证据》,《环球法律评论》2019年第1期,第26页。学者认为,传统的鉴定意见大分借助相关科学仪器以及科学知识对材料真实性做出实质性判断,而对于大数据算法模型的判断是一种对方法论的判断,与传统的鉴定意见在对象上具有质的差别。参见徐惠、李晓东:《大数据证据之证据属性证成研究》,《中国人民公安大学学报(社会科学版)》2020年第36期,第56页。
[22] 参见刘品新:《电子证据法》,中国人民大学出版社2021年版,第120页。
[23] 徐惠、李晓东:《大数据证据之证据属性证成研究》,《中国人民公安大学学报(社会科学版)》2020年第36期,第57页。
[24] 参见程小白、程科:《违法资金分析与查控技术专业化建设》,《中国刑警学院学报》2018年第5期,第39页。
[25] 参见程科:《犯罪资金查控平台的设计与构建》,载《江西警察学院学报》2018年第3期,第11页。
[26] “二、公安机关通过网络专线,向银行业金融机构提交涉案账户、存款等相关信息查询请求,银行业金融机构在线反馈协查结果。”
[27] 参见程小白、程科:《违法资金分析与查控技术专业化建设》,《中国刑警学院学报》2018年第5期,第39页。
[28] 参见谢君泽:《论大数据证明》,《中国刑事法杂志》2020年第5期,第131页.
[29] 张保生:《证据分析的方法和思路》,https://www.spp.gov.cn/spp/llyj/202206/t20220616_559969.shtml,2022年8月5日访问。
[30] 参见姜奇平:《因果推断与大数据》,《互联网周刊》2014年第8期,第70页。
[31] 参见[英]维克托·迈尔·舍恩伯格、肯尼斯·库克耶: 《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社 2013年版,第67、75、91页。
[32] 参见徐惠、李晓东:《大数据证据之证据属性证成研究》,《中国人民公安大学学报(社会科学版)》2020年第36期,第56~57页
[33] [英]维克托·迈尔·舍恩伯格、肯尼斯·库克耶: 《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社 2013年版,第56页。
[34] 参见陈瑞华:《刑事证据法(第三版)》,北京大学出版社2018年版,第289页。
[35] 参见程小白、程科:《资金大数据证据化研究》,《中国刑警学院学报》,2021年第5期,第69页。关于侦查实验程序,可以参考2016年两高一部《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》第16条 “对扣押的原始存储介质或者提取的电子数据,可以通过恢复、破解、统计、关联、比对等方式进行检查。必要时,可以进行侦查实验。……进行侦查实验的,应当制作侦查实验笔录,注明侦查实验的条件、经过和结果,由参加实验的人员签名或者盖章。”
[36] 电子数据的完整性校验值,是指为防止电子数据被篡改或者破坏,使用散列算法等特定算法对电子数据进行计算,得出的用于校验数据完整性的数据值。实践中特定算法一般用的散列算法是哈希值(HASH),哈希值中最常用的算法就是MD5,MD5值的计算是目前证明电子证据完整性和同一性的最简便有效的方法。
[37] 参见谢君泽:《论大数据证明》,《中国刑事法杂志》2020年第5期,第126页。
[38] Andrea Roth, Machine Testimony,126 Tale L.J.1972, 2030(2017), 转引自刘品新:《电子证据法》,中国人民大学出版社2021年版,第133、134页。
[39] 参见林喜芬:《大数据证据在刑事司法中的运用初探》,《法学论坛》2021年第3期,第34页。
[40] 静态分析,是指程序在运行期间与计算机信息系统的交互及其对计算机系统产生的影响。简单来说,就是对感染木马、病毒的计算机系统进行分析,判断木马、病毒对是否对计算机产生破坏。这种方法也可以称之为“黑箱测试法”。
[41] 动态分析,在程序运行过程中,对可执行程序的程序行为进行的分析。具体来讲,就是将木马、病毒等破坏性程序导入测试系统中,并对木马、病毒进行追踪,分析其是否具有自动复制、自动传染等破坏性功能。这种方法也属于“黑箱测试”。
[42] 逆向分析,即对木马、病毒等破坏性程序进行反编译,再通过分析程序源代码的功能作用,以判断程序是否具有破坏性。这种分析方法也可以称之为“白箱测试”。
[43] 周蔚:《大数据在事实认定中作用机制分析》,《中国政法大学学报》2015年第6期,第82页。
[44] 参见程小白、程科:《资金大数据证据化研究》,《中国刑警学院学报》,2021年第5期,第70页。
来源:《人民检察》、悄悄法律人公众号