《智慧法院数据融合分析与集成应用.docx》由会员分享,可在线阅读,更多相关《智慧法院数据融合分析与集成应用.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智慧法院数据融合分析与集成应用才智法院数据融合分析与集成应用摘要 :针对才智法院建设中存在的共性问题和实际需求,介绍了才智法院数据融合分析及集成应用示范平台的架构。从司法大数据深度语义学习、基于学问图谱的司法数据融合、司法数据平安防护与隐私爱护以及司法数据融合分析的可视化 4 个方面,探讨了才智法院建设中共性关键技术的探讨思路和实现路径。最终,以证据抽取、犯罪行为链构建和法律条文举荐为例,呈现了数据融合分析及集成应用示范平台的应用效果。探讨成果对实现以法院司法数据为核心的新一代才智法院建设目标具有肯定的参考价值。关键词 :才智法院 ; 学问图谱 ; 数据融合 ; 融合分析应用1 引言 2016
2、 年,国家信息化发展战略纲要将建设才智法院列入国家信息化发展的战略中。同年,十三五国家信息化规划中明确指出:支持才智法院建设,推行电子诉讼,建设完善公正司法信息化工程;提高案件受理、审判、执行、监督等各环节的信息化水平;推动执法司法信息公开,促进司法公允正义。目前,各级人民法院以才智法院建设为依托,加快推动人民法院信息化建设,取得了重大进展:各级法院都在主动推动互联网、物联网、大数据、人工智能与法院工作的深度融合,围绕才智法院的业务办理、信息检索、文书批阅、案件预料、智能询问等信息化应用,不断地进行探究和实践;各级法院的全业务网上办理的网络化格局基本形成;利用互联网推动全流程依法公开的阳光化目
3、标基本实现。这些进展为人民法院的智能化建设打下了坚实基础。在此过程中,以大数据和人工智能技术为支撑的才智法院系统不断发展,有效推动了司法领域的智能化实践。例如,以人工智能为基础的庭审语音转文字、裁判文书或起诉书的自动生成、法律文件协助批阅、裁判文书证据材料自动抽取等,为才智法院的审判质量评估、精准分案、自动量刑和协助审判等应用需求供应了核心技术支撑。基于大数据和人工智能的协助办案可以显著提高法院办案的工作效率,一方面可以帮助当事人形成最佳的诉讼策略,节约诉讼成本;另一方面,可以帮助法官实现同案同判,确保判决一样性,增加司法公信力,确保司法公允正义。此外,法院通过人工智能客服机器人,可以为公众供
4、应在线的实时法律询问服务。然而,才智法院建设涉及的数据来源广泛、结构困难、动态实时,法院数据在对数据进行有效利用的过程中急需解决以下问题: 数据来源和存储结构的多样性造成了部门内部或体系内部的数据孤岛; 数据具有显明的领域性和专业性,数据特征隐藏较深,导致数据挖掘分析性能较差; 由于数据的多源异构性,司法学问体系难以构建; 数据涉及面广、敏感度高,导致数据平安保障和隐私爱护问题迫切。笔者团队针对这些问题,基于贵州省高级人民法院的司法大数据,开展了理论探讨和技术攻关,探究了司法领域数据的融合分析和集成应用方法,目标是通过整合法院现有的审判数据、业务数据以及人员数据等,提升法院审判过程的智能化水平
5、,实现法院的自动分案、人案关联分析、审判态势数据智能统计与分析等业务需求。本文分析了才智法院在司法数据融合、数据平安与隐私爱护、数据可视化方面的探讨现状,针对才智法院建设中存在的实际问题,提出了司法大数据深度语义学习方法、基于学问图谱的司法数据融合方法、司法数据平安防护与隐私爱护以及数据融合分析的可视化应用示范的探讨思路和技术路途;并以证据抽取、犯罪行为链构建和法律条文举荐为例,阐述了本文所做的探讨在实际应用中的有效性,为审判工作的智能化、精细化供应了有效的支撑。2 国内外探讨发展才智法院是 2016 年提出的司法领域的信息化发展战略,到 2018 年,才智法院 3.0 版形成,相关探讨与应用
6、取得了重大进展。近年来,以大数据和人工智能技术为基础的应用已经在政府治理、生态建设、创新平台、才智城市等领域取得了广泛应用,也为法院业务办理、信息检索、文书批阅、案件预料、智能询问等信息化应用带来了巨大便利。早在 1986 年,美国的法律体系中就出现了人工智能一词,现如今,美国的机器人律师已经可以供应简洁的业务办理服务,这标记着人工智能在法律实践中迈出了重要一步。Remus D等人认为机器人正在渐渐取代律师,Payne S 等人认为计算机技术在法律行业的应用对法学教化产生了重大影响。国内学者对才智法院的探讨早在其概念提出之前就起先了。2001 年,张保生从法律推理与人工智能的关系的角度探讨了人
7、工智能法律系统的历史及发展动力。2018 年,季卫东指出科技手段只是司法实践中的协助手段。郝铁川指出人们应理性对待人工智能在司法应用中的作用。在司法数据融合方面,目前采纳的较多的是传统信息检索技术,通过向量空间模型供应面对文档的分析。该技术的缺点是不能供应面对文档内容的信息融合与分析。传统的信息提取、学问融合方法性能相对偏低。为有效地支撑法官画像、自动量刑、法律条文举荐等面对文档内容的分析与应用,须要充分挖掘句子的结构信息和语义特征,提升学问融合的性能。在已有探讨中,获得句子结构特征的方法主要有 4 类:N 元语法。另外,Jacobs D W 等人提出了一种广义多视角的特征提取方法。Zhou
8、J T 等人提出一种域自适应学习方法。Zhu Y 等人通过文本语义提升图像特征抽取的质量。Liu K 等人提出一种基于重构错误累计矢量的跨媒体融合方法。Zhang X M 等人提出一种基于跨媒体数据协作的社会图像标注方法。在特征选择方面,Liu M等人将链接限制条件作为区分实力的正则项,提出一种基于成对限制稀疏学习的特征方法。相对于其他领域的数据融合,司法数据融合主要聚焦案件分析。国内针对司法数据融合的探讨相对来说还比较少。在数据融合与应用的过程中,数据的平安与隐私爱护也是必需解决的问题。匿名和泛化是用于隐私爱护的经典方法,能够在保证对外发布数据真实性的同时爱护隐私信息。Amro B 等人提出
9、了一种基于用户偏好的假名机制,该机制通过用户自发地更换假名的方式,达到隐私爱护的目的。Ghinita G 等人利用 k-匿名的思想,用空间匿名区域的位置代替用户的精确位置,从而达到隐私爱护的目的。Wu S 等人将 k-匿名应用于众包数据库中的数据隐私爱护。目前,k-匿名采纳泛化技术对原始数据进行匿名处理,当属性的维数较高时,为满意泛化要求,必将导致更多的信息丢失,使得发布的匿名数据可用性变差。数据可视化是数据应用示范的重要途径,可视化技术将数据挖掘过程中抽取出的潜在的、有价值的学问展示给用户,从而满意用户的不同需求。可视化数据挖掘技术已经成为数据挖掘领域的探讨热点。汪加才等人设计了一个交互式可
10、视化数据挖掘系统,允许用户以交互的方式从标记图或距离图中选定感爱好的区域,加以深化分析。陈涛等人探讨了关联数据的可视化技术。袁海等人探讨了中文文本的可视化技术,文本可视化提高了数据的可视化效率和转换成利益的效率。在司法领域的数据融合分析与集成应用过程中,还没有形成相对系统化的探讨体系或应用体系,很多针对司法文本的分析大多运用开放域或传统的文本分析的方法。目前,也没有针对司法数据的特地的数据平安和隐私爱护的体系或模式。 3 才智法院数据融合分析及集成应用示范平台架构 才智法院数据融合分析及集成应用示范平台架构如图 1 所示。以贵州省高级人民法院为例,通过分析其在才智法院建设过程中存在的实际问题和
11、对才智办案、才智办公、才智运维、才智监督的需求,本文重点探讨司法大数据深度语义学习基于学问图谱的司法数据融合司法数据平安防护与隐私爱护和司法数据融合分析的可视化4 个内容。为贵州省高级人民法院面对数字法官-金字团队-才智法院的司法大数据应用供应理论依据和技术支撑。 图 1 才智法院数据融合分析及集成应用示范平台架构 3.1 司法大数据深度语义学习 司法数据包含各种结构化和半结构化数据。司法数据中的各类文档因撰写格式、运用措辞、时间、法院甚至法官和团队的不同而存在很大差异。这种差异会导致相像案件的裁判文书在表达方式上存在明显的区分。大量的案件信息隐藏在非结构化的办案文件中,例如,裁判文书中的案情
12、特征对法条举荐结果、案件审判结果有显著影响;涉及详细的案件审判时,裁判文书中的案情特征的依次可能干脆影响案件的审判结果;相同特征的案件,由于案情特征序列的不同也可能导致审判结果的不同。司法数据融合分析的目标是有效地挖掘法院多源异构数据中的隐含学问,以支撑法院的数据应用。为了支撑才智法院司法数据的融合应用,应重点探讨针对司法数据的深度语义学习方法。通过深度学习模型,挖掘文本中的语义信息,识别其中的案件学问要素,从而有效地解决数据融合过程中的语义理解问题。 3.2 基于学问图谱的司法数据融合 在司法数据深度语义分析的基础上,构建才智法院数据学问图谱,融合司法数据中的案件要素,并探讨案情的演化分析方
13、法。司法数据多元化、深度化、层次化的特点导致案件的演化分析和案件学问的转化特别困难。针对这些特点,笔者采纳了基于学问图谱的司法数据融合方法。在学问图谱构建的过程中,须要探讨不同粒度实体的提取方法;然后,识别实体之间的关联关系。在实体识别和关系识别的基础上,构建才智法院应用中的司法大数据学问图谱。在融合与分析的过程中,各类算法须要具备良好的可扩展性和实时性,满意系统平台对学问图谱的实时检索、快速更新处理的需求。在应用过程中,应通过深化分析多层次学问图谱的演化性质,支撑法院审判工作中的案情演化分析。3.3 司法数据平安防护与隐私爱护 才智法院信息化系统中积累了大量的司法敏感数据和个人隐私数据。数据
14、平安防护和个人隐私爱护是才智法院建设与应用的关键基础,也是数据融合分析的核心需求。在数据融合过程中,须要精确定位案件数据中敏感数据的位置和平安需求等级,设计针对司法敏感数据的访问限制、数据传输平安、数据访问接入平安认证、个人隐私数据自动化识别、隐私度量等防护方案;通过数字签名、访问限制、对称加密、Hash 算法等数据平安防护中常用的方案,结合差分隐私、隐私量化、匿名技术、泛化技术等隐私爱护技术,构建司法领域的数据平安和隐私爱护体系,实现多源数据融合过程中的数据平安防护与隐私爱护。3.4 司法数据融合分析的可视化 针对贵州省高级人民法院建设数字法官-金子团队-才智法院示范应用的需求,借助深度语义
15、分析、特征画像、法院学问图谱构建和可视化等关键技术,实现从法官到团队再到法院的可视化展示及全方位评价,从而支撑精准分案和智能化举荐等应用,提高司法审判的效率和质量,促进专业化审判团队的发展。 4 共性关键技术为了支撑才智法院建设中的数据融合分析与集成应用探讨,笔者提出了基于深度神经网络边界组合实体识别方法、多通道实体关系识别方法、证据识别方法、犯罪行为识别方法和句法要素识别方法;构建了以犯罪行为为中心的学问图谱,有效支撑了审判质量评估、精准分案和自动量刑等详细应用需求。相关探讨内容为才智法院数据融合分析及集成应用示范供应了理论依据和技术支持。其中涉及的共性技术和探讨思路,详细如下。4.1 司法
16、数据的特征表示技术 传统司法数据的特征表示主要采纳向量空间模型,该模型把文档空间映射到一个测度空间,文档的相像度对应测度空间中文档向量的距离。法院各类文书的异质性(如产生的时间不同、法院不同、法官不同等)使得传统的向量空间模型简单产生高维的稀疏特征,不利于针对司法文档的语义分析。为此,本文探讨了一种能够处理异质数据的特征抽取与自适应匹配的方法,即基于深度语义特征提取技术。该方法利用深度学习方法挖掘司法大数据中的深度语义特征,可以有效支撑司法数据学问图谱中的案件要素抽取。其技术路途如图 2所示。 图 2 深度语义特征提取技术路途 深度语义特征提取技术的探讨思路如下。 语义结构空间生成:利用神经网
17、络把浅层特征映射到一个深度语义空间,利用特征组合产生潜在的语义结构空间,提高数据可分性。 语义结构排序:通过计算候选语义结构和目标语义结构的距离,进行排序。 特征选择:依据句子的结构信息和语法功能,利用先验学问操作划分后的特征集合。 特征画像:针对法院的各学问要素,建立实体的特征体系,建设特征实体算法库,实现精确、高效的法院大数据的实体画像拓扑集。 4.2 基于学问图谱的司法数据融合技术基于学问图谱的司法数据融合技术实现过程共分 6 个步骤,如图 3 所示。第一步,在实体特征画像的基础上,对相像实体进行合并和消歧。其次步,识别实体的关联关系,建立表述实体间关系的学问图谱。第三步,基于同类实体之
18、间的强关联关系,合并同类实体,构建多粒度实体。第四步,挖掘多粒度实体之间的关联关系,构建多层次学问图谱。第五步,利用时间特征,针对实体进行特征的演化识别,利用动态数据的进化算法进行学问进化学习。第六步,利用学问图谱的链接预料方法,衡量实体间的全局和局部相像度,推断实体与实体间的间接关系。图 3 基于学问图谱的司法数据融合技术路途 4.3 融合过程中的数据平安与隐私爱护技术 数据平安与隐私爱护技术的探讨思路如图 4 所示。第一步,制定对法院大数据进行数据平安和隐私爱护数据的分级、分类标示方法;其次步,在数据平安防护中采纳数字签名、对称加密、Hash 算法等技术,在隐私爱护中采纳隐私风险限制、隐私
19、量化、匿名技术、泛化技术等;第三步,依据数据平安标示确定数据的平安访问权限,确定数据脱敏方法,并进行数据的并行脱敏处理;第四步,依据多源异构数据的索引结构和过滤算法,建设脱敏后数据的索引方法。图 4 数据平安与隐私爱护技术路途 4.4 才智法院的可视化应用示范 才智法院的可视化应用示范平台工作流程如图 5 所示。第一,通过法院数据融合与分析平台进行集成数据标准管理,通过特征管理系统建立实体特征体系;其次,通过数据抽取、转换、加载(ETL)和应用程序编程接口(API),实现法院内部数据与外部数据的实时与批量导入,并进行初步的数据整合;第三,利用基于知识图谱的分析技术、实体特征体系、集成数据标准进
20、行数据融合与分析;第四,将分析后的数据导入基于搜寻引擎(Elasticsearch,ES)、图库的检索系统,通过统一的数据服务接口对外供应数据服务;第五,法院数据可视化与服务支撑平台、法院数据融合与分析平台进行数据的分发与回写。 图 5 才智法院的可视化应用示范平台工作流程 5 应用案例以证据抽取、犯罪行为链构建和法律条文举荐为例,本节简洁介绍笔者提出的才智法院的数据融合分析与集成应用的探讨进展和应用效果。5.1 证据抽取 依据法官办案的要求,裁判文书中的证据条目过少或过多会导致量刑中的轻判或重判。对裁判文书中的证据进行自动抽取,并与案件卷宗中供应的证据列表进行一一对比,可以对案件的审判质量进
21、行评估。在实现中,首先选择 650 篇裁判文书,标注其中的证据部分。然后,采纳基于深度神经网络的命名实体识别技术进行证据的自动抽取。探讨发觉,裁判文书中的证据在表达上与传统命名实体存在肯定的差异,其结构性比较强、字数多、中心词明显(如××复印件、××结婚证等),而且存在相互嵌套的问题。传统的序列标注模型(如隐马尔可夫模型、条件随机场、循环神经网络等)主要依靠局部特征,不能有效识别嵌套证据,在证据抽取中的效果比较差。依据裁判文书中证据条目的文本特点,笔者提出了基于神经网络的边界组合证据抽取模型。该方法首先利用循环神经网络模型(Bi-LSTMCRF)
22、识别证据的边界(如边界的起先、边界的结束),然后通过组合证据的边界产生证据候选词,再依据证据候选词的上下文特征,采纳卷积神经网络(convolutional neural network,CNN)识别出其中的正确证据。与干脆运用 Bi-LSTM-CRF 模型的方法相比,该方法能够在性能上提升 10%以上的 F 值。5.2 犯罪行为链构建在法院详细的案件审判工作中,须要对案件的案情进行分析。裁判文书中的案情描述和预料案件涉及的相关法条、罪名等信息对协助法官办案有重要的作用。在传统的审判协助工作中,司法人员主要采纳案件的文本特征进行法条、量刑、案由识别。在这种状况下,通常不考虑案情要素之间的依次关
23、系。在实际应用中,案件要素之间的时间序列、行为序列会干脆影响最终的审判结果。对于相同案件要素的案件,案情要素序列的不同会导致审判结果的不同。比如,强奸杀人和杀人辱尸,犯罪行为的依次不同会导致判决结果的差异。针对这一问题,在学问图谱构建中,笔者通过对案情行为序列关键词进行提取,建立与之对应的犯罪行为链,呈现案情的主要状况、时序关系和发展趋势,行为链以行为词为中心,围绕行为词提取关键案情要素特征,通过行为序列构建行为词与其他以行为为中心的特征词之间的关联关系,进而构建以犯罪行为为中心的司法数据间的内在关联和学问体系。如此,笔者可以借助犯罪行为链实现对案情语义的深层分析。5.3 法律条文举荐 传统的
24、法律条文举荐主要依靠法律文本中的案情特征进行预料。这种状况无法考虑裁判文书中案情要素的时间特征。在裁判文书分析中,案件要素的时间特征对审判结果会有较大的影响。为了有效地利用案件要素的时间信息提升法律条文预料的性能,协助法官办案,笔者利用案情的事实描述和犯罪行为序列预料案件涉及的相关法律条文,从而验证基于犯罪行为序列的法律条文预料的有效性。在实现上,笔者利用 TextCNN 模型对裁判文书中案情描述部分的信息进行处理,获得文本中的语义信息。由于卷积神经网络模型不能有效地获得文本中案情要素之间的语义依靠关系,笔者采纳 BiLSTM 模型对文本中抽取的犯罪行为过程进行建模,获得裁判文书中案情要素之间
25、的时间特征,然后与 TextCNN 模型的输出进行拼接,最终通过全连接层和softmax 函数得到法律条文的预料结果。与干脆采纳 TextCNN 的方法相比,该模型在法律条文的举荐上能提升 6%的 F 值。 6 结束语 才智法院的建设是司法改革的重要抓手。本文基于贵州省高级人民法院的案件数据,探究了司法大数据深度语义学习方法、基于学问图谱的数据融合与分析、司法数据平安防护与隐私爱护等围绕才智法院应用的相关探讨,并提出了探讨思路和技术实现路径,以期帮助法院实现从信息化到数据化、智能化的提升,实现以法院司法数据为核心的新一代的才智法院建设。此外,笔者重点阐述了以数据为核心的应用理念,从司法领域的层面为政务领域大数据的应用供应了多源异构政务数据的融合分析与应用案例。