《T_SAITA 003-2023 工业知识图谱推理决策技术评估规范.docx》由会员分享,可在线阅读,更多相关《T_SAITA 003-2023 工业知识图谱推理决策技术评估规范.docx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学兔兔标准下载ICS35.240.50CCSL70T/SAITA团体标准T/SAITA0032023工业知识图谱推理决策技术评估规范Specificationforindustrialknowledgegraphreasoninganddecisiontechnologyevaluation2023-12-30发布2023-12-30实施上海市人工智能技术协会发布1学兔兔标准下载目次前言.III引言.IV1范围.12规范性引用文件.13术语和定义.14缩略语.25工业知识图谱的推理决策系统评估框架.26工业知识图谱推理决策系统测评指标体系.3概述.3数据集.4系统功能.46.3.1功能有效性.
2、46.3.2易用性.46.3.3兼容性.46.3.4可维护性.5系统性能.5系统可信赖.56.5.1安全性.56.5.2可靠性.56.5.3可解释性.56.5.4鲁棒性.57工业知识图谱推理决策系统测试评估流程.6确定系统质量目标.6数据集的规范.7构建测试环境.7设计测试项.77.5开展测试活动.77.6分析测试结果.78工业知识图谱推理决策系统测评方法.78.1数据集指标.78.2系统功能指标.88.2.1功能有效性.88.2.2易用性.108.2.3兼容性.108.2.4可维护性.11I学兔兔标准下载系统性能指标.11系统可信赖指标.128.4.1安全性.128.4.2可靠性.138.4
3、.3可解释性.138.4.4鲁棒性.13附录A.15参考文献.18II学兔兔标准下载前言本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由上海市人工智能技术协会提出并归口。本文件起草单位:上海工程技术大学、东华大学、安徽志国智能科技有限公司、上海联鼎软件股份有限公司、达观数据有限公司、华润江中制药集团有限责任公司、星环信息科技(上海)股份有限公司、上海道客网络科技有限公司、上海波士内智能科技有限公司、江西沪赣未来智能技术有限公司。本文件主要起草人:李媛媛、刘烨、方志
4、军、燕彩蓉、王文广、黄勃、梁川、丁文林、江会华、陈雪军、吴勇、杨洪山、张红兵、贺梦洁、黄芳、方正豪、汪未雅、张国庆、方励剑、郭林盛、朱洵。III学兔兔标准下载T/SAITA003-2023引言工业知识图谱推理决策技术评估规范面向航空、汽车、制药等行业的工业知识图谱推理决策系统,针对企业全产业链智能制造中产生的知识表示不规范、决策评估不标准等问题,构建基于工业知识图谱的质量评价体系,有效推动企业数字化转型,促进全产业链多业务领域技术融合,实现企业降本增效。IV学兔兔标准下载T/SAITA003-2023工业知识图谱推理决策技术评估规范1范围本文件规定了工业知识图谱推理决策系统的技术评估框架、指标
5、体系和测试评估方法。本文件适用于工业知识图谱推理决策系统的规划设计、系统集成、建设实施和测评。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T42131-2022人工智能知识图谱技术框架3术语和定义下列术语和定义适用于本文件。工业知识图谱industryknowledgegraph以结构化形式描述工业领域的知识元素及其联系的集合。实体entity独立存在的对象。【来源:GB/T42131-2022,3.2】知识元素knowledgeel
6、ement描述某一事物或概念的不必再分且独立的知识单位。注:本文件中谈及的实体、概念(实体类型)、属性、关系、关系类型、事件、规则等统称为知识元素。【来源:GB/T42131-2022,3.4】本体ontology表示实体类型以及实体类型之间关系、实体类型属性类型及其之间关联的一种模型。【来源:GB/T42131-2022,3.8】数据挖掘datamining从大量的数据中搜索隐藏于其中的有着特殊关系性的信息的过程。知识获取knowledgeacquisition从不同来源和结构的输入数据中提取知识的活动。注:知识获取的数据源通常按数据组织结构的维度可分为结构化数据、半结构化数据、非结构化数据
7、。1学兔兔标准下载T/SAITA003-2023【来源:GB/T42131-2022,3.20】知识融合knowledgefusion整合和集成知识单元,并形成全局统一知识标识的活动。【来源:GB/T42131-2022,3.21】推理reasoning基于已构建的知识图谱和算法,发现或获得隐含知识的活动。决策decision针对变化的工业生产环境,综合利用多种智能技术和工具,基于既定目标,对相关数据进行建模、分析并得到最优动作的过程。知识库knowledgebase专家系统设计所应用的规则集合。情境库contextuallibrary由情境组成的知识库。规则库rulebase由规则组成的知识
8、库。4缩略语下列缩略语适用于本文件。API:应用程序编程接口(ApplicationProgrammingInterface)RPS:单位时间请求数(RequestsPerSecond)5工业知识图谱的推理决策系统评估框架工业知识图谱推理决策系统的技术评估框架如图1所示,包括数据采集和预处理、工业知识图谱构建、推理决策系统、工业知识与模型测试评估、工业知识图谱的更新与补全、系统可信赖等评估内容:a)数据采集和预处理:主要针对采集自声、光、电、磁、热等传感器并进行了数据清洗、数据对齐、数据过滤、数据消歧和数据加工等过程后的数据集的评估。b)工业知识图谱构建:主要针对构建的知识图谱的功能和性能进行
9、评估,包括知识表示、知识建模、知识存储、知识计算和知识融合等步骤,通过将不同数据源的知识元素整合到知识图谱中,形成全面而有机的知识体系。c)推理决策系统:主要针对推理决策系统进行评估,包括基于规则库、情境库、算法库、推理模型和决策模型等技术进行数据分析和推理,从而做出准确的决策。d)系统测试评估:系统评估包括数据集评估、系统功能评估、系统性能评估和系统可信赖评估。e)系统更新:系统更新包括知识图谱更新和模型更新。2一级指标二级指标三级指标数据集数据集质量数量标注质量均衡性多样性系统功能功能有效性正确性完备性冗余性可行性相关性易用性易理解性易操作性兼容性不同模态数据的兼容性不同领域数据的兼容性对
10、操作系统的兼容性对API的兼容性可维护性模型的迭代更新频率模型迭代的质量变化表1指标体系3兔学兔标准下载T/SAITA003-2023图1工业知识图谱推理决策系统技术评估框架6工业知识图谱推理决策系统测评指标体系概述工业知识图谱推理决策系统测评的指标体系如表1所示,包含4个一级指标,10个二级指标和31个三级指标。一级指标二级指标三级指标系统的可恢复性配置、监控、日志管理功能系统性能性能效率系统响应时间资源需求吞吐率容量系统可信赖安全性机密性完整性可用性可靠性平均修复时间平均故障间隔时间可解释性可解释程度鲁棒性干扰数据对系统的影响数据集分布对系统的影响学兔兔标准下载T/SAITA003-202
11、3数据集评估数据集(包括训练数据集和测试数据集),应包括下列内容:a)数量:通常用样本数量来衡量。b)标注质量:指数据集标注信息是否准确、完备并符合要求。c)均衡性:指数据集包含的各种类别的样本数量分布的偏差程度。d)多样性:指数据集包括不同领域的多样性。系统功能6.3.1功能有效性根据自动构建与推理系统的任务不同,功能有效性的评估应包括但不限于下列内容:a)正确性:衡量系统运行是否正常,运行的预测结果的准确率。b)完备性:根据应用场景评价领域覆盖度,领域覆盖度从领域知识的广度和深度进行评估。c)冗余性:衡量系统是否存在结构冗余、语义冗余、空节点冗余和节点重复的问题。d)可行性:衡量决策的可行
12、性和实施难度,包括决策的技术可行性、资源可行性等方面。e)相关性:相关性评估衡量系统的推理结果与领域知识或已知事实的相关性。6.3.2易用性易用性表示在指定条件下使用时,系统被理解、使用的能力,应包括下列内容:a)易理解性:指用户在未接受任何培训的情况下,初次使用系统,能够被用户所认识且知道系统功能的程度。b)易操作性:用户对系统的使用体验和界面友好程度,及系统的易用性和操作便捷性。6.3.3兼容性用于评估推理决策系统可适用于各种数据、操作系统以及API的能力,应包括下列内容:a)不同模态数据的兼容性:衡量系统对于多种类型数据格式的支持和处理能力。4学兔兔标准下载T/SAITA003-2023
13、b)不同领域数据的兼容性:衡量系统对于不同领域知识和概念的理解和处理能力。c)对操作系统的兼容性:衡量系统在不同操作系统环境下的运行和表现。d)对API的兼容性:衡量与API工具和服务的互操作性。6.3.4可维护性用于评估推理决策系统能够被运维人员修改的有效性和效率以及自身的可恢复性,应包括下列内容:a)模型的迭代更新频率:评估模型迭代更新的时间周期及模型训练时间。b)模型迭代的质量变化:评估模型迭代后系统的功能有效性、性能、鲁棒性等变化趋势。c)系统的可恢复性:评估推理决策发生故障时,恢复功能所需要的时间。d)配置、监控、日志管理功能:推理决策系统宜支持系统配置、监控告警、日志等管理功能。系
14、统性能性能效率指标用于评估推理决策系统在特定工作负载下执行任务的效率和速度,应包括以下内容:a)系统响应时间:系统对用户需求的快速响应能力,即用户从发出请求到接收完响应之间的总耗时。b)资源需求:用户可以根据实际的应用场景选择相关的基本指标,用于评估知识图谱推理决策系统的性能是否满足要求。c)吞吐率:衡量系统在单位时间内能够处理的用户请求数量,是对系统并发处理能力的量化描述。d)容量:度量系统能够存储的最大的知识图谱中关系和实体的数量。系统可信赖6.5.1安全性用于评估推理决策系统防止非法用户访问、信息篡改和非法资源请求的能力,应包括以下内容:a)机密性:机密性是指保证信息不被非授权访问,即使
15、非授权用户得到信息也无法知晓信息内容,因而不能使用。b)完整性:信息在输入和传输的过程中,不被非法授权修改和破坏,保证数据的一致性。c)可用性:保证合法用户对信息和资源的使用不会被不正当地拒绝。6.5.2可靠性用于评估推理决策系统在一定时间范围内保持正常运行的能力,应包括下列内容:a)平均修复时间(MTTR):指系统从故障发生到系统修复结束平均所需要的时间。b)平均故障间隔时间(MTBF):系统在两相邻故障间隔期内正确工作的平均时间。6.5.3可解释性评估人类能够理解工业知识图谱推理决策系统的输出推理决策原因的程度。根据人类能够理解系统推理决策原因的程度,将推理决策模型的可解释性分为强、弱两种
16、级别:a)强可解释性:可通过数学证明来说明模型做出推理决策的原因,并给出推理和决策的路径。b)弱可解释性:可通过工业知识图谱推理决策系统的输入输出、系统预测的置信度、系统中的部分参数值、提取的特征值或这些数值的可视化来说明系统做出推理决策的可能原因。6.5.4鲁棒性鲁棒性用于评估系统在面对异常条件、不良输入或不同环境下的表现和稳定性,应包括下列内容:5学兔兔标准下载T/SAITA003-2023a)干扰数据对系统的影响:评估异常输入数据集对系统预测准确率、精确率、召回率、真负率、F1测度等指标。b)数据集分布对系统的影响:统计真实环境下输入数据集的正负例分布或各类别样本分布,评估不同数据集分布
17、情况下系统预测的准确率、精确率、召回率、真负率、F1测度等指标。7工业知识图谱推理决策系统测试评估流程工业知识图谱推理决策系统的测试评估流程如图2所示。确定系统质量目标构建测试数据集构建测试环境设计测试用例开展测试活动分析测试结果图2基于工业知识图谱的推理决策技术与测试评估流程确定系统质量目标按照实际工业情境确定系统质量目标,其中包括但不限于:a)场景分析分析工业领域知识图谱推理决策系统的应用场景、运行环境与使用流程,既要考虑系统正常使用的情况,也要考虑可预见的异常情况。b)风险分析根据推理决策系统的不同应用场景,通过多种途径开展有关系统失效的风险识别,如系统失效模式分析、场景模拟、历史运行数
18、据分析、专家委员会评审等技术。可考虑的风险包括但不限于:1)由于推理决策系统系统的失效导致造成企业设备故障、生产中断或资源浪费等的威胁;2)隐私数据的侵犯和泄露的风险;3)潜在的道德和法律的风险。c)确定系统质量目标根据系统的应用场景和风险,确定工业知识图谱推理决策系统的质量目标,包括:6学兔兔标准下载T/SAITA003-20231)确定系统功能有效性、性能、兼容性、维护性、训练数据集的质量、对应用场景数据的鲁棒性、可解释性、安全性的指标要求。2)确定测评指标评价的准则。数据集的规范a)数据质量:确保测试数据集的质量符合预期标准。这包括数据准确性、完整性、一致性等方面的要求。测试数据应反映真
19、实工业环境中的典型情况。b)数据范围和覆盖性:测试数据集应涵盖工业应用中的各种情况和场景,包括正常操作、异常情况和边界条件等。确保测试数据能够充分覆盖系统的功能和性能要求。c)标签规范:对于需要标注或注释的数据,定义标签和注释的规范要求。确保标签和注释准确描述数据的含义和属性,以支持算法验证或性能评估。d)数据干扰样本:数据中宜包含已知干扰样本、对抗性样本或业务不相关样本等异常样本。构建测试环境根据工业知识图谱推理决策系统测评运行需要的软硬件参数,构建出软硬件环境用于测试。如无法构建出相同的测试环境,需要进一步分析由于测试环境与使用环境不一致所带来对测试结果的影响。设计测试项根据系统的功能和应
20、用场景,设计一组具体的测试项。每个测试项应包括测试说明和预期输出结果。测试项应覆盖不同情况和功能模块,以全面评估系统的推理和决策能力。7.5开展测试活动根据设计的测试用例,运行系统并输入相应的测试数据。记录系统的输出结果、性能指标和运行日志等信息。确保测试过程中的数据隔离和环境控制,避免对生产环境产生负面影响。7.6分析测试结果对系统的输出结果和性能指标进行分析和评估。比较实际输出和预期结果,计算评估指标,识别系统的弱点和改进空间。分析系统在不同测试用例和场景下的表现。8工业知识图谱推理决策系统测评方法8.1数据集指标数据集的质量测度用于评估数据集在一种硬件、软件或者其他运行(或使用)环境下训
21、练或测试的可靠性测度。可靠性测度用于评估系统、产品或组件在指定条件下、指定时间内执行指定功能的程度。在系统/软件产品的开发期间,内部可靠性测度用于预测该系统/软件产品是否满足规定的可靠性要求。外部可靠性测度用于对这样一些属性进行评估,在执行测试过程中,它们与软件作为其一部分的系统的行为有关,以表明在系统运行过程中软件的可靠性程度。在大多数情况下,系统与软件不互相区分。a)数量对因未经授权访问而破坏或篡改数据项的数量进行计数,并与需求规格说明或其他相关文档中规定的需要避免数据破坏或篡改的数据项的数量相比较。7学兔兔标准下载X=aT/SAITA003-2023b)标注质量对数据集准确标注的数量占总
22、数据集的比例来衡量数据集标注的质量。a+b100%其中,X表示数据集标注质量测度;a表示数据集中实体和关系被准确标注的数量;b为数据集中实体和关系标注不准确的数量。规模过大的数据集可通过抽样局部数据进行统计检测。X值越大,表示数据集标注质量越高,反之则越低。c)均衡性统计数据集各类别样本数量的标准差与平均值的比例来表示数据集的均衡性。所有类别样本数量平均值计算公式:N=1kki=1Ni均衡性计算公式:ki=1k(NiN)2C.V=11N其中,k表示数据集中的样本类别数;Ni是第i个类别的样本数量。X值越大,表明数据分布相对较广,数据集不够均衡,反之则表示数据分布相对集中,数据集分布均衡。d)多
23、样性数据集中包含的数据在特征、类型、来源等方面的差异性和多元性。统计数据集中各类别样本的数量,以及每个类别数据在数据集总量中的占比来衡量数据集的多样性。(Ni2D=1ki=1N)准确率=𝑇+𝑇精确率=𝑇召回率=𝑇真负率=𝑇其中,D表示多样性测度;k表示数据集中的样本类别数;N是所有类别样本数量的总和;Ni是第i个类别的样本数量。D值越大表示多样性越低,反之则越高。8.2系统功能指标8.2.1功能有效性功能有效性测度用于评估产品或系统在指定情况下使用时,提供满足明确和隐含要求的功能的程度。a)正确性选定所有功能或一组
24、特定功能集(一般按照重要性和目的)对系统做功能测试。对不能正确实现的功能数进行计数,将其与考虑的功能总数相比较。𝑇+𝑇+𝑇+𝑇100%𝑇+𝑇100%𝑇+𝑇100%𝑇+𝑇100%8兔学兔标准下载C=n总节点数量100%总节点数量100%错误接受率=𝑇错误拒绝率=𝑇T/SAITA003-2023F1测度=2精确率召回率精确率+召回率b)完备性对在评价中检测到缺少的功能数进行计数,将其与需求规格说明或其他相关文
25、档中指定的功能数相比较,评估完备性的计算公式如下:n+m100%其中,C度量完备性;n表示符合完备性要求的实体类型和关系类型总数量;m为缺少的实体类型和关系类型总数量。数据规模过大时可通过抽样局部数据进行统计检测。c)冗余性选定所有功能或一组特定功能集(一般按照重要性和目的)对系统做功能测试。对冗余的功能数进行计数,将其与考虑的功能总数相比较。空节点冗余率=冗余空节点数量重复节点比例=重复节点数量𝑇+𝑇100%𝑇+𝑇100%宏准确率=1𝑇+𝑇+𝑇+𝑇100%=1+微准
26、确率=𝑇+𝑇F=n𝑇+𝑇+𝑇+𝑇100%d)可行性选定所有功能或一组特定功能集(一般按照重要性和目的)对系统做功能测试。对可行的功能数进行计数,将其与功能总数相比较。m100%其中,F表示功能可行性测度;n表示在功能测试中通过的功能数量;m为功能总数。X值越大,表示功能可行性越高,反之则越低。e)相关性原始数据和测试数据的协方差与原始数据的标准差和测试数据的乘积的比值。9兔学兔标准下载Cov(X,Y)=i=1n(XiX)(YiY)X=i=1n(XiX)Y=i=1n(YiY)相关性系数=Cov(X,Y)平均完成时间=i=1nTi总任务数量100%总共尝试执行功能的次数100%T/SAITA003-2023协方差计算公式:n1标准差计算公式:n1