《2023电力人工智能平台架构及技术要求.docx》由会员分享,可在线阅读,更多相关《2023电力人工智能平台架构及技术要求.docx(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、电力人工智能平台架构及技术要求目次前言31 范围42 规范性引用文件43 术语和定义44 缩略语65 架构要求65.1 概述65.2 总体架构65.3 功能架构85.4 技术架构95.5 数据架构106 技术要求116.1 功能要求116.2 性能要求126.3 安全要求126.4 硬件要求127 算法模型共享应用要求137.1 算法模型共享方式137.2 算法模型文件137.3 算法模型基本应用方式142电力人工智能平台架构及技术要求1 范围本文件规定了电力人工智能平台建设的架构要求、技术要求、算法模型共享应用要求。 本文件适用于电力人工智能平台的规划、设计、建设和运维。2 规范性引用文件下
2、列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.12000信息技术 词汇 第 1 部分:基本术语GB/T 5271.282001信息技术 词汇 第 28 部分:人工智能基本概念与专家系统GB/T 5271.292006信息技术 词汇 第 29 部分:人工智能语音识别与合成GB/T 5271.312006信息技术 词汇 第 31 部分:人工智能机器学习GB/T 5271.342006信息技术 词汇 第 34 部分:人工智能神经网络3 术语和定义下列术语和定义适用于本文件
3、。3.1人工智能 artificial intelligence一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种 功能的模型和系统。GB/T 5271.282001,定义 28.01.013.2机器学习 machine learning功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。GB/T 5271.312006,定义 31.01.023.3神经网络 neural network由加权链路且权值可调整连接的基本处理元素的网络,通过把非线性函数作用到其输入值上使每个 单元产生一个值,并把它传送给其他单元或把它表示成输出值。GB/
4、T 5271.342006,定义 34.01.063.4训练(在神经网络中) training(in neural network)教会神经网络在输入值的样本和正确输出值之间作出结合的步骤。4GB/T 5271.342006,定义 34.03.183.5样本数据 sample data其具备的特征能够反映总体数据情况的一部分个体数据。3.6推理 inference从已知前提导出结论的推理方法。在人工智能领域中,前提是事实或规则。术语“推理”既指过程也指结果。GB/T 5271.282001,定义 28.03.013.7深度学习 deep learning深度学习是机器学习的一种,深度学习的概念
5、源于人工神经网络的研究,含多个隐藏层的多层感知 器就是一种深度学习结构。3.8深度学习框架 deep learning framework一种支持深度学习模型设计、训练和推理的工具。3.9资源 resource执行所要求的操作而必需的数据处理系统的任何组成部分。GB/T 5271.12000,定义 01.01.233.10配置 configuration信息处理系统中的硬件和软件组织和互连起来的方式。GB/T 5271.12000,定义 01.01.263.11接口 interface两个功能单元共享的边界,它由各种特征(如功能、物理互连、信号交换等)来定义。GB/T 5271.12000,定
6、义 01.01.383.12计算机视觉 computer vision功能单元获取、处理和理解可视数据的能力。GB/T 5271.282001,定义 28.01.193.135语音识别 speech recognition利用功能单元进行的,从语音信号到语音内容的某一表示的转换。GB/T 5271.292006,定义 29.01.304 缩略语下列缩略语适用于本文件。SVM:支持向量机(Support Vector Machines) SVD:奇异值分解(Singular Value Decomposition) PCA:主成分分析(Principal Component Analysis)
7、OLS:最小二乘法(Ordinary Least Squares)CNN:卷积神经网络(Convolutional Neural Networks) DNN: 深 度 神 经 网 络 (Deep Neural Networks) YOLO:YOLO 模型(You Only Look Once)TFLOPS:万亿次浮点运算每秒(Tera Floating-point Operations Per Second) FMI:FMI 指数(Fowlkes and Mallows Index)5 架构要求5.1 概述电力人工智能平台架构要求包括:a) 总体架构:规定电力人工智能平台总体结构以及和其它平台
8、及组件的关系;b) 功能架构:规定电力人工智能平台总体功能结构;c) 技术架构:规定电力人工智能平台主体组件的技术选型和技术范围;d) 数据架构:规定电力人工智能平台数据的架构。5.2 总体架构5.2.1 概述电力人工智能平台架构应包括:模型库、样本库和训练运行平台 3 部分,这 3 部分可基于已有云计算提供的基础资源共同构成平台层。平台层和服务层构成人工智能中台,支撑应用层的各类业务应用。 电力人工智能平台总体架构如下图 1,各部分要求为:a) 电力人工智能平台的建设应基于云的 CPU 计算资源、AI 芯片计算资源、存储资源和网络资源;b) 实验训练应使用样本库的样本集,通过训练得到可用的模
9、型,模型可输出至模型库;c) 模型库存放训练出的算法模型或采购来的第三方算法模型;d) 人工智能平台应提供模型推送功能,可通过云边协同套件推送至边侧设备;e) 服务层应包括:计算机视觉、自然语言处理、智能语音和知识图谱等基础服务,以及变压器渗 漏油识别等专用服务;6f) 人工智能中台可支撑设备运维、电网调度、客户服务、安全管控和企业经营等电力业务;g) 边缘侧设备的样本数据可通过云边协同套件上传至样本库;h) 平台层支撑各类人工智能服务,并通过服务支撑应用层的业务应用。图 1 电力人工智能平台总体架构图5.2.2 训练运行平台训练运行平台应包括:模型训练、模型部署、模型评估和服务发布等 4 部
10、分。各部分应满足的要求为:a) 不同框架的环境创建采用统一的操作入口;b) 模型开发提供命令行式全功能操作方式;c) 模型训练包括命令行式训练、可视化建模和自动化建模;d) 模型评估包括模型选择、验证集选择、验证环境选择和结果展示。5.2.3 模型库模型库应包括:模型管理和镜像封装 2 部分。模型库支撑的服务层的具体要求为:a) 基础模型服务可包括:1) 智能语音:语音识别和语音合成等;2) 自然语言处理:信息检索和问答对话等;3) 计算机视觉:图像识别和视频分析等;4) 知识图谱:图谱构建和图谱服务等。b) 业务模型服务可包括但不限于以下几方面:71) 变压器渗漏油识别;2) 发电设备故障智
11、能诊断;3) 客服语音质检;4) 电网设备故障事件抽取;5) 线路金具缺销钉识别;6) 电力文本查重;7) 变压器声纹识别;8) 电力事件演进关系抽取;9) 未戴安全帽违章识别;10) 舆情分析预警;11) 输变电设备故障诊断;12) 缺陷设备属性抽取。c) 模型管理服务应包括:1) 对模型进行统一生命周期管理;2) 对模型进行标签、收藏等特定服务;3) 支持多厂商多框架多功能模型统一纳管。5.2.4 样本库样本库应包括:样本管理和样本标注 2 部分,应满足如下要求:a) 样本管理包括:样本数据集管理、标签管理和样本信息管理等;b) 样本标注包括:文本标注、视频标注、音频标注和图像标注。5.3
12、 功能架构电力人工智能平台功能应包括:样本库、模型库和训练运行平台。电力人工智能平台功能架构如下 图 2,功能架构应满足如下要求:a) 训练运行平台可分为训练环境和运行环境,训练环境包括:模型开发、模型训练、模型评估、模型服务、算法管理、资源调度、权限管理和服务监控,运行环境包括:模型导入、模型校验、 模型部署、模型服务、服务发布、边缘部署、资源调度、权限管理和服务监控;b) 样本库包括:样本资源服务目录、样本入库、样本预处理、样本标注、样本审核、样本集管理、 样本发布、样本脱敏、样本共享和存储管理;c) 模型库包括:模型资源服务目录、模型文件存储、模型镜像封装、模型版本管理、模型调试、 模型
13、同步和模型下载。8图 2 电力人工智能平台功能架构图5.4 技术架构电力人工智能平台技术架构要求主要包括:应用层、服务层、能力层和资源层的要求。管理中心处 于服务层和能力层。电力人工智能平台技术架构如下图 3:图 3 电力人工智能平台技术架构图电力人工智能平台技术架构要求为:a) 应用层通过 API 和 SDK 两种方式使用平台的服务,通过 GUI 的方式访问能力层提供的能力;b) 模型管理中的模型部署应采用容器化部署方式,应使用 Kubernetes 和 Docker 组件;9c) 算法集成应包括算法模块:SVM、SVD、PCA、OLS、CNN、DNN、YOLO 等;d) 学习框架应包括主流
14、的开源深度学习框架;e) 数据接入宜采用 Kettle 和 Sqoop 等组件;f) 数据预处理宜支持 Numpy、Scikit-learn 等组件;g) 数据存储宜支持 Ceph 等组件;h) 配置管理模块宜采用配置引擎的方式开发;i) 镜像管理应支持 Harbor;j) 资源应支持动态分配;k) AI 芯片计算资源包括但不限于:GPU 和 NPU 等;l) 操作系统宜采用宜采用 Ubuntu 18.04 及以上或 openEuler 20.09 及以上版本。5.5 数据架构宜构建样本资源目录多级管理体系,实现资源目录上送、下发的双向同步及样本资源目录、标注和 原始数据的推送分发功能。应将数
15、据按照图像、视频、语音、文本等类型存储,经过数据标注后形成样 本库。电力人工智能平台数据架构如下图 4,数据架构要求为:a) 样本数据应来源于业务系统或通过离线数据采集,经由数据总线和消息总线推送至样本库,也 可来源于边缘端;b) 训练组件读取样本库的数据和模型库的模型,并将训练好的模型入库存储到模型库;c) 推理组件调用模型库的模型,使用业务应用推送的业务数据,推理计算,将推理结果反馈给业 务应用;d) 公司级平台和子公司级平台的样本库可实现样本目录同步;e) 公司级平台和子公司级平台的模型库可实现模型目录同步;f) 模型库的模型可通过云边协同套件下发到边缘端。10图 4 电力人工智能平台数
16、据架构6 技术要求6.1 功能要求6.1.1 训练运行平台训练运行平台功能要求为:a) 项目管理:项目创建、项目切换、项目删除和项目监控;b) 模型训练:应至少兼容飞桨、MindSpore、TensorFlow、MXNet、PyTorch 和 Caffe 等开源深度学习框架,训练任务宜支持单卡内存级分配;c) 模型评估:评估指标和评估报告管理,按算法类型分为:b) 1)分类算法:准确率指标评估、召回率指标评估、F1 指标评估;c) 2)回归算法:误差平方和、决定系数和校正决定系数;d) 3)聚类算法:紧密型、间隔性、纯度、标准化互信息、兰德指数、FMI、Jaccard 指数等。d) 算法管理:
17、算法上架、算法分类和算法下架等e) 容器管理:容器镜像文件导入和导出。6.1.2 模型库11模型库功能要求为:a) 模型管理:模型导入、模型删除、版本管理、模型标签、模型收藏和模型共享;b) 模型测试:模型部署、在线测试和服务管理,模型测试服务发布应支持向导模式,宜支持一键 自动发布测试服务,模型测试服务宜支持单卡内存级分配。6.1.3 样本库样本库功能要求为:a) 数据接入:本地文件导入、HDFS 数据导入、FTP 文件导入、NFS 数据导入和数据库数据导入;b) 数据预处理:特征提取、灰度校正和平滑去噪等;c) 数据标注:宜支持智能标注,以模型来给未标注数据进行标注。6.2 性能要求6.2
18、.1 响应时限人工智能平台响应时限应符合 DL/T 1731-2017 电力信息系统非功能性需求规范的规定。6.2.2 可靠性人工智能平台应提供主要网络设备、通信线路和集群系统的硬件冗余,保证高可用性,在无不可抗 力环境下应满足 724 小时服务不中断,具体要求为:a) 数据完整性:存储节点发生故障时,应确保数据完整;b) 算力完整性:计算节点发生故障时,应不影响训练和推理的执行结果;c) 消息完整性:消息队列节点发生故障时,应确保消息不丢失,且不影响消息正常提交和消费;d) 任务调度完整性:任务调度节点发生故障时,应不影响任务调度和执行;e) 网络完整性:网络发生故障并恢复后,系统和任务、服
19、务均应自动继续运行。6.2.3 可扩展性人工智能平台应支持资源横向扩展和系统平滑升级,资源扩展和系统升级过程应不影响现有训练任 务和推理服务。6.3 安全要求人工智能平台的安全要求包括:a) 应符合 GB/T 183362015 信息技术 安全技术 信息技术安全评估准则的规定;b) 应符合 GB/T 22239-2019信息安全技术网络安全等级保护基本要求的规定;c) 平台中人工智能算法在支撑业务应用时,应充分考虑算法计算精度突然降低、计算结果出错、 计算结果超时等状况下对业务系统造成的不利影响。6.4 硬件要求12人工智能平台中运行训练组件、推理组件和具有预标注功能的标注组件的服务器应具备独
20、立的 AI 芯片计算资源。具体要求如下:a) 对训练平台,AI 芯片计算资源单卡内存不应低于 8GB,宜达到 32GB 或以上,单卡内存带宽不应低于 700GB/秒,单卡算力应达到以下条件之一:e) 1)单精度浮点算力至少达到 9TFLOPS;f) 2)半精度浮点算力至少达到 18TFLOPS。b) 在运行环境,AI 芯片计算资源单卡内存不应低于 4GB,单卡内存带宽不应低于 100GB/秒,单卡算力应达到以下条件之一:g) 1)单精度浮点算力至少达到 9TFLOPS;h) 2)半精度浮点算力至少达到 18TFLOPS;i) 3)INT8 精度算力至少达到 36TOPS。c) 训练平台宜使用固
21、态硬盘作为训练样本集的大容量缓存。7 算法模型共享应用要求7.1 算法模型共享方式7.1.1 算法模型文件方式共享算法模型宜支持以模型文件方式共享,可利用算法模型文件实现二次训练和部署应用,算法模型文 件应包括但不限于以下文件:a) 算法模型源文件;b) 算法模型配置文件;c) 算法模型运行脚本文件。7.1.2 算法模型容器方式共享算法模型应支持以容器方式共享,容器应包括算法模型和算法模型运行所需的基础环境,可利用容 器直接部署应用,容器中算法模型文件应包括但不限于以下文件:a) 算法模型二进制文件;b) 算法模型配置文件;c) 算法模型运行脚本文件。7.2 算法模型文件7.2.1 算法模型源
22、文件算法模型源文件应包括由训练框架和数据集经过模型训练后得到的所有参数存储文件。所涉及的训 练框架包括但不限于 Caffe、PyTorch、TensorFlow、MXNet、飞桨、MindSpore 等深度学习框架。根据不同描述语言和开发框架,算法模型源文件对应要求如下:13a) Caffe 框架。算法模型源文件宜包括 caffemodel 文件和 prototxt 文件,caffemodel 存储模型参数,prototxt 存储模型网络结构;b) PyTorch 框架。算法模型源文件宜包括 pth 文件,用于存储模型的网络结构和参数;c) TensorFlow 框架。模型源文件宜包括 met
23、a 文件、data 文件和 index 文件,meta 文件存储模型的网络结构,data 文件存储模型的网络参数,index 文件为张量描述列表或网络结构和参数整合后的h5/pb 文件;d) MXNet 框架。算法模型源文件宜包括 params 文件和 json 文件,params 文件存储模型参数,json文件存储模型网络结构;e) 其他框架。算法模型源文件可采用通用 PMML 预言模型标记语言描述,文件格式为 xml,可用于描述和存储算法模型。7.2.2 算法模型配置文件模型配置文件描述所有可配置的变量,针对不同框架的配置文件格式要求如下:a) Caffe 框架。算法模型配置文件应为 pr
24、ototxt 格式;b) PyTorch 框架。算法模型配置文件应为 py 格式;c) TensorFlow 框架。算法模型配置文件应为 config 格式;d) MXNet 框架。算法模型配置文件应为 params 格式;e) 其他框架。算法模型配置文件可采用 xml 格式。各类配置文件中可调参数应包含但不限于以下字段:表 1 可调参数说明序号字段名称含义说明1BatchSize描述批处理参数2Width描述输入数据的宽度3Height描述输入数据的高度4Channel描述输入数据通道数7.2.3 算法模型运行脚本文件算法模型运行脚本文件应对模型加载、训练和推理提供代码支持,并以模型配置文件所指定的参数 运行模型文件。7.3 算法模型基本应用方式7.3.1 部署应用算法模型应支持以部署方式进行应用,部署方式应支持容器部署,宜支持模型文件部署。147.3.2 二次训练应用算法模型宜支持以二次训练方式应用。根据算法模型的开发语言、深度学习训练框架、数据集和描 述文档等内容,宜支持对算法模型进行相应参数调优。7.3.3 应用接口算法模型应支持以接口方式对外提供服务,接口方式应至少支持API 和SDK 两种接口方式中的一种。15