《人工智能算力中心技术规范 第2部分:测试方法.docx》由会员分享,可在线阅读,更多相关《人工智能算力中心技术规范 第2部分:测试方法.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、ICS 35.040CCS L 71团 体标 准T/AI XXX. XXXXXX人工智能算力中心技术规范第2发布:测试方法Spec i f i cat i on for artificial i rite I I i gence comput i ng centrePart 2: Test requi rements(征求意见稿)XXXX - XX - XX 实施XXXX - XX - XX 实施(在提交反应意见时,请将您知道的相关专利连同支持性文件一并附上)XXXX - XX - XX 发布中关村视听产业技术创新联盟 发布T/AI XXX. XXXXXX6性能扩展测试6.1 训练测试测试过程
2、训练测试过程,应符合以下要求:a)训练被测系统包含人工智能计算中心硬件及配套软件(不含模型或算法负载);b)训练测试过程,包含以下步骤:1)测试准备: 被测者于测试前,取得测试集;如需要,被测者可对数据进行必要的格式转化或封装; 训练数据安置在计算中心内的存储机构上(特定存储服务器或节点的硬盘):2)测试运行: 被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、 结果模型格式转化与持久化),得到结果模型;训练期间,记录过程数据、按表1的规定测量、计算指标值、记录日志、生成结果数 据;表1训练性能指标测量方法指标测量方法总体训练用时a)在(从中心内特定存储服务器或节点的
3、硬盘)读入训练数据命令前,紧邻该命令计时,获得时间点tn;b)在输出模型持久化完成后,串行并紧邻调用计时命令,获得时间点E;c) 计算总体训练时间。训练用时a)训练开始前,串行并紧邻调用计时命令,获得时间tm, t询可等于褊;b)训练退出时(模型持久化之前),串行并紧邻调用计时命令,获得时间点tw;C ) 计尊训练用时:Ttr - Ctr: Itri0人工智能 计算中心 训练实际 吞吐率a)每个训练节点n上,统计每个训期(epoch) i (i为正整数)所使用的时间T肝:b)基于a)的结果,统计每训期平均”c)计尊节点n的训练实际吞吐率;d)(按第1局部中公式7)计算人工智能计算中心的训练实际
4、乔吐率。人工智能 计算中心 训练有效 计算能力a)对于给定的训练场景集合S,对每个场景负载s W S,使用某特定参照计算系统,在s上测得吞吐 率丁年,作为基线:b)设SUT在s上测得的训练实际吞吐率为7%,那么训练综合相对吞吐率,由崇在s上的加权几何平均,(按第1局部中公式9)计算人工智能计算中心训练有效计算能力。每秒浮点 /整型运 算次数(1)在每个训练节点i上:1)在第j (j是非负整数)次模型构型变异(变异过程见第1局部6. 2.2)后(第0次变异 后指使用种子模型),训练前,计算学习所需前向、后向传播过程计算量G, G;2) 在第j次模型构型变异后,训练时,测量该此训练用时Tnnj;3
5、)在第j次模型构型变异后,训练中,统计前向、后向传播过程数量N,Nb:4) 计算节点i每秒运算次数:e)按第1局部中公式11或公式12,计算人工智能计算中心训练的每秒浮点或整型运算次数。T/AI XXX. XXXXXX规那么检查;1)结果报送: 被测者发送测试结果给测试者;测试者检查结果合规性; 测试结束。6.1.1 测试规那么训练测试,符合以下规定:a)训练测试,不应实施以下操作:1)在测试过程中进行硬件或软件改配;2)使用本文件规定之外的训练集进行模型训练,也不应实施模型预训练及迁移学习策略;3)训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载 (要求被测者实现
6、的方法除外);4)在数据准备过程中: 替换数据集;减少数据集中的样本(除缺乏1 batch的剩余数据之外); 除b) 2)规定的操作生成的样本外,增加数据集中的样本;分析数据规律或预先提取、编码、保存样本特征; 对数据做排序、索引或拆分操作;5)在训练过程中改变指定的优化方法;6)使用AUTOML完成训练任务时,在整个训练过程中变更模型变异算法;7)增加改变超参的层(如改变卷积核的维度);b)训练测试,符合以下规定:1)应编制并运行的训练测试代码: 实现必要接口;使用测试工具提供的过程指标计算方法; 使用测试工具提供的日志记录方法;2)数据准备时: 训练数据尺寸不同或不符合模型需要时,可实施尺
7、寸调整操作;在不改变原输入图像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不 限于:线性插值、双线性插值、区域插值等; 训练集、验证集、测试集的划分比例,默认为75%、10与及15冬,特殊的划分应符合表 1的规定;可利用分布式环境实施数据准备;3)训练过程中: 可使用可变学习率,学习率改变方法,由训练算法确定;权重及偏置应以常量或随机值初始化; 试验次数应符合场景要求(见第1局部中表1);如实施混合精度训练,应符合第5章的要求;4)实施基于AUTOMI.的训练时: 应区分模型结构生成(变异)阶段和训练(针对某一代变异调整模型参数)阶段,至 少在模型结构生成(变异)过程执行前后、训练开
8、始前后,分别记录时点;模型变异及搜索空间应是有限并确定的;T/AI XXX. XXXXXX对多个变异的模型结构记录训练过程时,取性能上的最好结果(见第1局部中6. 3. 5);5)实施分布式训练时: 并行训练,方式可包含但不限于模型并行、数据并行及混合并行;可使用本地硬盘、分布式文件系统(如NFS)或存储服务器存放训练数据。6. 2测试结果训练结果,符合如下要求:a)训练结果模型与参考模型一致,符合以下要求:1)对基于固定负载的测试,训练结果模型精度应符合第1局部中表1的规定;2)对基于固定负载的测试,训练模型脚本与参考脚本应定义一致的网络结构,训练模型脚本 不应导致以下情况的发生: 多余或缺
9、失的层;多余或缺失的神经元: 改变的激励函数(对应层之间);多余或缺失的跨层连接; 改变的池化方法(对应层之间):b)训练过程应符合6. 1.2b)的规定;注:在实测时,可根据测试代码判定。O结果应包含以下信息:1) 5. 4规定的测试信息;2)场景要求的准确率指标值(见第1局部中表1);3)训练程序源代码;4)训练日志: 对非AUTOML训练,日志按每个epoch输出。每个epoch对应的格式为:M yyyy:MM:dd HH:mm:ss - trial number - epoch number - accuracy w . 其中,第一项为日 志输出时的时间戳,第二项为训练次数(正整数),
10、第三项为epoch数(正整数), 第四项为当前测试集上的准确率(依照场景要求的指标定义):注:框架软件不支持时,对应工程可填“一”;对AUTOML训练,日志按每次模型变异及对应训练过程输出。每次模型变异后,输出 变异信息,格式为:”yyyy:MU:dd HH:nun:ss- yyyy:MM:dd HH:mm:ss generation_number-nuniber_of_nodes M (, 其中,第一项为变异开始时间,第二 项为变异完成时间,第三项为变异代次计数,第四项为当前变异结果模型的节点数(对 初始化模型的训练,变异起止时间为空,代次记为0);对变异后模型的训练,日志 按每个epoch
11、输出,格式符合4)中“对非AUTOML训练”规定;5)结果模型文件(含权重和结构信息;AUTOML训练,为最终结果模型文件);6)规那么检查结果(对AUTOML训练,6. 1.2中关于AUTOML的规那么有效);7)训练线性度,包含使用负载,(两次测试使用的)节点数量,吞吐率和线性度百分比。6. 3推理测试6. 3.1推理作业推理作业,应符合以下要求:a)作业从测试系统发往被测系统,结果从被测系统发送回测试系统;T/AI XXX. XXXXXXb)每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;c)推理作业遵循特定的到达模式,符合本局部中表2的要求;表2作业到达模式到达模式编号定
12、义作业缓存, (允许/不 允许)运行趟数 (趟)超时控 制门限 (s)连续(单 一)到达0第i (i为正整数)个作业在第(iT)个 作业完成后紧邻到达。作业(i-1)未完成 或超时控制门限未到达时,作业i不发送不允许12固定周期到 达1作业以固定周期T到达,一次到达n个作 业(n为正整数)允许14泊松分布到 达2作业以泊松分布到达:eAAk P(X = k)=k!其中:k是某单位时间内到达的作、也数(k为正整数),A 为正整数)是单位时间 (如每秒)作业平均到达次数允许14高峰到达3泊松分布到达模式中,有j个短周期,每 周期内有突发性大量作业,周期持续一定 时长TG (如5s-10s),并维持
13、一定并发 度水平。(。为正整数,如。2纥个作 业/s),短周期内的作业到达,符合固定 周期到达模式(T与n可在测试时结合福 要选取)。允许160离线4一次性全部到达允许1不涉及混合作业到 达5在连续到达、固定周期到达、泊松分布到 达、高峰到达、离线到达模式中,加入与 当前测试场景不同的作业允许1取对应 超时控 制门限 ITi实际测试中,可选择一种或多种到达模式。b作业缓存是指在处理机构无法及时处理到达作业时,将到达作业缓存(如使用队列),以备后续 处理的机制。不应缓存和再利用前期推理的输出结果。d)作业丧失指被测系统无法在超时控制门限内返回结果的情况;e)超时控制门限指测试者从发送作业到收到对
14、应结果之间允许的最大时间间隔。6. 3.2测试过程推理测试过程,应符合以下规定:a)推理被测系统为人工智能计算中心硬件及配套软件(不包含模型或算法负载); b)推理测试过程,包含以下步骤:1)测试准备: 被测者向测试者发送测试请求,取得测试集;T/AI XXX. XXXXXX 测试者指定测试数据集,告知获取方法;被测系统下载数据集,检验合规性;2)测试运行: 被测者按测试内容,载入模型(可预先准备好)和数据集: 被测者运行测试;记录过程数据,按表3的规定测量、计算指标值;表3推理性能指标测量方法指标测量方法推理总延时T,a)测试者在发送第1个样本的第1字节前,紧邻计时,得到时间点1”;b)测试
15、者在接收到所有样本的最后1字节后,紧邻或在最后一个处理超时时间点计 时,得到时间点5:C)计算得到推理总延时Tl = 112 - tl.o端到端推理 延时T”a)测试者在发送某样本第1字节前,紧邻计时,得到时间点b)测试者在接收完该样本返回结果的最后1字节后,紧邻计时,得到时间点2;c)计算端到端推理延时:Tn = tm-tnio分派处理延 时To 结果合规性检查;3)结果报送: 被测者发送测试结果数据给测试者; 测试者检验结果合规性; 测试结束。6. 3.3测试规那么推理测试,符合以下规定:a)符合以下合规性要求:1)推理测试源码: 应实现必要接口(数据准备、输入、输出): 应使用测试系统提
16、供的指标计算方法; 应使用测试系统提供的日志记录方法;a)被测者收到样本最后1字节后,紧邻计时,得到时间点5时; b)被测者对某样本的处理结束后,紧邻计时,得到时间点匕皿;C)计算分派处理延时Toir = tm - ton-10人工智能计 算中心推理 实际吞吐率a)在整个推理测试过程中(TI内),累计所有实际发送的样本,及实际返回结果, 计算样本数量n:b)计算其与TI的比值。人工智能计 算中心推理 有效计算能 力a)对每个场景负载sS,使用某特定参照计算系统,在s上测得吞吐率,作为基线; b)对每个场景负载SGS,使用SUT,在s上测得推理实际吞吐率;c)使用第1局部中公式9计算。T/AI
17、XXX. XXXXXX不应对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载(要求被测 者实现的函数或接口除外)。2)推理过程: 模型编译、部署时,不应使用其他模型替换测试模型;测试前,除数据集封装格式转化外,不应浏览或记录数据、修改数据(非预处理)、 拷贝数据,以及分析、提取、缓存数据特征; 测试过程中,不应实施以下操作:以推理测试进程之外的任何进程,修改、记录口志; 以推理测试进程之外的任何进程,存取测试输入、输出数据;缓存、复用输入、输出 及过程(预处理结果、后处理输入)数据;修改内存中模型参数;保存、缓存后处理 过程输入数据;记录、分析或使用作业到达模式来预测某时段内的作业量
18、;根据过程 中准确率、丧失率等指标值,故意忽略待处理数据;b)推理时的模型压缩,不应实施如下操作:1)删除非零权重;2)使用剪枝或其他改变模型结构的方法;3)实施模型蒸播。c)推理时的模型量化,符合以下要求:1)不同场景下量化的模型对象应与第1局部中表1中A.l, A.2, B.1规定的模型一致;2)量化结果不应出现6. 1.3a) 2)列出的情况;d)推理精度应符合第1局部中表1的要求;e)应声明推理所用批大小的信息,符合第5章的规定。 . 3.4测试结果推理结果,应包含如卜信息:a) 5. 4规定的测试信息;b)推理作业到达模式序号(见第1局部中表1);O推理使用的实际精度;d)场景要求的
19、指标值;e)推理测试源码;f)推理日志。日志周期性输出,每条日志的格式为:“yyyy:MM:dd HH:mm:ss - accuracy- 已处理作业数-已处理样本数-样本丧失数。其中: 1)第一项为本条日志输出时的时间戳;2)第二项为当前累计的准确率(具体指标的选取,符合第1局部中表1的要求):3)第三项为当前已返回结果的作业数;4)第四项为当前已返回结果的样本数;5)第五项为当前未能在超时范围内处理的样本数,即丧失样本数;g)合规性检查结果(见6.2.3)。7可靠性扩展测试7.1测试过程可靠性测试过程使用故障注入方法,使训练过程中断,各被测系统实施故障检测、恢复手段,在特 定时间段内,使训
20、练运行。可靠性测试过程应符合以下要求:T/AI XXX. XXXXXXa)可靠性测试的被测系统为人工智能计算中心及配套软件组件(不包含模型与算法负载);b)可靠性测试过程,包含以下步骤:1)测试准备: 测试者按第1局部中表4指定故障工程(每模块不少于1项),确定故障注入次序, 在测试前通知被测者;被测者按本局部表4,准备故障注入脚本或实施方案(含脚根源码、人员操作方法和 执行/操作时点),并报测试者检查确认; 被测者向测试者确认对每一个故障工程排除的方式(自动、手动或混合);表4人工智能计算中心故障注入方法模块故障模式注入方法人工智能 加速器片上内存多比特ECC编制脚本,修改ECC错误标志寄存
21、器人工智能加速器故障在特定加速器0S上执行脚本(如echo命令),挂死0S人工智能加速器/板异常抻电整台服务器下电或宿主机0S重启动节点服务 器硬件岩机整台服务罂下电或宿主机0S重启动网络加速设备不可调用编制脚本,在宿主机0S上关闭加速器网口交换设备不可用重启交换机,或关闭端口注:如需使用本表之外的故障注入方法,应提前向测试者说明,并获得确认。2)测试运行: 可靠性测试应单独实施,与性能测试别离;被测者运行固定负载训练或推理过程,并设定故障注入脚本的运行行为(如在故隙注 入脚本中使用定时器): 记录过程数据,按第1局部中公式13,14和15计算指标值;结果合规性检查;3)结果报送: 被测者发送
22、测试结果数据测试者;测试者检验结果合规性; 测试结束。 . 2测试规那么可靠性测试,符合以下规定:a)可靠性测试,不应实施以下操作:1)在空载(不执行训练或推理任务时)状态下实施测试;2)在测试过程中改配软件或硬件,或使用与训练、推理测试不同的软、硬件配置;3)测试中,对已实现的指标测量行数或测试流程控制函数实施改动、继承或重载;4)在测试中,替换故障注入脚本或方法;5)由训练、推理测试数据注入故障;6)在排除某故障前,注入另一个故障;10T/AI XXX. XXXXXXb)可靠性测试,应实施以下操作:1)应编制并运行必要的测试代码: 实现故障注入命令调用接口;使用测试工具提供的指标计算方法及
23、实现: 使用测试工具提供的日志记录方法;2)故障注入准备时: 被测者提供的故障注入方法实现,在测试前获得测试者确实认;如使用人为操作注入故障,那么向测试者说明注入操作及相关照片或录像(如掉电操作 涉及的开关); 被测者提供的故障注入顺序在测试前获得测试者确实认;3)测试过程中: 可增加训期数或数据量,以提供足够的故障注入时间窗;如故障测试完毕,那么可提前结束训练或推理。7. 3测试结果要求可靠性测试结果应包含以下信息:a) 5. 4规定的测试信息;b)对同一故障工程,各次注入、排除的时点;c)故障注入脚根源码。11T/AI XXX. XXXXXX附录A(规范性)性能基础测试A.1人工智能计算中
24、心中训练服务器基础性能的测试方法基于5. 2的规定,在表A. 1中附加说明。表A. 1人工智能训练服务器基础性能测试技术要求(以下为第1局部中的章节号)测试方法(以下为本局部中的章节号)6. 1. 1 a)5.3 a)6. 1. 1 b)5.3 c),调用操作系统命令,检查内存(协议)类型6. 1. 1 c)5.3 b)6. 1. 1 d)5.3 a)6. 1. 1 e)5.3 c),调用操作系统命令,检查PCIE协议版本5.3 a),产品自声明并指出控制器6. 1. 1 f)5.3 a),检查物理组成5.3 c),调用操作系统命令,检杏USB协议版本6. 1. 1 g)5.3 a),检查物理
25、组成5.3 c),调用操作系统命令,检查网口个数及类型6. 1. 1 h)5.3 a)6. 1. 1 i)5.3 a),检查物理组成5.3 b),出具产品内部测试报告6. 1. 1 j)5.3 a)或c)调用操作系统或产品提供的指令,检查内存容量6. 1. 1 k)5.3 a)或c)调用操作系统或产品提供的指令,检查内存容量6. 1. 1 1)5.3 a),检查物理组成5.3 b),出具产品内部测试报告6. 1. 1 m)5.3 b)6. 1. 1 n)5.3 c),使用要求的内存,在操作系统中检查是否能够正常识别 和使用6. 1. 1 o)5.3 a),检查物理组成A.2人工智能计算中心中推
26、理服务器基础性能的测试方法基于5. 2的规定,在表A. 2中附加说明。12T/AI XXX. XXXXXX表A. 2人工智能推理服务器基础性能测试技术要求(以下为第1局部中的章节号)测试方法(以下为本局部中的章节号)6. 1.2 a)5. 3 a),检查物理组成5.3 c),调用操作系统或产品提供的命令,查看CPU基木信息6. 1.2 b)5.3 b)6. 1.2 c)5.3 c),调用操作系统命令,检查内存(协议)类型6. 1.2 d)5.3 c),调用操作系统命令,检查PCIE协议版本6. 1.2 e)5.3 a),检查物理组成5.3 c),调用操作系统命令,检查网口个数及类型6. 1.2
27、 f)5. 3 a),检查物理组成5.3 b),出具产品内部测试报告6. 1.2 g)5.3 a)6. 1.2 h)5.3 b)6. 1.2 i)5.3 b)6. 1.2 j)5.3 a)或c)调用操作系统或产品提供的指令,检查内存容量6. 1.2 k)5.3 a),检查物理组成13T/AI XXX. XXXXXX附录B(资料性)可靠性基础测试人工智能计算中心的基础可靠性测试,分别按表B. 1, B.2, B.3和B.4实施。表B.1加速器可靠性测试技术要求测试方法(以下为第1局部中的章节号)(以下为本局部中的章节号)7. 1. 1 a)5.3 c),按第7章的规定测试7. 1. 1 b)5.
28、3 b)7. 1. 1 c)5.3 c),按第7章的规定测试7. 1. i d)5.3 c),按第7章的规定测试7. 1. 1 e)5.3 b)7. 1. 1 f)5.3 b)7.1.1 g)5.3 b)7. 1. 1 h)5.3 c)关闭调试接口,并尝试调试7. 1. 1 i)5.3 b)或5. 3 c)加密任意样例数据(如训练数据集)7.1.1 j)5.3 b)7. 1. 1 k)5.3 b)7. 1. i 1)5.3 b)7. 1. 1 m)5.3 b)7. 1. 1 n)5.3 a)检查漏洞披露、管理柒道和界面(如网站)表B. 2节点可靠性测试技术要求(以下为第1局部中的章节号)测试方
29、法(以下为本局部中的章节号)7. 1.2 a)5.3 b)7. 1.2 b)5.3 a)7. 1.2 c)5.3 a),检查风扇及模组5.3 b)7. 1.2 d)5.3 b)7. 1.2 e)5.3 b)14T/AI XXX. XXXXXX7. 1.2 f)5.3 b)7.1.2 g)5.3 b)7. 1.2 h)5.3 a),检查机箱面板和锁功能7. 1.2 i)5.3 b)7. 1.2 j)5.3 c),按第7章提出的方法测试7. 1.2 k) 1)5.3 a),检查物理组成5.3 c),装配两块硬盘,在运行时拔出非系统硬盘,系统提出警 告,但仍能工作7. 1.2 k) 2)5.3 a)
30、7. 1.2 k) 3)5.3 a),检查电源模组5.3 c),在系统运行时,卸载、拔出或失能某1模组,系统提出 警告,但仍能工作7. 1.2 k) 4)5.3) b)7. 1.2 k) 5)5.3 b) , 5.3 c)运行时关掉电源,再启动后查看所保护数据的完 整性7. 1.2 1) 1)5.3 a),检查电源模组5.3 c),在系统运行时,卸载、拔出或失能某1模组,系统提出 警告,但仍能工作7. 1.2 1) 2)5.3) b)7. 1.2 1) 3)5.3 b)表B. 3网络可靠性测试技术要求(以下为笫1局部中的章节号)测试方法(以下为本局部中的章节号)7. 1.3 a)5.3 c),
31、按第7章提出的方法测试7. 1.3 b)5.3 b),提供应用案例7. 1.3 c)5.3 b),提供应用案例7. 1.3 d)5.3 b),提供应用案例7. 1.3 e)5.3 b),提供应用案例7. 1.3 f)5.3 b),提供应用案例7.1.3 g)5.3 b),提供应用案例7. 1.3 h)5.3 b),提供应用案例15T/AI XXX. XXXXXX7. 1.3 i)5.3 b),提供应用案例表B.4整体及其它部件可靠性测试技术要求(以下为第1局部中的章节号)测试方法(以下为本局部中的章节号)7. 1.4 a)5.3 a),出示标准符合性检验报告,或5.3 b)举证7. 1.4 b
32、)5.3 b)7. 1.4 c)5.3 b)7. 1.4 d)5.3 c),调用操作系统或配套软件命令,检查设备状态7. 1.4 e)5.3 c),调用操作系统或配套软件命令,检查设备状态7. 1.4 f)5.3 c),调用操作系统或配套软件命令,检查设备状态7.1.4 g)5.3 c),配置容错策略7. 1.4 h)5.3 b),举证故障分级内容5.3 c)配置基于故障分级的容错策略7. 1.4 i)5.3 b)7.1.4 j)5.3 b)7. 1.4 k)5.3 b)7. 1.4 1)5.3 c),按第7章的规定测试7. 1.4 m)5.3 c),按第7章的规定测试7. 1.4 n)5.3
33、 c),按第7章的规定测试7. 1.4 o)5.3 a)16T/AI XXX. XXXXXX参考文献1 ISO/IEC FDIS 229892022 Information technology Artificial intelligence Artificial intelligence concepts and terminologySISO 10303.342001 Industrial automation systems and integration Product data representation and exchange Part 34: Conformance test
34、ing methodology and framework: Abstract test methods for application protocol implomentationsST/AI XXX. XXXXXX目 次前言II弓I言Ill1范围12规范性引用文件13术语14缩略语25概述25. 1测试框架25.2组成、供应链检查25. 3基础测试36. 4测试信息36性能扩展测试47. 1训练测试68. 2推理测试87可靠性扩展测试99. 1测试过程910. 测试规那么1011. 测试结果要求11附录A (规范性)性能基础测试 12附录B (资料性)可靠性基础测试 14T/AI XXX
35、. XXXXXX本文件按照GB/T 1. 1-2020标准化工作导那么第1局部:标准化文件的结构和起草规那么的规定 起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承当识别专利的责任。本文件由新一代人J:智能产业技术创新战略联盟A1标准作组提出,本文住由中关村视听产业技术创新联盟提出并归口。本文件起草单位:鹏城实验室、清华大学、北京大学、北京市商汤科技开发、中科寒武纪 科技股份、华为技术、上海燧原科技、百度在线网络技术(北京) 平安科技(深圳)。本文件主要起草人:任志祥、陈文光、曾炜、吕文静、张鹏、赵海英、汪邦虎、张世雄、李假设尘,L 李志永丁、肖京、张世雄吴庚I笫又新、赵轩、黄乾
36、明、黄岩哲、姚伟峰、侍国斌、桂煌、赵淑静、 张胴、吕文静、胡敏、边思雨、熊亮、陈乂新。T/AI XXX. XXXXXXT/AI XXX人工智能算力技术规范拟由以卜局部构成:一一第1局部:技术要求。目的在于确定人工智能计算中心的组成、性能、可靠性技术要求用转 于确立数字视网膜系统的参考架构、功能要求、通信流程和数据接口等内容第2局部:测试方法。U的在于确于人工智能计算中心性能、可靠性特性的测试方法,实现对 为系统优化、瓶颈发现提供试验依据。本文件的发布机构提一请注意,声明符合本文件时,可能涉及到XX、XX中如下X项相关专利的使用。 如下xxx项专利的使用,专利名称如-下:CNxxxxx. 1,
37、xxxxxx;本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。该专利持有人已向本文件的发布机构保证,他愿意同任何申请人在合理且无歧视的条款和条件-下, 就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,相关信息可以通过-以下 联系方式获得:联系人:黄铁军(新一代人工智能产业技术创新战略联盟秘书长)通讯地址:北京大学理科2号楼2641室邮政编码:100871电子邮件:ljhuangpku. : ait isa. org. cn联系人:通讯地址海淀座花园路2号牡丹创业榔共邮政编码:_共。191-010 - 822821770母.? 一Imp:/ ww. aitisa.
38、 org. on请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承当识别这些专利 的责任。IIIT/AI XXX. XXXXXX人工智能算力中心技术规范第2局部:测试方法1范围本局部规定了人工智能计算中心性能、可靠性特性的测试方法。本局部适用于人工智能计算中心性能、可靠性特性的测试与评定,也可为系统优化、瓶颈发现提供 试验依据。2规范性引用文件本文件没有规范性引用文件。3术语第1局部界定的以及以下术语和定义适用于本文件。3. 1被测系统 system under test一次测试中,处理测试者给出的测试作业,并返回结果的系统。注:被测系统可由人工智能服务器系统硬件、算子实
39、现库、框架软件、模型编译组件及其他必要软硬件组成。3.2被测者 tested party一次测试中,筹备、操作被测系统实施测试,并按测试协议的规定享有测试结果使用权的机构或个 人。3.3测试数据test data测试集用于测试最终机器学习模型功能的数据。来源:ISO/IEC FDIS 229892022, 3. 2. 14测试者tester组织、开展测试的机构或个人。注:测试者使用测试系统实施测试,它向被测系统发送作业,接收输出,计算性能指标。T/AI XXX. XXXXXX测试系统test system执行测试所使用的硬件、软件及数据。注:测试系统不是被测系统中的框架软件或加速库。来源:IS
40、O/IEC 10303. 342001, 3. 5. 9作业Job含有测试样本的数据包。注:1个作业可含有1个或多个测试样本。3.4训练数据training data训练集用于训练机器学习模型的数据。来源:ISO/IEC FDIS 229892022, 3. 3. 16验证数据 va I i dat i on data验证集用于评估一个或多个备选机器学习模型功能数据样本。来源:ISO/IEC FDIS 229892022, 3. 2. 15,去掉了注释4缩略语AUT0ML自动机器学习(Automated Machine Learning)NFS网络文件系统(Network File Syste
41、m)OS操作系统(Operating System)PCIE外设部件互联高速通道(Peripheral Component Interconnect Express)5概述5.1测试框架人工智能计算中心的测试包含以下内容,可按测试需求采用和实施:a)计算中心组成和供应链的检查(5.2);b)性能或可靠性测试,分别分为基础测试(5.3)和扩展测试(第6章,第7章)。基础测试检 查第1局部中6. 1和7. 1中基础要求的符合程度。扩展测试检查、比拟实际可靠性和性能水 平。5. 2组成、供应链检查按5. 3 a),检查人工智能计算中心组成及供应链对第1局部中5. 2和5. 3的符合程度。T/AI X
42、XX. XXXXXX5. 3基础测试人工智能计算中心基线技术要求的测试,应对第1局部中6. 1和7. 1中各项要求,采用以下方法 (见附录A和附录B)加以检查或验证,包含但不限于:a)检查产品物理组成、说明书、技术文件、应用案例、相关记录或产品自声明(如标识、官方网 站);b)检查计算中心或其内部基础设施(如服务器等)提供者出示的内部测试报告或过程记录;c)在特定环境中调用命令、函数、运行测试程序或实施操作,验证功能正确性。5. 4测试信息测试前,被测者应向测试者提供以下测试信息,在实施性能或可靠性基础测试时,测试信息应包含 a) , b) , d) -1),在实施性能扩展测试时,测试信息应包
43、含a) -u),在实施可靠性扩展测试时,测 试信息应包含a) -1) , o) -s) , v)和w):a)被测者组织名称;b)是否训练(0-推理、一训练);O 模型编号(见第1局部中表1);d)提交时间(格式yyyy:MM:ddss);e)节点数;f)每节点信息节点型号、节点功能、节点标称计算能力、节点芯片数;注1:应注明对应精度。注2:节点功能包含:通用计算、人工智能计算、交换、路由、存储、其它。g)节点间通信协议和带宽;h)节点间组织关系(0-单节点、厂主从、2-环形、3-树状、4-其他);i)操作系统标识(名称、内核版本号);j)机器学习框架标识(名称、版本号);k)是否应用虚拟化技术
44、(0-不使用、1-使用);1)虚拟化组件标识(名称、版本号);m)批(minibatch)大小(batch size)可变标识(0-不可变、1 -可变);n)批(minibatch)大小的值正整数,仅当q)为0时有效;o)优化器声明(算法名);P)是否混合精度训练(仅对训练有效,0-不使用、1-使用,附加精度列表);q)是否使用AUT0ML完成测试(0-不使用、1 -使用,附加AUT0ML算法名称);r)是否使用并行训练(0-不使用、1-模型并行、2-数据并行、3-混合并行、4-其他并行算法,算 法名称);s)并行训练时,是否采用异步参数更新0-不使用(即同步更新)、使用;t)是否使用稀疏化(对推理有效,0-不使用、1-使用,附加方法名称);u)是否使用量化(对推理有效,0-不使用、1-使用,附加量化方法名称);v)故障工程列表包含每项故障的编号(见第1局部中表2)及顺序;w)故障工程的注入脚木、实施方案及对应的排除方式。