《一文了解 AI 商品模型训练平台.docx》由会员分享,可在线阅读,更多相关《一文了解 AI 商品模型训练平台.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一文了解AI商品模型训练平台AI平台的初衷永远是进步开发效率加快算法迭代周期。通过产品化AI技术让运营人员可以更贴近技术更好地指导赋能业务场景给客户带来更好的技术体验以及产品体验。本文是2020年度的正式第一文介绍了人工智能领域深度学习平台的相关信息内容包括AI平台的根本介绍、系统架构、实现难点以及相关才能。接下来围绕着自身搭建商品模型训练平台案例共享相关设计经历内容包括业务场景、训练平台系统架构的规划、数据以及模型中心、投产比问题以及相关总结。一、关于AI平台1.1AI平台介绍AI模型训练平台基于核心模块以及应用场景不同又可以称作深度学习平台、机器学习平台、人工智能平台以下统称做AI平台。A
2、I平台提供业务到产品、数据到模型、端到端线上化的人工智能应用解决方案。用户在AI平台可以使用不同的深度学习框架进展大规模的训练对数据集以及模型进展管理以及迭代同时通过API以及本地部署等方式接入到详细业务场景中使用。简单理解AI平台AISAASPAASIAAS。以下是腾讯DI-X以及阿里PAI平台的介绍DI-XDataIntelligenceX是基于腾讯云强大计算才能的一站式深度学习平台。它通过可视化的拖拽布局组合各种数据源、组件、算法、模型以及评估模块让算法工程师以及数据科学家在其之上方便地进展模型训练、评估及预测。阿里云机器学习平台PAIPlatformofArtificialIntell
3、igence为传统机器学习以及深度学习提供了从数据处理、模型训练、效劳部署到预测的一站式效劳。使用AI平台可以简化开发人员对数据预处理以及管理、模型训练以及部署等繁琐的代码操作加快算法开发效率进步产品的迭代周期并且通过AI平台能整合计算资源、数据资源、模型资源使用者能对不同资源进展复用以及调度。开放AI平台后也能有效进展商业化对企业所处领域的AI业务生态环境有一定的推动以及反应。国内外相关的AI平台有国内华为ModelArts阿里云PAI百度PaddlePaddle腾讯DI-X深度学习平台金山云人工智能平台qingcloud人工智能平台京东JDAINeuFoundry小米Cloud-ml平台国
4、外MicrosoftAzureMachineLearningAWSMachineLearningGoogleCloudPlatform1.2AI平台系统架构基于一个企业整体系统的架构来看AI平台可视为业务的技术支撑中台之一平行于数据中台起到承上启下承载业务对接技术底层的作用。假设一个企业当前已有数据中台那么可将数据中台作为AI中台的数据输入以及数据输出系统对象AI中台作为业务前台的模型以及算法供应平台。假设业务前台有AI需求如图像识别、语义识别、商品推荐等算法运营团队那么通过在AI平台对模型的训练迭代以支持。根据企业不同的规模、资源以及业务场景其AI平台会有不一样的定位。例如AI以及数据可同为
5、一个中台、AI平台可视为业务中台一局部、AI平台整合进技术中台或者后台等。规模较小、资源有限的企业通常会选择使用第三方AI平台对业务进展效劳而非自建AI平台。企业架构例如AI平台作为AI中台关于AI平台自身的架构设计各第三方平台都大同小异主要是技术架构上的不同暂时没有必要去深化研究。这里以京东NeuFoundry神铸工程系统架构为例初探一二NeuFoundry平台架构图NeuFoundry根底设施层采用Docker容器进展算力资源的池化通过Kubernetes进展整体的资源管理、资源分配、任务运行、状态监控等平台集成了MySQL、Redis、MQ等多种中间件效劳通过数据标注、模型训练、模型发布
6、生成自定义的AI才能为各行各业的业务效劳提供有力的支撑。1.3AI平台实现难点1大数据处理问题在当前阶段AI底层技术原理决定了“有多少数据模型才能就有多好的情况。同时企业在日常业务运行中会不断产生新数据。当数据需求以及客观数据量都很大大数据的管理以及处理才能对于一个AI平台来讲是最根底的才能开发人员需要结合AI模型训练任务的制定合理的数据调度方案同时对数据进展生命周期的管理如定期的删除冗余数据、不规那么数据。2分布式计算大数据的处理、模型的训练都特别消耗资源。假如业务场景复杂模型训练时间长或样本规模大超过单台效劳器才能时需要支持分布式训练。微博深度学习训练集群的解决方式是以TensorFlow
7、分布式运行方式为例进展讲明如图5所示。一个TensorFlow分布式程序对应一个抽象的集群集群cluster由工作节点worker以及参数效劳器parameterserver组成。工作节点worker承当矩阵乘、向量加等详细计算任务计算出相应参数weight以及bias并把参数汇总到参数效劳器参数效劳器parameterserver把从诸多工作节点采集参数汇总并计算并传递给相应工作节点由工作节点进展下一轮计算如此循环往复。3AI平台实现的最大瓶颈在于企业对AI平台投产比的权衡顶层、中层、执行层对AI平台的价值认知这一点会在下文重点讲明。1.4AI平台相关才能AI平台不仅需要提供AI开发流程所需
8、根底技能还需针对不同的用户产品经理、运营人员、算法工程师、不同的客户大企业、中小企业、传统企业、科技企业提供对应所需效劳。我将AI平台才能分为以下五类数据才能数据获取、数据预处理ETL、数据集管理、数据标注、数据增强模型才能模型管理、模型训练、模型验证、模型部署、模型处理、模型详情算法才能支持各种算法、深度学习、数据运算处理框架、预置模型、算法调用、对算法组合操作部署才能多重部署方式、在线部署、私有化部署、边缘端部署、灰度/增量/全量部署其他才能AI效劳市场、工单客服、权限管理、工作流可视化华为ModelArts平台技能二、AI商品模型训练平台设计经历共享2.1业务场景在日常经营的经过中每个新
9、的商品都需要进展数据收集、标注随后将数据扔进对应模型文件进展训练其中涉及非常多重复且繁琐的工作问题。将数据收集处理到模型训练部署的流程平台化可以极大提升开发效率让运营人员以及算法人员更好地分别针对场景以及模型进展管理。而且数据、模型可线上使用对于企业来讲是最核心的技术资源不过初期一直处在黑匣子状态只有算法人员可接触以及查看。所以在业务开展到达一定的阶段时就需要开场对其进展有效管理。本文的AI平台主要效劳零售行业商品模型训练的业务场景故称作AI商品模型训练平台。2.2系统架构综合资源、场景、效劳效率、商业化等多个维度去考量设计的商品模型训练平台主要以数据中心以及模型中心两大核心子系统组成一方面可
10、以以最小的开发资源实现涵盖了当前业务所需要的核心流程以及个性化流程另一方面也有利于平台后续的才能拓展以及进展商业化。AI商品模型训练平台数据中心主要效劳3点数据管理业务需求数据获取、数据处理、数据评估。其中涉及才能有数据集获取、数据集管理、数据增强、增强策略配置、数据标注、标注任务系统、半自动标注等。模型中心主要效劳3点模型管理业务需求模型训练以及验证、模型管理、模型部署。其中涉及才能有模型训练、参数配置、训练任务管理、训练状态可视化、模型文件管理、模型版本管理、模型状态管理、模型操作、模型处理、模型处理策略管理、模型部署、部署业务管理等。接下来针对核心的业务需求逐一讲明解决方案。2.3数据中
11、心2.3.1数据获取AI模型训练的第一步是对数据的获取此处的数据都为图片数据。数据的收集可以通过线下构建对应业务场景需要的环境进展拍摄收集可以以通过平台内已有数据线上数据、旧数据、第三方数据通过开源、付费购置、爬虫爬取多多种形式获取。线上数据集的处理多采用badcase重新标注、增强。爬取数据集爬取公开渠道如百度图片的对应label数据集并区分可用不可用。因数据集都为图片数据并且模型是基于深度学习技术构建故涉及到数据ETL、特征工程等一些处理暂时不需要后续可根据业务场景以及应用技术的拓展在技术架构以及平台架构补充上对应的才能。数据集获取完成后可以将数据按照不同的类型存放通过数据集管理页面进管理
12、。数据类型可以按照不同的维度区分1以标品以及非标品区分标品数据标品静态状态数据、标品动态状态数据非标品数据标品多角度数据、标品静态状数据、标品动态状态数据、其他异常情况数据。2以数据来源渠道区分线下构建不同的场景静态动态进展拍摄收集线上平台内已有数据线上数据、旧数据、第三方数据开源数据集、付费数据集、爬取数据集。3以数据格式区分图片、视频、其他格式2d、3d。4以数据使用性区分根本数据集、训练数据集含标注、验证数据集、异常数据集、自定义数据集。数据集应当有生命周期的管理以及备注信息以免在运营一段时间后数据量杂乱冗余。2.3.2数据处理局部场景的模型训练前需要对数据进展不同程度、不同方案的增强。
13、运营人员或者算法人员可以在数据增强的页面上选择对应的数据集以及数据增强策略对数据进展增强增强后的数据集将会同步以原数据的子文件形式在数据集管理中以“增强数据集类型展示。同时为适应多种业务场景以及加快数据增强实验的有效性可利用已实现的数据增强技术配置出多重数据增强方案。如旋转90。左右镜像。增亮2倍。比照度1.25倍。数据模糊3倍。在数据集资源管理整合完成后那么可以在平台上对数据进展标注。运营人员可以对平台上已有数据集进展标注可以以导入新的数据集文件进展标注。通常标注工作有对根本数据集没有标注过的进展标注或半标注半自动标注利用少量数据集生成的模型进展自动标注减少人工标注的工作量对异常数据集进展重
14、新标准对自定义数据集进展标注。标注方式支持图像分类标注、方形框标注、圆形框标注、多边形标注、语义分割标注、3d标注。标注内容有标品以及非标品也有其他需要标注的内容信息如手、人脸。2.3.3数据评估数据评估工作贯穿数据获取到数据处理整个经过其操作质量以及流程严密程度直接决定了数据质量的好坏间接决定了模型表现效果的好坏。在获取数据和对数据进展增强时运营人员根据通用规那么以及经历进展数据评估是否可用不确定的情况下需询问算法。但一般界定不确定的数据规那么根据商品、当前模型、当前需求、算法认知以及经历等多个因素确定不确定性比拟大现实中还是多以“个人经历为准那么。这一局部随着相关员工经历以及认知的增长一定
15、存在比拟大的优化空间。日常需要对已有的数据集进展定期检查、定量检查对数据质量以及标注质量有一定的回归验证。同样标注任务流程化包括标注任务指派、标注任务完成的多重审核、标注人员的任务完成度以及错误数据统计和对应的奖惩机制也是数据质量保证的重要环节。2.4模型中心2.4.1模型训练以及验证确保数据提供到位后运营人员或算法人员可以在模型训练的页面上选择模型选择对应的数据集以及对应的训练参数如AI算法和网络深度、训练step即可开场进展增量或者全量的模型训练。假如涉及GPU效劳器运算量等考量还可选择对应训练GPU效劳器。训练经过中训练状态的可视化的展示可帮助运营人员对当前训练任务的进度有所解析以便对损
16、失度停顿下降或其他异常等不符合预期的模型训练任务进展暂停、取消等操作解放算法人员的消费力。TensorBoard界面模型训练完成后可以对训练集的数据进展得出模型MAP、准确率、召回率等指标评估模型效果以及质量可以以选取未标注的验证数据集用模型进展识别对模型的质量进展验证。2.4.2模型管理初始的模型资源可通过外部文件导入或直接新增训练任务生成。通常来讲模型大局部时间处于“使用的状态线上的使用以及更新的使用故模型的管理主要针对模型的版本、模型的各种状态效劳状态、训练状态、模型的操作记录、模型的详细参数等四个方面进展。在模型有优化更新、替代、异常等情况下通过“模型管理“可以对模型进展操作如暂停效劳
17、复制模型、上线模型、删除模型等操作。有一些模型可能需要在比拟特殊的业务场景下运行例如边缘端、硬件资源有限、网络延迟较高进展所以针对该种情况也需要设计对模型进展压缩、调优等傻瓜式一键式处理方案目的也是减少开发在繁琐工程上的工作量。2.4.3模型部署在完成模型的训练生成模型并且对模型进展一定验证后可在模型部署对模型进展部署上线部署流程通常为灰度部署过渡到全量部署。在边缘端应用场景下可以以通过边缘端定期恳求拉取最新模型文件或通过边缘节点实现边缘端部署。2.5AI平台投产比权衡上文提到AI平台实现的最大瓶颈其实在于企业对平台投产比的权衡。团队内部经太多次沟通考量集中答复了以下三个问题最终才决定对平台进
18、展1.0的初步开发主要也是先验证效用为主。AI平台是否真的能支持业务整体效率开发效率、业务效率能有多大提升是否有潜在的实现后的未知本钱如算法人员需要花费大量时间教育运营人员使用某些模型训练功能能否使用数字对价值进展量化就算能量化是否又额外需要开发以及沟通本钱现有的第三方AI平台已支持大局部业务是否能先使用第三方AI平台进展业务链条的孵化个性化的数据处理以及训练业务是否可照旧可通过开发手动处理AI平台的商业化价值短期能否提现因为其他企业因数据平安问题不会安心使用同时也极度依赖企业的知名度假设短期无法表达在什么阶段可以表达关于价值权衡考量的问题没有标准化答案每个企业都以自身的资源、业务等多个因素综
19、合去考量相关决策者以及执行者对AI平台也有不一样的认知故主要是看不同企业各自最终讨论出的最优投产比是否能大于投入本钱后决定是否开发AI平台。总结不管是针对任何业务场景AI平台的初衷永远是进步开发效率加快算法迭代周期。通过产品化AI技术让运营人员可以更贴近技术更好地指导赋能业务场景给客户带来更好的技术体验以及产品体验。不仅如此企业从内部效劳起完善AI平台逐渐开放平台并对平台进展商业化效劳原来没有足够资源以及资金撬动AI技术的外部客户为互联网AI生态的开展也起到了推动的作用。AI平台的开展以及使用也是AI技术应用层面开展的重要节点代表了AI技术开场产品化更加落地更加贴近业务层也代表了企业有了更高效率的运用AI技术的方式。喜欢打酱油的老鸟