详解华为12种数据采集技术及应用实践.docx

上传人:太** 文档编号:86434987 上传时间:2023-04-14 格式:DOCX 页数:13 大小:517.40KB
返回 下载 相关 举报
详解华为12种数据采集技术及应用实践.docx_第1页
第1页 / 共13页
详解华为12种数据采集技术及应用实践.docx_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《详解华为12种数据采集技术及应用实践.docx》由会员分享,可在线阅读,更多相关《详解华为12种数据采集技术及应用实践.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、详解华为12种数据采集技术及应用实践导读:数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、平安的数据获取。随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。数据感知能力架构如图1所示。数据感知图片数据接入数据存储硬感知视频接入方式结构化数据文档批次接入实时接入按需接入埋爬系点虫统榜郸卡FID条二树RF音频接入工具备器设 像音频感业 图语视传

2、工数据流 CLI Message ETL Queue Data StreamReplication Processing DataDiscovery非结构化数据推荐存储介质 RDBMS: SQL Server, DB2, Oracle, MySQL Document DB:MongoDB, ArangoDB, Hbase, HDFS, OrientDB, Elastic, gunDB Object DB:Versant, db4o, Objectivity, JADE, N Database Graph DB:Neo4J, Infinite Graph, Sparksee, AllegroGr

3、aph, WhiteDB图1数据感硬感知主要利用设备或数据感知可分为硬感知和软感知”,面向不同场景。装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而软感知使用软件或者各种技术进行数据收集,提供的对象存在于数字世界,通常不依赖物理设备进行收集。如图2所示。1他QI感硬知W米B辕传感器数据采集图7 3类软感知1 .埋点埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为 或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当 需要关注的事件发生时进行判断和捕获。埋点的主要作用是能够帮助业务和数据分析人员

4、打通固有信息墙,为了解用户交互行为、 扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通 过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活 跃用户数等。这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营 状况,通过分析埋点获取的数据,制定产品改进策略。埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求, 匹配使用。代码埋点是目前比拟主流的埋点方式,业务人员根据自己的统计需求选择需要 埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在 想要获取数据的统计点上。可视化

5、埋点通过可视化页面设定埋点区域和事件ID ,从而在用户操作时记录操 作行为。全埋点是在SDK部署时做统一的埋点 App或应用程序的操作尽量多地采集 下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生 的信息全采集下来。2 .日志数据采集日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目 的是识别运行错误、配置错误、入侵尝试、策略违反或平安问题。在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。操作日志,指系统用户使用系统过程中的一系列的操作记录。此日

6、志有利于备 查及提供相关平安审计的资料。运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。平安日志,用于记录在设备侧发生的平安事件,如登录、权限等。3 .网络爬虫网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规那么自动抓取网页信息的程序或者脚本。搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的开展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最正确实践。Python. Java. PHP、C#、G。等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及

7、,也促成了政府、企业界、个人对信息平安和隐私 的关注。四.软感知能力在华为的实践软感知主要面向产品持续运营提供服务,基于对产品日志、用户行为的感知,改善产品功能。以华为内部数据管理平台为例(如图8所示),数据管理平台的数字化运营,需要识别用户行为,进而提升运营效率与用户数据消费的体验。IT秋访同标整SupplyDWI就理衰洋情页宜16B咨询与系蜕集成解决方案开发部图8数据管理平台用户标签 通过对平台埋点,捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信 息,并关联用户的部门、职位、所在地等信息,自动生成用户画像和数据画像,确定细 分用户范围,界定相同认知背景和业务场景的用户,提供可

8、识别的分类资产用于搜索, 界定数据资产分类,面向不同用户界定不同的资产范围,减少匹配差异和搜索引擎复杂 度,训练搜索引擎和推荐算法,提供最优数据推荐结果和排序位置。12类感知能力在企业中的应用,突破了原有人工维护数据的局限。但是不管是软感 知还是硬感知,产生的数据在没有纳入企业整体的数据管理体系情况下,如果只 以独立数据的形式存在,是无法应对复杂的企业数字化变革的。a使用软件或者各种程序进行数忙收集. 提供的对象存在于敬宁世界,通常不 依,物理设备进行收集数据感知的过程发生在数字世界,通常 星自动运行的程序或脚本埋点、System Log、网络爬虫利用设备或装百进行数据的收集,收集 对象为物理

9、世界中的物理实体,或者是 以物理实体为载体的信息.事件、流程、 状态等道的感知过程是数据从物理世界向数字世界的转化过程,有些数据感知需要人的操作语音、视装.OCR. RFID.条形码/ 二维码.传感器、工控设箭一图2感知分类一,基于物理世界的硬感知能力自动采集技术仍在开展中,不自动采集技术仍在开展中,不数据采集方式主要经历了人工采集和自动采集两个阶段。同的应用领域所使用的具体技术手段也不同。基于物理世界的硬感知依靠的就是数 据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现 人工智能的基础。基于当前的技术水平和应用场景,我们将硬感知分为9类,每一类感知方式都有自 身的

10、特点和应用场景,如图3所示。磁卡软感知硬/产知据知数感/传感器数据采集图39类硬感知.条形码与二维码条形码或者条码是将宽度不等的多个黑条和空白,按一定的编码规那么排列,用以表达一 组信息的图形标识符,通常一维条形码所能表示的字符集不过10个数字、26个英文字 母及一些特殊字符,条码字符集所能表示的字符个数最多为128个ASCII字符,信息 量非常有限。二维码是用某种特定的几何图形按一定规律在平面上分布的黑白相间的图形,用来记录 数据符号信息。二维码拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据 库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修 正及防伪功能

11、,增加了数据的平安性。1 .磁卡磁卡是一种卡片状的磁性记录介质,利用磁性载体记录字符与数字信息,用来保存身份 信息。视使用基材的不同,可分为PET卡、PVC卡和纸卡三种;视磁层构造的不同, 又可分为磁条卡和全涂磁卡两种。磁卡的优点是本钱低,这是它容易推广的原因,但缺点也比拟明显,例如卡的保密性和 平安性较差,使用磁卡的应用系统需要有可靠的计算机系统和中央数据库的支持。2 . RFIDRFID ( Radio Frequency Identification ,无线射频识别)是一种非接触式的自动识别 技术,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电 子标签或射频卡)进

12、行读写,从而到达识别目标和数据交换的目的。基于特别业务场景的需求,在RFID的基础上开展出了 NFC( Near FieldCommunication ,近场通信)。NFC本质上与RFID没有太大区别,在应用上的区别 如下。NFC的距离小于10cm,所以具有很高的平安性,而RFID距离从几米到几十米 都有。NFC仅限于13.56MHz的频段,与现有非接触智能卡技术兼容,所以很多的厂 商和相关团体都支持NFCO而RFID标准较多,难以统一,只能在特殊行业有特殊需求 的情况下,采用相应的技术标准。RFID更多地被应用在生产、物流、跟踪、资产管理上,而NFC那么在门禁、公交、手机支付等领域发挥着巨大

13、的作用。3 . OCR 和 ICROCR( Optical Character Recognition ,光学字符识别)是指电子设备(例如扫描仪 或者数码相机)检查纸上打印的字符,通过边检测暗、亮的模式确定其形状,将其形状 翻译成计算机文字的过程。如何除错或利用辅助信息提高识别正确率,是OCR的重要 课题。ICR (Intelligent Character Recognition ,智能字符识别)是一种更先进的 OCR。它 植入了计算机深度学习的人工智能技术,采用语义推理和语义分析,根据字符上下文语 句信息并结合语义知识库,对未识别局部的字符进行信息补全,解决了 OCR的技术缺 陷。一个OC

14、R识别系统,从影像到结果输出,须经过影像输入、影像预处理、文字特征抽 取、比对识别,最后经人工校正将认错的文字更正,将结果输出。目前OCR和ICR技术在业界有较为成熟的解决方案供应商,非数字原生企业不需要自 行研发就可以完成相关技术的部署和数据的采集。4 .图像数据采集图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的 目标和对象的技术,是深度学习算法的一种实践应用。图像数据采集的步骤如图4所示。对象描述擢为通过取像设备读取指纹图像,然后用计II机识别软件分析指纹的全局特征和指纹的局部特征虹81识别技术是利用虹81终身不变性和差异性的特点来识别身份的。虹演虹服是一种在

15、眼睛中通孔内的织物状的各色环状物,每个虹81都包含一个独一无二的基于水晶体、细丝、斑点、凹点、皱纹和条纹等特征的结构视网膜人体的血管纹路也是具有独特住的,人的视网谟上面血管的图样可以利用 光学方法透过人眼晶体来测定面部识别技术通过对面部特征和它们之间的关系(眼通、鼻子和瞒的位 面部以及它们之间的相对位置)来迸行识别,用于插提面部3E像的两项技术为标准视频和热成像技术,视频摄像头不同,热成像技术并不需要较好的光 源,即使在黑曜情况下也可以使用掌纹与指纹一样也具有穰定性和唯一性,利用掌纹的线特征、点特征、纹 拿纹 建特征、几何特征等完全可以确定一个人的身份,因此掌纹识别是于生mr身份认证技术的要内

16、容人苴一套完赘的人耳自动识别系统一般包括以下几个过程:人耳9B像采集、图图4图像采集步骤6.音频数据采集人“像的预处理、人耳图像的边缘检测与分割、特征提取、人耳图像的识别语音识别技术也被称为动语音识别(Automatic Speech Recognition , ASR ),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件。目前音频数据采集技术在业界也有较为成熟的解决方案供应商,可以很便捷地通过解决方案供应商的技术,完成技术的部署和数据的采集。采集来的声音作为音频文件存储。音频文件是指通过声音录入设备录制的原始声音,直 接记录了真实声音的二进制采样数据,是

17、互联网多媒体中重要的一种文件。音频获取途 径包括下载音频、麦克风录制、MP3录音、录制计算机的声音、从CD中获取音频等。7 .视频数据采集视频是动态的数据,内容随时间而变化,声音与运动图像同步。通常视频信息体积较大, 集成了影像、声音、文本等多种信息。视频的获取方式包括网络下载、从VCD或DVD中捕获、从录像带中采集、利用摄像 机拍摄等,以及购买视频素材、屏幕录制等。8 .传感器数据采集传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换 成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记 录等要求。信号类型包括正PE信号、电流信号、电压信号、

18、脉冲信号、I/O信号、电 阻变化信号等。传感器数据的主要特点是多源、实时、时序化、海量、高噪声、异构、价值密度低等, 数据通信和处理难度都较大。9 .工业设备数据采集工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或 上报数据。工业设备和系统能够采集、存储、加工、传输数据。工业设备目前应用在很 多行业,有联网设备,也有未联网设备。工业设备数据采集应用广泛,例如可编程逻辑控制器(PLC)现场监控、数控设备故障 诊断与检测、专用设备等大型工控设备的远程监控等。二、硬感知”能力在华为的实践硬感知在非数

19、字原生企业有广阔的前景,因为在数字化时代,非数字原生企业大量 存在的产线、流程工艺、实体货物、物流设备等,都需要通过硬感知”来实现数据的 感知和采集。华为作为典型的非数字原生企业,9类数据硬感知”能力在各领域中都 得到了一定的应用,并已发挥了实际的业务价值。1 .门店数字化如图5所示,采用7种数据采集方式,支支撑续提升运营效率与消费者体验。通过光线传感器和温度传感器,自动调节窗帘、灯光,温度随环境改变,并与 店门、窗帘、灯光、空调、屏幕、防盗系统联动,打造智能绿色门店环境。通过实物管理感知,样机自动申报位置与状态,异常告警,自动上报消费者在 门店体验过程中的行为,结合消费者体验情况优化陈列、营

20、销设计、产品设计。通过视频感知客流与热区,管理门店各片区人流密度与停留时间,优化陈列与 营销,实时调整服务人力与资源配置。到店体蛤购买获消费者门店体怆旅程识8喀户选购产品/ 配件官网、App或到访门店微信等社交媒体 9自助体啦产品/服务信息导购介18产品/服务信息购买&支付配套服务及雄a -wrw日H 七j采集工具采集工具I图像采集传感器埋点(样机)1S点(自助设得) 条形码旗卡库存:库存数 消耗速度 实物散服务:排队时长 服务时长 服务满意度采集的数据环境畋据:消费者行为:设窗状态:消费者行为:体验顾问服务:温度样机体赛数据亮度产品体蛤偏好湿度是否开机是否在原位产品点击整 产品停留时长 使用

21、率与照买转化连带销售胞物方式偏好产品偏好连带销售服务满意度图5门店数字化2 .站点数字化如图6所示,站点主要在高层或者在野外环境中,勘测和日常维护难度都比拟大,通过360度全景拍照和OCR,构建站点物理对象完整的围栏尺寸、塔高、机房尺寸、设备尺寸、天线挂高、走线距离、天线的方位角、下倾角、扇区等数字镜像,实现在数字化 站点勘测规划,现实站点直接施工,防止在现场反复勘测、设计调整。数字化站点(规划设计)现网站点数字化规划设计:网络规划、站点设计、工程设计目标站点数字化现实站点(作业实施)现网还原现网站点实体目标站点实体图6站点数字化三,基于数字世界的三,基于数字世界的软感知能力物理世界的硬感知是将物理对象构建到数字世界中的主要通道,是构建数据李生的 关键,而已经存在于数字世界中的那些分散、异构信息,可通过软感知能力来利用。3前软感知“比拟成熟,并随着数字原生企业的崛起而得到了广泛的应用。我们将软感知分为3类,如图7所示。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁