《2022年流数据管理系统降载技术综述 .docx》由会员分享,可在线阅读,更多相关《2022年流数据管理系统降载技术综述 .docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 流数据治理系统降载技术讨论综述 潘静 , 高学东 北京科技高校经济治理学院,中国北京 100083 摘要 关键字 Abstract 1 引言2 流数据治理系统降载技术概述 2.1 流数据治理系统降载处理降载处理主要由以下三个方面构成;(1)降载时间:数据流的速度是常常不断变化的;数据的处理速度必需要超过数据 输入的速度 87 ,一旦超载就应当能尽快检测到,丢弃部分数据,降低系统负载,保证系 统正常运行;文章 88提出了一种检测数据流速率跳变的算法;(2)降载的位置:假如在查询中没有共享操作,优先的方案是在每个查询的查询路径中第一个操作前面插入降
2、载操作,且降载操作的抽样比与该查询的抽样比相同;假如查 询中有共享操作,这时要插入降载操作就较为复杂;此时要对两查询都有影响应当是在查 询路径的共享部分插入降载操作;通过预先设置的规章确定降载的位置和数量;(3)降载数据量:依据每个流数据的输入速度、操作的挑选率和降载操作的抽样比 等参数可运算出降载后输出的速度;打算降载的量实际上是在确保系统不超载情形下,选择合适的降载抽样比,使输出速度最大;由于降载是删除未处理的元组,故降载会对查询名师归纳总结 - - - - - - -第 1 页,共 5 页精选学习资料 - - - - - - - - - 结果东的精确性产生影响,也就表达所谓的近似查询;2
3、.2 降载方式 降载方式主要有:随机降载、语义降载;随机降载通过在网络的某点随机地挑选丢弃元组的比例进行丢弃,当用这个方法来使整个系统的效用缺失达到最小时,却不能掌握由于删除元组而产生的对应用语义的影响,其中文;语义降载是一种运用可控的方法来丢弃元组,它是使用过滤技术丢弃相对不重要的元组,而不是随机地丢弃元组;最常用的有两种策略:葡萄酒策略、牛奶策略;葡萄酒策略认为旧数据比新数据更重要,丢弃数据时第一丢弃新数据;与此相反,牛奶策略就认为新数据策略比较重要,必要时第一丢弃旧的数据;3 原型系统及其降载技术分析3.1 STREAM 系统降载STREAMStanford StreamDataMana
4、ge是斯坦福高校设计的DSMS 原型实现,该系统为是以关系为基础的流数据治理系统,完成内存治理和近似查询;可以用于处理快速的、易变的、大量涌入的流数据信息,其连续查询才能特别好;STREAM的主要处理技术包括 :连续的自我监控和再优化;适应于各种需求的近似查询;合理的资源安排和使用;可以支持多种查询语言;STREAM 通过降载来达到适当的性能降低;把降载作为一个优化问题来处理,目标函数是查询结果不准性达到最小,其降载集中在集合查询上,并提出了相应的降载算法;名师归纳总结 STREAM降载技术是在查询方案中引入随机抽样操作,每个降载器对抽样比p 进行参第 2 页,共 5 页数化;概率p 是通过本
5、操作流到下一个操作的元组比;为了补偿由于元组删除带来的损- - - - - - -精选学习资料 - - - - - - - - - 失,系统运算出集合值的适当比例从而产生无偏近似结果;STREAM 的降载处理主要是由系统输入,统计治理器和降载治理器三部分构成;其中,系统输入:流数据:S 1, , S;流数据上的查询集合 q1 , q;查询操作集合 O1 , , Ok 统计治理器 :对参数值进行估值,对处理元组的个数、操作的输出和总的操作处理时间进行统计报告;降载治理器:在统计的基础上,系统对操作的挑选率、操作的处理开销和流数据的速率进行估值;当流的到达速率和数据特点发生变化时,相应的负载要脱落
6、,确定降载的位置;STREAM 系统是通过统计治理器周期性地更新降载输入参数的估量值,降载方案也是周期性地转变;如图图 STREAM 系统降载示意图名师归纳总结 3.2 TelegraphCQ系统降载第 3 页,共 5 页- - - - - - -精选学习资料 - - - - - - - - - 3.3 AROURA 系统降载AROURA 系统是由布朗高校、布兰代斯高校和麻省理工高校联合开发的流数据处理系统,核心是一个庞大的触发器网络,目标是特地处理流式监控,是一个面对工作流的系统; Aurora 系统的每个触发器是一个数据流向图,每个节点就是七种 Built-in 操作中的一个;对每一个使用
7、 Aurora 的应用,应用治理器创建一个或多个触发器加入到 Aurora 的触发器网络中;Aurora 系统实现了触发器网络的编译优化和运行优化;它答应用户通过支配 boxes 操作符 和 arrows 数据的流向 来建立查询方案;数据流是一个潜在的无穷元组队列,这些元组由一个数据源产生;可能的数据源如硬件传感器,它连续地将数据推向 A 盯 ora ;Aurora 可以处理大量查询,这些查询由7 个简洁的操作符组成的重复集合构成;一个查询可以处理任意数量的数据流,并常常以一个输出流终止;一个操作符可以被连接到多个下游的操作符;全部这样的分裂点能够向其下游的多个操作符传送同样的元组,并且能够在
8、不同的查询之间共享运算;由于一个操作符能够接受多流输人,所以多流也能被合并;一个 Aurora 查询网络就是这样的查询构成的集合;实施卸载是由在查询网络中插人卸载操作符来实现的;3.4 Borealis 系统降载5 流数据降载策略比较6 终止语名师归纳总结 - - - - - - -第 4 页,共 5 页精选学习资料 - - - - - - - - - 参考文献91 87Ayad A.,Naughton J.F.Static optimization of conjunctive queries with slidingwindows over infinite streams.SIGMOD 2004. 88Zhou A.,Qian W.,Qin S.Adaptively detecting aggregation bursts in data streams. DASFAA,2005. 名师归纳总结 - - - - - - -第 5 页,共 5 页