《2022年PP资源搜索技术调研 .pdf》由会员分享,可在线阅读,更多相关《2022年PP资源搜索技术调研 .pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、P2P资源搜索技术调研陈海宁(信息科学与工程学院信息0801)摘要:资源搜索机制作为 P2P 应用的核心技术,其目标是在 P2P 这种分布式动态环境中以最快的速度找到最多的满足用户要求的系统节点资源。对 P2P 网络中种类型搜索机制的原理与性能进行了分析与比较。关键词:计算机系统,P2P,搜索机制所有的计算机系统可分为集中式和分布式两类集中式系统,主要指IBM、HP 等小型机以上档次的系统,一个主机带多个终端。终端没有数据处理能力,运算全部在主机上进行。现在的银行系统,大部分都是这种集中式的系统,此外,在大型企业、科研单位、军队、政府等也有分布。集中式系统,主要流行与上个世纪。现在还在使用集中
2、式系统的,很大一部分是为了沿用原来的软件,而这些软件往往很昂贵。分布式系统是把各地不同地理位置的计算机集中起来形成一个系统.例如 DNS 服务器就是一个典型的例子.他把全世界的DNS 服务器通过internet 连接起来,全世界共有13 台根 DNS 服务器,但并不是存储有全世界的域名的.而是分配存储.例如.cn 的域名服务器在中国.当外国客户机要访问中国域名时先在本地服务器查(没有查到)-然后在本地主查到是中国的域名就到中国主服务器查.得到对应的IP 地址,然后去访问.分布式系统,一般采用客户机/服务器模式、多层、服务器集群等技术。是现在的主流分布式可进一步划分为C/S 和 P2P模式C/S
3、 模式可划分为扁平:所有的客户端仅仅和单个服务器(含重复服务器)通信,如传统的中间件分层:提高可扩展性,某层的服务器又作为更高层的客户端:如DNS服务器和文件系统一、什么是 P2P?为说明问题我们先打个比方:如果说局域网中的“网络邻居”是乡里乡亲,那么互联网中的“P2P”则是“天涯比邻”。P2P 是 peer-to-peer的缩写,peer 在英语里有“(地名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -位、能力等)同等者”、“同事”和“伙伴”等意义。这样一来,P2P 也就可以理解为“伙伴对伙伴”的意思,或称为对等联网。目前人们认为其在加强网络上人的交流、文件交换、分布
4、计算等方面大有前途。简单的说,P2P直接将人们联系起来,让人们通过互联网直接交互。P2P 使得网络上的沟通变得容易、更直接共享和交互,真正地消除中间商。P2P 就是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P 另一个重要特点是改变互联网现在的以大网站为中心的状态、重返“非中心化”,并把权力交还给用户。P2P 看起来似乎很新,但是正如 B2C、B2B 是将现实世界中很平常的东西移植到互联网上一样,P2P 并不是什么新东西。在现实生活中我们每天都按照P2P 模式面对面地或者通过电话交流和沟通。如果回顾一下,我们会发现在WWW 出现伊始P2P 就是互联
5、网的本质特征之一。人们各自建立网页、互相做链接,人们上网是沿着链接冲浪。那时的 web 是真正的“网”(web)。但是当Yahoo!和 Lycos 建立了搜索引擎和门户站点后,人们上网的方式被改变了,人们从此到一个地方去获取所有的信息。记得新浪曾经有一段时间说它们是“目标站点”模式,但是如果多问一句,现在人们一条一条地阅读新浪的新闻,在头脑中还有一个“网”的概念吗?最大的问题是,这些站点控制了信息的流动、充斥了过时的信息、阻碍了真正的交流,或者对于很多人来说,另外还有太多的广告。P2P 就是把控制权重新还到用户手中去。人们通过P2P 可以共享硬盘上的文件、目录甚至整个硬盘。这种能量是非常令人激
6、动的,那些费心存储在自己的硬盘上的东西肯定是我们认为最有价值,所有人都共享了他们认为最有价值的东西,这将使互联网上信息的价值得到极大的提升。二、P2P 能做什么P2P 引导网络计算模式从集中式向分布式偏移,也就是说网络应用的核心从中央服务器向网络边缘的终端设备扩散:服务器到服务器、服务器到PC 机、PC 机到 PC 机,PC机到 WAP 手机 所有网络节点上的设备都可以建立P2P 对话。这使人们在Internet 上的共享行为被提到了一个更高的层次,使人们以更主动深刻的方式参与到网络中去,正如 I2(第二代互联网)之父Doug.Van Houweling 在几个月前的中国之行时说到的:“下一代
7、互联网民们将真正参与到网络中来,每个人都能为网络的资源和功能扩展作出自己的贡献。”P2P 给互联网的分布、共享精神带来了无限的遐想,有观点认为至少有100 种应用能被开发出来,但从目前的应用来看,P2P 的威力还主要体现在大范围的共享、搜索的优势上。在这方面主要引发了,或者是说更好的解决网络上四大类型的应用:对等计算、协同工作、搜索引擎、文件交换。下面将对P2P资源搜索技术展开说明:三、P2P网络中资源搜索机制是什么?P2P技术的一个优势是开发出强大的搜索工具。P2P技术使用户能够深度搜索文档,而且这种搜索无需通过Web服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统名师资料总结-精
8、品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -目录式搜索引擎(只能搜索到20 30的网络资源)无可比拟的深度(理论上将包括网络上的所有开放的信息资源)。以P2P技术发展的另一先锋Gnutella进行的搜索为例:一台 PC上的 Gnutella软件可将用户的搜索请求同时发给网络上另外10 台 PC,如果搜索请求未得到满足,这 10 台 PC 中的每一台都会把该搜索请求转发给另外10 台 PC,这样,搜索范围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台PC 上的信息资源。可以说,P2P 为互联网的信息搜索提供了全新的解决之道。P2P 网络中的资源搜索机制按照其拓扑结构可分为结构化
9、的拓扑结构和非结构化的拓扑结构,非结构化的拓扑结构中其网络模型又有纯分散式,集中目录式和混合式。下面将简要介绍这些机制。1纯分散式网络模型与泛洪机制纯分散式P2P 网络属于非结构化P2P网络,它没有固定的拓扑结构。网络中没有服务器,相连的节点之间构成一个分散式网络。通过基于对等网协议的客户端软件搜索网络中存在的对等节点,节点之间不必通过服务器,可直接建立连接。纯分散式P2P 网络中的资源搜索主要采用泛洪机制,其拓扑结构见图1。洪泛(flooding)机制通过广播方式来进行资源定位。某个节点要定位资源,首先把请求传播到所有相邻结点,这些邻居节点再向它自己的邻居传播请求,直到找到所需要的资源或者达
10、到预先确定的层次为止。在设计上每条查找消息都带有全局唯一的标识符,防止对同样的查找消息进行多响应。用户可以基于查找结果,选择合适的文件进行下载并可以和每个文件所有者结点建立类似 HTTP 的连接。如图1 所示,节点A 向所有的邻居节点B、C、D、E、G 发送查询请求,然后其各个邻居继续向自己的邻居发送同样的请求,直到找到所需要的资源或预先设定的层次为止。为 了 避 免 类 似广 播 方 式 产 生的 网 络 风 暴,必 须 限 制 搜 索范 围 和 时 间,于 是 消 息 被 设置 了 一 个 初 始的TTL(Time-to-live)值。消息 每 经 图1洪 泛 发 现 机 制过一个节点,T
11、TL 值减1。当 TTL 值为0时,搜 索 过 程终止。采用这种发 现 机 制 的 典型代表是Gnutella,还 有提供基于P2P的分布式“匿名”文件存贮服务的Freenet。洪泛发现机制是真正P2P 模型下非结构的信息搜索机制,其优点可以归纳如下:(1)节点覆名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 8 页 -盖率高。在洪泛机制中,随着跳数的增加,节点个数是按指数增加的;(2)容错性好。单一对等体的失败,仅使自身的资源不被别的对等体利用,而不会造成其他影响;(3)实现起来比较简单。采用类似广播或多播的方式就很容易实现消息的分布式传递,同时新节点的加入和离开实现也很简单,
12、不需要特定的机制来解决节点的加入和离开的问题;(4)健壮性好,不存在单点失效的问题;(5)传播速度比较快。这种以广播的形式来传播消息的速度显然是比较高的,很快就能得到搜索响应。同时这种发现机制难以克服的缺点主要在于扩展性的不足,也正是这些缺点限制了该机制的应用。其缺点具体表现在:(1)容易产生网络风暴。随着网络规模的增加消息数量呈现指数级的增长,很容易造成网络拥塞;(2)能力有限的对等体造成系统瓶颈。一些计算能力、网络带宽很低的对等体,使 P2P 网络的总体响应时间和资源利用率恶化。为了解决消息爆炸的问题,对FLOODING方式进行的一些改进方案。随机漫步法,节点随机选取N 个邻居节点,把请求
13、消息转发给这些相邻结点,然后这些邻居节点将请求消息随机地向它的一个相邻节点进行转发,此可大大减少消息的产生数量。逐步加深法,这种搜索策略是在初始阶段,给TTL 一个很小的值,如果在TTL 减为0时还没有搜索到资源,则给TTL 重新赋更高的值,这种策略可以减少搜索的直径。2集中目录式网络模型与目录索引机制集中目录式P2P 结构是最早出现的P2P 应用模式,因为仍然具有中心化的特点也被称 为 非 纯 粹 的P2P 结 构,拓 扑 结 构 如 图2,其 中 主 要 采 用 目 录 索 引 发 现 机 制。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 8 页 -在集中索引模式中,对等体
14、的查询发送到一个单一的索引服务器。索引服务器根据本地保存的客户资源索引,对查询作出反应。当各个对等体的资源出现变化时,比如资源的增加、删除等,索引服务器将收到更新消息,并据此修改本地缓存,但查询不在客户对等体间传递。在索引目录发现机制模型中,一台或多台有特殊用途的服务器为对等点提供目录服务。对等点向目录服务注册关于自身的信息(其名称、地址、),并根据目录服务器中信息进行查询,使用目录服务来定位其它对等点,因而它的查找方式是C/S 方式的,当对等体的资源出现变化时,比如资源的增加、删除等 ,索引服务器将收到更新消息,并据此修改缓存;但是此类系统中的数据存储仍是分布的,信息资源的传输也是点对点的,
15、不需要服务器的介入。图3 展示了一个使用目录服务器向对等点提供位置和命名服务的 P2P 体系结构 ,客户端 1 向目录服务器来发送定位资源信息的请求,目录服务器告诉客户端 1 所需要的资源位于客户端 2 上,然后客户端 1 就直接向目标客户端 2 发送请求建立连接来获取资源,这样真正的数据传输是不需要目录服务器干预的。可以说这种方式就是借用传统的 C/S 模型的发现机制来实现 P2P 网络模型下的资源定位。不过这种模型受到了“非 P2P”的指责 ,因为其背离了 P2P 的平等理念。用于共享 MP3音乐文件的Napster 是其中最典型的代表 ,也正是它引发了网络的 P2P 技术革命。Napst
16、er 是去年当时由只有 18 岁的肖恩范宁(Shawn Fanning)开发的,它提供服务允许音乐迷们交流 MP3文件。它与先前也被推上被告席的提供免费音乐下载MP的不同就是在Napster 服务器没有一首歌曲,Napster 提供了一个新的软件供音乐迷在自己的硬盘上共享歌曲文件,搜索其他用户共享的歌曲文件,并到其他也使用Napster 服务的用户硬盘上去下载歌曲。Napster 在短时间里吸引了5000 万用户,最终,它被五大唱片商以侵犯版权推上被告席而成为世界的焦点。索引目录发现机制和传统的 C/S 网络模型中服务器的作用一样具有很多优点:(1)易实现。和传统服务器的最大区别在于索引目录服
17、务图 3 索引目录发现机制器保存的仅仅是各个节点上的资源索引,不保存资源本身,真正的发现机制和传统的网络模型没有什么区别;(2)易管理。资源索引信息保存在一台或者少数几台服务器上 ,所以其管理维护起来相对也就容易;(3)查询的高效率。索引服务器使用本地保存的资源信息 ,并仅在本地执行全部查询;(4)客户对等体负载低。用于查询结果返回和资源更新的处理量都是很小的,客户对等体可以将其更多的资源用于实际的资源共享。这种模式的缺点有 :(1)对共享索引服务器的处理能力和网络带宽的要求很高;(2)共享索引服务器的单点失败 ,会导致整个 P2P 网络的失败。3混合式网络模型与自组织社区机制混合式网络模型在
18、纯P2P分布式模型基础上引入了超级节点的概念,综合了纯分散式P2P 名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 8 页 -去中心化和集中目录式P2P 快速查找的优势。混合式P2P网络模型将节点按能力不同(计算能力、内存大小、连接带宽和网络滞留时间等)区分为普通节点和搜索节点两类(也有的进一步分为三类节点,其思想本质相同)。其中搜索节点与其临近的若干普通节点之间构一个自治的簇,簇内采用基于集中目录式的P2P 模式,而整个P2P 网络中各个不同的簇之间再通过纯P2P 的模式将搜索节点相连起来,甚至也可以在各个搜索节点之间再次选取性能最优的节点,或者另外引入一新的性能最优的节点作为
19、索引节点来保存整个网络中可以利用的搜索节点信息,并且负责维护整个网络的结构。混合式网络模型中分簇的资源管理与搜索方式即称为自组织社区机制。由于普通节点的文件搜索先在本地所属的簇内(社区内)进行,只有查询结果不充分的时候,再通过搜索节点之间进行有限的洪泛。这样就极为有效地消除纯P2P 结构中使用洪泛算法带来的网络拥塞、搜索迟缓等不利影响。同时,由于每个簇中的搜索节点监控着所有普通节点的行为,这也能确保一些恶意的攻击行为能在网络局部得到控制,并且超级节点的存在也能在一定程度上提高整个网络的负载平衡。混合式P2P模型的典型代表有:Kazaa、eDonkey、eM ule、FastTrack。总的来说
20、,这种分簇管理的混合式 P2P 网络结构比以往有较大程度的改进。然而,由于搜索节点本身的脆弱性也可能导致其簇内的结点处于孤立状态,因此这种局部索引的方法仍然存在一定的局限性。这导致了结构化的P2P 网络模型的出现。同时,对搜索节点的定义与划分显然也缺乏自适应性。在某个社区的网络拓扑发生动态变化后,无法即时的调整社区的结构,而且在搜索点的冗余以及超节点下线后的维护少给网络带来了不小的开销。4结构化网络模型与分布式哈希表机制结构化模型与非结构化模型的根本区别在于每个结点所维护的邻居是否能够按照某种全局特定的规则(而不是随机的方式)组织起来。结构化模型这种组织方式决定了结点之间可以方便地快速查找。结
21、构化对等网络(P2P)模型是一种采用纯分布式的消息传递机制和根据关键字进行查找的定位服务模型,目前的主流方法是采用分布式哈希表(DHT)技术。这也是目前扩展性最好的P2P路由方式之一。分布式哈希表(DHT)是一个广域范围内大量结点共同维护的巨大散列表。散列表被分割成不连续的块,每个结点被分配给一个属于自己的散列块,并成为这个散列块的管理者。在DHT技术中,网络结点按照一定的方式分配一个唯一的结点标识符,资源对象通过散列运算产生一个唯一的资源标识符(类比下棋应用中,每个下棋人都会被分配一个唯一的标识,通过这个标识及某种运算可联系周边结点,这样所有的下棋人就被组织成了一个环)。当需要查找该资源时,
22、通过散列运算可定位到存储该资源的结点。经典的DHT 案例包括Chord、CAN、Pastry、Tapestry 等。这种机制的优点体现在:(1)查找效率高、速度快。由于DHT 采用了确定性拓扑结构,可以提供精确、快速的资源发现,只要目的结点存在于网络中,DHT 总能发现它;(2)避免了单节点失效问题。出于冗余度以及延时的考虑,大部分DHT 总是在节点的虚拟标识与关键字最接近的节点上复制超级节点(Super Node)思想搜索示意图名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 8 页 -备份冗余信息2各资源搜索算法的性能比较,这样也避免了单一节点失效的问题。这种模式的缺点:(1)
23、网络维护代价高。DHT 网络结构最大的问题是DHT 的维护机制较为复杂,尤其是结点频繁加入和退出造成的网络波动会极大地增加DHT的维护代价;(2)由于DHT 建立在精确哈希散列的基础上,因此仅支持精确关键词匹配查询,无法支持内容/语义等复杂查询;(3)结构化P2P网络模型假设各节点具有相同的能力,但这种假设并不适合大规模的Internet 部署。非结构化P2P覆盖网的节点间形成的拓扑结构具有很大的随意性,接近于无规则的随机图,这与实际网络的拓扑结构相符,易于应用。在这样的非结构化拓扑结构上,路由一般采用洪泛式搜索算法,但此算法会容易产生网络风暴,造成不必要的大量冗余消息,而基于索引目录发现搜索
24、算法又存在单点失败和网络带宽瓶颈问题。结构化P2P 网络的找效率高、速度快,但其受限于固定的网络拓扑结构,无法在现实中得到广泛的应用。五、P2P网络中各种资源搜索算法性能该如何比较?非结构化P2P 覆盖网的节点间形成的拓扑结构具有很大的随意性,接近于无规则的随机图,这与实际网络的拓扑结构相符,易于应用。在这样的非结构化拓扑结构上,路由一般采用洪泛式搜索算法,但此算法会容易产生网络风暴,造成不必要的大量冗余消息,而基于索引目录发现搜索算法又存在单点失败和网络带宽瓶颈问题。结构化P2P 网络的查找效率高、速度快,但其受限于固定的网络拓扑结构,无法在现实中得到广泛的应用。因此,P2P网络中,对于不同
25、的拓扑结构和网络模型,采取的资源搜索算法也不同,各有优缺点,具体应用与P2P 网络的拓扑结构有关,其性能比较如表1。参考文献:【1】罗杰文.P2P 搜索技术研究与挑战 J.计算机世界,2006(84):59-64.【2】陈林书,柳媛慧.P2P 网络中资源搜索机制的性能分析与比较.湘潭师范学院学报,2009.03【3】王艳辉.基于 P2P网络搜索技术研究.合作经济与科技,2007.04 名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 8 页 -【4】欧阳柏成.非结构化P2P中搜索算法的性能分析.计算机工程与科学,2009【5】李之棠.P2P 原理与技术 2009 名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 8 页 -