3.链接分析.ppt

上传人:hyn****60 文档编号:70985992 上传时间:2023-01-31 格式:PPT 页数:71 大小:1.36MB
返回 下载 相关 举报
3.链接分析.ppt_第1页
第1页 / 共71页
3.链接分析.ppt_第2页
第2页 / 共71页
点击查看更多>>
资源描述

《3.链接分析.ppt》由会员分享,可在线阅读,更多相关《3.链接分析.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第3章章 网络链接分析理论 信信信息息息管管管理理理系系系网网络络链链接接分分析析(Link Analysis),也也称称链链接接分分析析,或或称称链链接接分分析析法法、超超链链分分析析。可可广广义义理理解解为为以以Web中中页页面间的超链接为研究对象的分析活动。面间的超链接为研究对象的分析活动。从从网网络络信信息息计计量量学学的的角角度度,可可将将其其定定义义如如下下:链链接接分分析析是是以以链链接接解解析析软软件件、统统计计分分析析软软件件等等为为工工具具,用用统统计计学学、拓拓扑扑学学、情情报报学学的的方方法法对对链链接接数数量量、类类型型、链链接接集集中中与与离离散散规规律律、共共链

2、链现现象象等等进进行行分分析析,以以用用于于WebWeb中的信息挖掘及质量评价的一种方法。中的信息挖掘及质量评价的一种方法。信信信息息息管管管理理理系系系链链接接分分析析先先于于网网络络信信息息计计量量学学诞诞生生。1996年年,Larson依依照照引引文文分分析析中中共共被被引引分分析析(Co-citation Analysis)做做了了共共链链分分析析(Co-link Analysis)。但但在在网网络络信信息息计计量量学学诞诞生生后后,链链接接分分析析便便被被纳纳入入了了其其研研究究范范围围。至至今今,链链接接分分析析已已成成为为网网络络信信息息计计量量学学备备受受关关注的研究方向。注的

3、研究方向。链链接接分分析析理理论论包包括括以以下下几几个个方方面面:链链接接理理论论、链链接接分分析析的的研研究究视视角角、链链接接分分析析与与引引文文分分析析之之间间的的关关系系、链链接分类与统计理论、链接分析指标。接分类与统计理论、链接分析指标。信信信息息息管管管理理理系系系1.网络链接概述网络链接概述1.1 1.1 链接感性认识链接感性认识1.2 1.2 链接与超文本链接与超文本1.3 1.3 链接术语链接术语信信信息息息管管管理理理系系系1.1链接感性认识链接感性认识Wood等人将等人将Web的结构绘制成可视化图:的结构绘制成可视化图:白色的大球表示网站主页,小球代表网站的二级及二级以

4、下页面;白色的大球表示网站主页,小球代表网站的二级及二级以下页面;绿线代表链接,将不同的网站、网页连结在一起形成网络。绿线代表链接,将不同的网站、网页连结在一起形成网络。信信信息息息管管管理理理系系系1.2链接与超文本链接与超文本 1965年年,Ted Nelson提提出出术术语语超超文文本本(Hypertext)(Hypertext)。1978年年,在在Dream Machines中中他他提提到到了了“链链接接”,并并指指出出“链链接接”将将带带来来文文件件的的连连通通性性。1981年年,使使用用术术语语“超超文文本本”描描述述了了这这一一想想法法:创创建建一一个个全全球球化化的的大大文文档

5、档,文文档档的的各各个个部部分分分分布布在在不不同同的的服服务务器器中中,通通过过激激活活其其中中的的“链链接接”,就就可可以以跳跳转转到到所所引引用用的的论论文。文。信信信息息息管管管理理理系系系1.2链接与超文本链接与超文本超超文文本本是是用用超超链链接接的的方方法法,将将各各种种不不同同空空间间的的文文字字信信息息组组织织在在一一起起的的网网状状文文本本。超超文文本本更更是是一一种种用用户户界界面面范范式式,用用以以显显示示文文本本及及与与文文本本之之间间相相关关的的内内容容。当当前前,超超文文本本普普遍遍以以电电子子文文档档方方式式存存在在,其其中中的的文文字字包包含含有有可可以以链链

6、结结到到其其他他位位置置或或者者文文档档的的链链接接,允允许许从从当当前前阅阅读位置直接切换到超文本链接所指向的位置。读位置直接切换到超文本链接所指向的位置。信信信息息息管管管理理理系系系1.3链接术语链接术语链链接接,超超链链接接(Link,hyperlink):两两者者都都指指网网络络链链接接。在在没没必必要要区区分分入入链链与与出出链链时时,通通常常会会用用到到这这两两个词,偶尔也会用到这些词指代入链和出链。个词,偶尔也会用到这些词指代入链和出链。入入链链(Inlink):指指向向某某页页面面的的链链接接。一一般般而而言言,这这个个链链接接应应该该来来自自某某个个特特定定集集合合以以外外

7、的的页页面面。“入入链链”与与“反反向向链链接接”同同义义;“接接受受入入链链”与与“被被链链接接”同同义。义。出出链链(Outlink):从从某某页页面面指指出出的的链链接接。一一般般而而言言,这个链接应该指向某个特定集合以外的页面。这个链接应该指向某个特定集合以外的页面。信信信息息息管管管理理理系系系1.3链接术语链接术语自自链链(Selflink):从从某某页页面面指指向向该该页页面面自自身身的的链链接接,可可能能是是同同一一页页面面的的不不同同部部分分。一一般般而而言言,这这个个链链接接应应该指向某个特定集合内部的页面。该指向某个特定集合内部的页面。互互链链(Interlink,rec

8、iprocal link):通通常常指指两两个个不不同同网网站站之之间间的的链链接接,也也指指站站间间链链接接。这这个个词词通通常常以以-ing的的形形式式出出现现,例例如如“网网站站互互链链(interlinking)”表表示示网站之间的链接。网站之间的链接。信信信息息息管管管理理理系系系1.3链接术语链接术语共入链共入链(Co-linked):如果两个页面都含有来自第):如果两个页面都含有来自第三个页面的入链,则这两个页面共入链。三个页面的入链,则这两个页面共入链。共出链共出链(Co-linking):如果两个页面都含有指向第):如果两个页面都含有指向第三个页面的出链,则这两个页面共出链。

9、有时也可描三个页面的出链,则这两个页面共出链。有时也可描述为耦合或文献计量中的耦合。述为耦合或文献计量中的耦合。共链共链(Co-link):共入链与共出链统称为共链。):共入链与共出链统称为共链。信信信息息息管管管理理理系系系1.3链接术语链接术语链接术语的图解链接术语的图解ABC FGDEHB有一个来自有一个来自A的入链,的入链,A与与B之间,之间,A是链接来源,是链接来源,B是链接目标是链接目标B与与E共出链共出链C与与D共入链共入链E与与F互链互链B有一个指向有一个指向C的出链,的出链,B是链是链接来源,接来源,C是链接目标是链接目标B有一个自链有一个自链信信信息息息管管管理理理系系系2

10、.2.网络链接的分析视角网络链接的分析视角M.Thelwall根根据据不不同同学学科科的的侧侧重重点点将将链链接接分分析析研研究究划划分为:分为:u情情报报学学视视角角的的链链接接分分析析(Information science link analysis approach,ISLAA)u计计算算机机科科学学视视角角的的链链接接分分析析(Computer science link analysis approach,CSLAA)u社社会会科科学学视视角角的的链链接接分分析析等等(Social science link analysis approach,SSLAA)除除此此此此外外,还还有有统

11、统计计物物理理学学家家、数数学学家家等等从从其其他他视角研究链接分析。视角研究链接分析。信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角不不同同的的研研究究视视角角之之间间虽虽没没有有绝绝对对的的界界线线,但但研研究究目目标标不同,理论基础也不同。不同,理论基础也不同。uCSLAA主主要要研研究究网网络络动动力力学学(Web Dynamics)、链链接接与与内内容容的的关关系系、链链接接和和信信息息检检索索、网网络络挖挖掘掘(Web Mining)、网网络络建建模模(Web Modeling)等。等。uSSLAASSLAA主主要要研研究究网网络络空空间间分分析析(We

12、b Sphere Analysis)、虚虚拟拟 民民 族族 志志(Virtual Ethnography)、超超 链链 接接 网网 络络 分分 析析(Hyperlink Network Analysis)等等uISLAA则则以以文文献献计计量量学学中中的的引引文文分分析析为为理理论论基基础础,核核心心观观点为点为“链接代表引用链接代表引用”信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角按按照照M.Thelwall的的定定义义,链链接接分分析析就就是是采采用用并并改改进进现现有有的的信信息息技技术术与与方方法法,借借助助文文档档之之间间的的相相互互关关联联,对对文档自

13、身的特征进行深入分析。文档自身的特征进行深入分析。根根据据链链接接分分析析的的定定义义和和情情报报学学相相关关理理论论,我我们们将将“情情报学视角的链接分析报学视角的链接分析”定义为:定义为:以以引引文文分分析析为为基基础础,采采用用并并改改进进现现有有的的信信息息技技术术与与方方法法,借借助助文文档档之之间间的的相相互互关关联联,对对文文档档自自身身的的特特征进行深入分析。征进行深入分析。信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角从从概概念念上上看看,链链接接分分析析以以文文档档为为研研究究对对象象,这这里里所所说说的文档包括四个层面:页面、目录、域名、站点。

14、的文档包括四个层面:页面、目录、域名、站点。从从本本质质上上看看,情情报报学学视视角角的的链链接接分分析析是是一一种种新新兴兴的的研研究究方方法法,在在情情报报学学、计计算算机机科科学学、社社会会科科学学等等领领域域有有广泛应用。广泛应用。信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角情情报报学学视视角角的的链链接接分分析析不不同同于于网网络络中中流流传传的的“链链接接分分析析”。u前前者者内内容容包包括括链链接接数数量量分分析析、链链接接类类型型分分析析、链链接接的的集集中中与与离离散散规规律律分分析析、共共链链分分析析等等,主主要要用用于于提提高高网网络络信信息

15、息检检索效率、评价网络信息质量、发现网络社区等;索效率、评价网络信息质量、发现网络社区等;u网网络络中中流流传传的的“链链接接分分析析”主主要要指指“链链接接流流行行度度分分析析(Link Popularity Analysis)”,其其内内容容包包括括链链接接数数量量和和质质量量的的评评估估及及分分析析,主主要要用用于于提提高高网网站站、网网页页在在Google检检索索结结果果中中的的排名等。排名等。下面提到的链接分析均指情报学视角的链接分析。下面提到的链接分析均指情报学视角的链接分析。信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角郑曦等人用共词分析的方法,借助郑

16、曦等人用共词分析的方法,借助Pajek可视化工具,可视化工具,绘制了链接分析的研究主题图。绘制了链接分析的研究主题图。图中节点代表主题词,连线粗细代表主题词之间的共词强度,与图中节点代表主题词,连线粗细代表主题词之间的共词强度,与“Link Analysis”这这一节点的连线越粗,代表与该主题关联越紧密一节点的连线越粗,代表与该主题关联越紧密。信信信息息息管管管理理理系系系2.2.网络链接的分析视角网络链接的分析视角链接分析领域关注的主题包括链接分析领域关注的主题包括:World Wide Web(万维网万维网)Information Retrieval(信息检索信息检索)Ranking(评价

17、评价/排名排名)Search Engine(搜索引擎搜索引擎)Web Mining(网络挖掘网络挖掘)PageRank算法算法信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系 链链接接分分析析以以引引文文分分析析理理论论为为基基础础,但但在在动动态态、多多变变的的网网络络环环境境中中形形成成了了引引文文分分析析理理论论所所不不具具有有的的特特性性。二二者者各各自自的的特特征征及及相相互互关关联联便便成了链接分析研究中的一个热点。成了链接分析研究中的一个热点。引引文文分分析析主主要要对对科科学学期期刊刊、论论文文、著著者者等等各各种种分分析析对对象象的的引引

18、证证与与被被引引证证现现象象进进行行分分析析,以以揭揭示示其其数数量量特征和内在规律。特征和内在规律。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系u引文分析工具包括:引文分析工具包括:美国美国科学引文索引科学引文索引(SCISCI)美国美国基本科学指标基本科学指标(ESIESI)美国美国期刊引证报告期刊引证报告(JCRJCR)中国科学引文数据库中国科学引文数据库(CSCDCSCD)中国科技论文与引文分析数据库中国科技论文与引文分析数据库中文社会科学引文索引中文社会科学引文索引(CSSCICSSCI)中国人文社会科学引文数据库中国人文社会科学引文数据库中

19、国引文数据库中国引文数据库。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系u常用的引文分析指标包括:常用的引文分析指标包括:引引文文数数量量与与分分布布规规律律测测度度指指标标:引引文文数数、平平均均引引用用数数、自引数与自引率、被引用数与引用数的比值;自引数与自引率、被引用数与引用数的比值;期刊质量测度指标:被引用数、影响因子、即年指标;期刊质量测度指标:被引用数、影响因子、即年指标;论文质量与著者学术水平测度指标:被引用数;论文质量与著者学术水平测度指标:被引用数;文献老化规律测度指标:衰减系数。文献老化规律测度指标:衰减系数。信信信息息息管管管理理

20、理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系u引引文文分分析析大大半半个个世世纪纪以以来来的的发发展展轨轨迹迹可可以以用用如如下下的的“链链”来表示:来表示:GraceGrace等人的核心期刊表(等人的核心期刊表(19271927年)年)E.GarfieldE.Garfield的的“Citation IndexesCitation Indexes”论文(论文(19551955年)年)BrownBrown对引文分析领域的拓展(对引文分析领域的拓展(19561956年)年)M.MM.M.KesslerKessler的的“文文 献献 耦耦 合合(Bibliographic Bib

21、liographic CouplingCoupling)”(19631963年)年)E.GarfieldE.Garfield的的SCISCI印刷版(印刷版(19641964年)年)SmallSmall提出提出“同被引技术(同被引技术(Co-citationCo-citation)”(19731973年)年)SCISCI网络版(网络版(19971997年)年)。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系u当前的研究主要集中在:当前的研究主要集中在:方法适用性研究(引文分析的弊端等);方法适用性研究(引文分析的弊端等);网络引文分析(网络引文分析(Web

22、 Citation AnalysisWeb Citation Analysis););应应用用研研究究(引引文文应应用用于于各各类类质质量量评评价价,专专利利引引文文分分析析,同引、耦合用于聚类分析,大学评价等)。同引、耦合用于聚类分析,大学评价等)。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系链接分析的发展只有链接分析的发展只有10余年的时间,用余年的时间,用“链链”表示表示为:为:McKiernan提出提出sitation(1996年)年)Larson的共链分析(的共链分析(1996年)年)Almind和和Ingwersen的的“Webmetric

23、s”(1997年)年)Peter Ingwersen的的“网络影响因子网络影响因子”(1998年)年)Sergey Brin和和Lawrence Page提出提出“Pagerank算法算法”、J.Kleinberg提出提出“HITS算法算法”(1998年)年)。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系u当前的研究主要集中在:当前的研究主要集中在:链链接接分分布布规规律律研研究究(包包含含链链接接类类型型分分布布、链链接接数数量量分分布布等);等);网络影响因子研究;网络影响因子研究;网络链接分析工具研究;网络链接分析工具研究;沿用引文分析和方法的可

24、靠性研究;沿用引文分析和方法的可靠性研究;链链接接分分析析应应用用研研究究(包包括括在在网网络络信信息息检检索索中中的的应应用用、在在网网络络社社区区发发现现在在的的应应用用、在在WebWeb拓拓扑扑结结构构建建模模中中的的应应用用、在信息挖掘中的应用在信息挖掘中的应用资源发现、竞争情报获取等)。资源发现、竞争情报获取等)。信信信息息息管管管理理理系系系3.3.链接分析与引文分析的关系链接分析与引文分析的关系 事事实实上上,从从“citation”到到“sitation”,从从“期期刊刊影影响响因因子子”到到“网网络络影影响响因因子子”,从从“文文献献的的同同引引与与耦耦合合”到到“共共入链入

25、链/共出链共出链”,都表明链接分析带上了引文分析的烙印。,都表明链接分析带上了引文分析的烙印。引引文文分分析析理理论论虽虽被被广广泛泛应应用用,但但仍仍有有不不足足之之处处,被被引引次次数数、期期刊刊影影响响因因子子等等引引文文指指标标都都视视不不同同的的引引文文的的贡贡献献为为等等值值,然然后后简单的累加。简单的累加。不不同同引引文文的的贡贡献献通通常常是是不不等等值值的的。对对于于贡贡献献不不等等值值的的引引文文,应应区区分分看看待待,链链接接分分析析中中的的PageRank算算法法则则解解决决了了这这一一问问题题。我我们们认认为为可可根根据据PageRank的的原原理理设设计计新新的的算

26、算法法用用于于引引文文分分析析,取代被引次数、期刊影响因子等引文分析指标。取代被引次数、期刊影响因子等引文分析指标。信信信息息息管管管理理理系系系4.4.链接分类与统计理论链接分类与统计理论4.14.1链接分类理论链接分类理论 4.24.2链接统计理论链接统计理论 信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论A.G.Smith将将链链接接分分为为两两类类:实实质质性性链链接接(substantive links)和和非非实实质质性性链链接接(non-substantive links):实实质质性性链链接接即即符符合合第第一一条条假假设设前前提提的的链链接接,而而非非实实质质性

27、性链接则不符合。链接则不符合。uA.G.Smith通通过过统统计计分分析析得得出出:所所有有链链接接中中,实实质质性性链链接接的的比比例例约约20%,链链接接到到大大学学网网站站的的链链接接中中,实实质质性性链链接接的的比比例约例约27%。u李李江江以以图图书书情情报报学学的的学学术术型型博博客客为为对对象象,统统计计出出实实质质性性链链接接的的比比例例约约17%,因因研研究究对对象象为为学学术术型型网网页页,所所以以理理论论上上可认为网络中实质性链接的比例的平均值应在可认为网络中实质性链接的比例的平均值应在17%以下。以下。信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论uHet

28、ing Chu将学术机构网站的入链分为将学术机构网站的入链分为4类类(taxonomy):服务(服务(Service)主页(主页(Home Page)研究(研究(Research)教学(教学(Teaching/Learning)其其中中前前两两类类共共占占73%,后后两两类类占占27%,并并且且仅仅有有教教学学类类的的入入链链才才可可用用作作学学术术机机构构的的评评估估,这这样样看看来来,可可用用作作评评价价的的入入链链(即即实实质质性性链链接接)不不足足27%。信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论不不同同的的实实验验证证明明:可可用用于于链链接接分分析析的的有有效效链

29、链接仅占接仅占20%20%左右。左右。链链接接分分类类研研究究的的意意义义在在于于:从从链链接接总总体体中中剔剔除除不不符符合合“推推荐荐、认认可可”的的链链接接,以以提提高高入入链链接接、网网络络影影响响因因子子、PageRank算算法法等等链链接接指标用于网页指标用于网页/网络重要性评价的效率。网络重要性评价的效率。信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论目前学者们在理论方法和实证分析过程中得目前学者们在理论方法和实证分析过程中得出了很多有意义的结论,但是也存在如下几出了很多有意义的结论,但是也存在如下几个问题:个问题:u不同的学者根据不同的标准建立了不同的分类体不同的

30、学者根据不同的标准建立了不同的分类体系,这是不利于链接分析研究的。系,这是不利于链接分析研究的。u当前国内外的链接分类研究主要依赖于小样本的当前国内外的链接分类研究主要依赖于小样本的主观分类,而对于海量链接,主观分类不适用,主观分类,而对于海量链接,主观分类不适用,所以,下一步的研究方向应是针对海量链接开发所以,下一步的研究方向应是针对海量链接开发自动链接分类方法(即自动链接分类方法(即“链接识别链接识别”)。)。信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论国外代表性的链接分类国外代表性的链接分类 学者学者 研究研究对对象象 分分类类 Borgman等 推荐链接导航链,所有权链

31、,社会链接和没有用的链接 A.G.Smith 合作链接非实质性研究,实质性研究(一般信息链接,正式研究引用,支持赞助商/鸣谢,关于链接创建者的自链接,相关网页,地理信息,广告,软件下载九类)Bar Ilan 相关链接面向研究的,教育相关的,职业或工作相关的,行政管理的,一般信息的,个人的,社会的,技术的,导航的,表面的,其他和无法定义的。Jepson 资源链接科学性质的,与科学相关,教学,低质量的,“噪音”Heting Chu 通讯链接服务、主页、研究、教学 信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论国内代表性链接关系分类国内代表性链接关系分类研究研究学者学者研究研究对对象象

32、类类型型动动机机刘雁书等站外链接推荐链接正反面引用。合作链接引用服务,主办单位,信息来源,内容相关。相关链接反映内容相关程度。资源链接链接被链网页的某种资源。通讯链接链接到通讯服务。广告链接商业广告,服务相关,个人网站资助性广告。邱均平等内部链接网站结构链接体现网站结构和层次关系。信息关联链接相当于参考文献和相关主题的链接。站外链接信息推荐链接推荐相关内容网站,有的是商业目的。信息来源链接标明信息来源,表明知识产权、责任归属。网络结构链接根据访问目的选择网站,方便快速访问。信信信息息息管管管理理理系系系4.1链接分类理论链接分类理论国内代表性链接关系分类(续)国内代表性链接关系分类(续)袁毅学

33、术网站推荐链接肯定性链接相关链接内容相关,利用关系。引用链接内容引用,反映高质量网站。扩展链接背景资料,注视、数据链接。评价链接肯定或否定评价关系链接机构间纵向、横向、利益链接,用户链,背景链,合作链其他服务链、通讯链、结构链信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论链链接接统统计计研研究究常常常常依依赖赖于于一一个个未未公公开开的的假假设设所所有有的链接是等价的,而实践中却并非如此。的链接是等价的,而实践中却并非如此。链链接接统统计计的的理理论论基基础础允允许许链链接接违违背背假假设设,这这样样的的链链接接视为异常。有两种方法处理异常:视为异常。有两种方法处理异常:u第一种

34、是手工过滤,这种方法适合小型数据集;第一种是手工过滤,这种方法适合小型数据集;u第第二二种种是是使使用用ADM(Alternative Document Model,选选择择性性文文档档模模型型),这这种种方方法法是是完完全全自自动动化化的的。在在某某些些情情况况下下,使用使用ADM可以减少异常对其他数据的影响。可以减少异常对其他数据的影响。信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论在统计链接数量之前需对链接进行分类,以便统计有在统计链接数量之前需对链接进行分类,以便统计有效链接数量;其次还需要处理链接异常,因为异常将效链接数量;其次还需要处理链接异常,因为异常将导致统计数量

35、不准确。导致统计数量不准确。常见的链接统计异常:常见的链接统计异常:异常来源异常来源异常原因异常原因网站自链对于目标页面质量的判断方法与站间互链不同重复的链接这些链接由计算机创建,没有遵循“逐个地”、“独立地”原则互链数据库这些链接由计算机创建,没有遵循“逐个地”、“独立地”原则镜像站点作者与主机站点无关信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论手手工工过过滤滤是是移移除除异异常常链链接接的的一一种种方方法法。搜搜索索引引擎擎最最先先采采用用这这种种方方法法,它它们们保保存存爬爬虫虫不不应应该该访访问问的的站站点点列列表表,因因为为这这些些网网站站可可能能包包含含链链接接舞舞

36、弊弊(重重复复链链接接以以便便在在搜搜索索引引擎擎返返回回结结果果列列表表中中获获得得更更高高的的排排名名),或或包包含含文文本本舞舞弊弊(也也是是为为了了获获得得“不不公公平平”的的优优势势),或或包包含含不不值值得得访访问问的的内内容容,如如蜘蜘蛛蛛陷陷阱阱、违违法法信信息息、色色情信息或者庞大站点。情信息或者庞大站点。信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论ADM是是一一种种将将网网页页聚聚合合成成概概念念文文档档的的方方法法(启启发发法法)。ADM根根据据URL特特征征,将将网网页页分分配配给给文文档档,目目的的是是通通过过将将类类似似的的网网页页分分配配到到同同一

37、一个个文文档档,减减少少网网络络链链接接行行为为的的异异常常,以以便便相相似似网网页页中中相相关关的的链链接接仅仅仅仅被被统统计计一次。一次。信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论有有四四种种主主要要的的ADM,分分别别在在“网网页页”、“目目录录”、“域域名名”和和“站站点点”层层面面上上聚聚合合网网页页,如下所述:如下所述:u网网页页/文文件件:为为了了提提取取链链接接,每每一一个个单单独独的的文文件件都都视视为为一一个个文文档档。(截截去去URL中中内内部部目目标标标标志志符符“#”之之前前的的部部分分,以以避避免免同同一一个个网网页页不不同同部部分分间间的的多多重

38、重引引用用,然然后后每每一一个个唯唯一一的的链链接接URL都都视视为为一个单独的文档)一个单独的文档)信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论u目目录录:同同一一个个目目录录下下的的所所有有文文件件视视为为一一个个单单独独的的文档。(将文档。(将URLURL地址从最后一条斜线外截去)地址从最后一条斜线外截去)u域域名名:具具有有相相同同域域名名的的所所有有文文件件视视为为一一个个单单独独的的文档。(文档。(URLURL中只保留域名)中只保留域名)u大大学学/站站点点:属属于于一一所所大大学学网网站站、或或其其他他被被定定义义站站点点的的所所有有文文件件视视为为一一个个单单独

39、独文文档档。(URLURL地地址址中中只只保留所有网页共有部分)保留所有网页共有部分)信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论以以(南京大学信息管理系)中网页(南京大学信息管理系)中网页A和和B指向指向(武汉大学信息管理学院)上(武汉大学信息管理学院)上网页网页X和和Y的链接为例。的链接为例。ABCXYZD信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论u域名域名ADM连线是粗线,站点连线是粗线,站点ADM连线是细线,连线是细线,所有链接都是双向的。所有链接都是双向的。u对图中链接的统计对图中链接的统计 :模型模型从从nju到到 whu的的链链接接从从pku到到

40、whu的的链链接接whu的的总总入入链链数数页面/文件9312域名426大学112信信信息息息管管管理理理系系系4.2链接统计理论链接统计理论u按按照照标标准准网网页页统统计计模模型型,共共有有四四个个这这样样的的链链接接:A A到到X X和和Y Y的的链链接接,B B到到X X和和Y Y的的链链接接,因因此此,从从到到,网网页页ADMADM链链接接总总数数是是4 4,但但是是域域名名ADMADM则则只只有有一一个个链链接接,因因为为这这四四 个个 链链 接接 都都 是是 从从 域域 名名 到到 域域 名名,这这四四个个链链接接有有相相同同的的来来源源文文档档和目标文档,是重复链接。和目标文档

41、,是重复链接。信信信息息息管管管理理理系系系5.链接分析指标链接分析指标5.1 5.1 入链数入链数 5.2 5.2 出链数出链数5.3 5.3 网络影响因子网络影响因子5.4 5.4 网络使用因子网络使用因子5.5 5.5 链接倾向链接倾向 信信信息息息管管管理理理系系系5.1入链数入链数入入链链数数源源于于引引文文分分析析中中的的被被引引次次数数,链链接接如如同同引引用用,代代表表一一种种推推荐荐或或认认可可,被被链链接接的的次次数数越越多多,则则被被认认可可的的程程度度越越高高。被被引引次次数数中中通通常常包包括括自自引引,同同样样,入入链链数中包括自链和外部链接数。数中包括自链和外部链

42、接数。Google、Alltheweb、Altavista等等搜搜索索引引擎擎都都可可用用于于统统计计入入链链数数,并并且且,Alltheweb、Altavista都都可可用用于统计外部入链数。于统计外部入链数。商业搜索引擎比较商业搜索引擎比较以Google、AltaVista为例信信信息息息管管管理理理系系系商商业业搜搜索索引引擎擎(Commercial Search Engine)是是一一种种网网络络搜搜索索引引擎擎,它它通通过过特特定定的的网网页页抓抓取取工工具具获获得得并并标标引引网网页页,同同时时通通过过网网页页提提供供检检索索界界面面。比比较较著著名名的的商商业业搜搜索索引引擎擎有

43、有Google、AltaVista等等等。等。信信信息息息管管管理理理系系系Google(),创创立立于于1998年年,其其高高级级检检索索功功能能中中提提供供“link”、“site”和和“inurl/allinurl”等指令;等指令;AltaVista()于于1995年年建建立立,是是Internet上上首首个个Web索索引引,同同时时也也是是首首个个提提供供跨跨语语言言检检索索和和图图片片、音音频频、视视频频检检索索的的搜搜索索引引 擎擎。其其 高高 级级 检检 索索 功功 能能 提提 供供“link”、“host”和和“domain”等等指指令令及及“-/+”布布尔尔逻辑运算符。逻辑运

44、算符。信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系下面,我们以南京大学网站为例,分别使用下面,我们以南京大学网站为例,分别使用Google、Altavista两个搜索引擎检索南两个搜索引擎检索南京大学的链接总数以及外部链接总数。通过京大学的链接总数以及外部链接总数。通过具体实例的演示,说明这两个搜索引擎检索具体实例的演示,说明这两个搜索引擎检索指令的异同,使同学们更深入了解它们的使指令的异同,使同学们更深入了解它们的使用方法。用方法。信信信息息息管管管理理理系系系Google Link: Link:AltaVista Link: Link:链接总数命令链接总数命令信信信息息息管

45、管管理理理系系系信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系由此可见,使用由此可见,使用Google的的“link”指令检指令检索链接总数时,索链接总数时,语句语句“link:”和和“link:”返回的结果是一返回的结果是一样的。因此,可以推断样的。因此,可以推断Google的的“link”指令并不区分关键词指令并不区分关键词“”和和“”,但是却可以区分关键,但是却可以区分关键词词“”和和“”。信信信息息息管管管理理理系系系外部外部链链接接总总数数由于由于Google不能提供同时限制主机或

46、域名范不能提供同时限制主机或域名范围的逻辑检索服务,所以暂时还无法获得内围的逻辑检索服务,所以暂时还无法获得内/外部链接的数据。因此,我们使用外部链接的数据。因此,我们使用AltaVista来检索外部链接总数。来检索外部链接总数。AltaVista link:-domain/host/site: link:-domain/host/site:信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系信信信息息息管管管理理理系系系AltaVista检索结果检索结果信信信息息息管管管理理理系系系5.2出链数出链数出出链链数数是是指指一一个个网网页页的的出出链链总总数数量量,类类似似于于文文献献计

47、计量量中中的的“引引文文数数”。出出链链数数反反映映了了网网页页指指向向能能力力的的大大小小,是是一一个个纯纯粹粹的的数数量量型型概概念念,出出链链数数越越大大,则则该该网网页的指向能力越强。页的指向能力越强。它它可可用用于于计计算算网网络络使使用用因因子子(WUF)、自自动动识识别别网网络络信信息息资资源源、反反应应网网络络信信息息资资源源开开放放程程度度、测测定定核核心网络信息资源等。心网络信息资源等。信信信息息息管管管理理理系系系5.3网络影响因子网络影响因子网网络络影影响响因因子子(Web Impact Factor,WIF)是是由由Ingwerson在在1998年年提提出出的的、利利

48、用用网网站站获获得得的的链链接接数数计量网站影响力的计量指标。计量网站影响力的计量指标。网网络络影影响响因因子子的的理理论论基基础础是是链链接接与与引引文文的的相相似似性性,它它是是文文献献计计量量学学中中的的期期刊刊影影响响因因子子(Journal Impact Factor,JIF)在网络上的应用。)在网络上的应用。Ingwerson将将网网络络影影响响因因子子定定义义为为:指指定定时时间间内内,指指向向某某一一国国家家或或网网站站的的外外部部入入链链(external inlinks)和和内内部部入入链链(internal inlinks)网网页页数数的的逻逻辑辑和和与与该该国国家家或网

49、站内部的网页数的比值。或网站内部的网页数的比值。信信信息息息管管管理理理系系系5.3 网络影响因子网络影响因子 最初,最初,Ingwerson提出的网络影响因子算法是:提出的网络影响因子算法是:uWIF=自自网网络络影影响响因因子子被被提提出出后后,因因其其分分母母难难以以准准确确统统计计,又又因因语语言言、地地域域差差异异导导致致国国家家或或网网站站网网页页数数的的客客观观差差异异,有有些些学学者者提提出出了了网网络络影影响响因因子子的的修修正正式式,如如2002年年Thelwall将将WIFWIF算法修正为:算法修正为:uWIF=S指网络空间,指网络空间,U指大学网站。指大学网站。信信信息

50、息息管管管理理理系系系5.3网络影响因子网络影响因子 2006年,年,Noruzi和和Alireza将将WIF算法归纳为:算法归纳为:uWIF=WIF测度了网站吸引链接的能力,是计量网站影测度了网站吸引链接的能力,是计量网站影响力的重要指标,可应用于评价网站和网页资源、网响力的重要指标,可应用于评价网站和网页资源、网站建设和管理、评价电子核心期刊等方面。站建设和管理、评价电子核心期刊等方面。信信信息息息管管管理理理系系系5.4网络使用因子网络使用因子网网络络使使用用因因子子(Web Use Factor,WUF)反反映映某某一一国国家家或或网网站站的的网网页页指指向向其其他他网网页页能能力力的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁