《信息资源分布.ppt》由会员分享,可在线阅读,更多相关《信息资源分布.ppt(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息资源分布信息资源分布现在学习的是第1页,共66页第二章第二章 信息资源分布信息资源分布2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 2.2 2.2 信息资源随时间的分布规律信息资源随时间的分布规律2.3 2.3 信息资源在空间上的分布规律信息资源在空间上的分布规律现在学习的是第2页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 2.1.1 2.1.1 信息资源分布的马太效应信息资源分布的马太效应 2.1.2 2.1.2 布拉德福定律布拉德福定律 2.1.3 2.1.3 齐夫定律齐夫定律 2.1.4 2.1.4 洛特卡定律洛特卡定律 2.1.5
2、 2.1.5 普赖斯定律普赖斯定律现在学习的是第3页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律2.1.1 2.1.1 信息资源分布的马太效应信息资源分布的马太效应 马太效应:R默顿(美国)引用圣经新约全书马太福音中的一段话“谁若有,就给他,并不断增加;而谁没有,则已有的都要被夺走”。 信息资源产生和分布中的马太效应少数出版社成为某类图书的权威出版机构核心期刊的形成少数作者成为某一领域的核心作者少数网站集中了大量用户传递功能强的词汇被经常引用 这种信息分布的“富集”与“贫集”的现象是人类社会特有的选择机制支配的结果。现在学习的是第4页,共66页2.1 2.1 信息
3、资源的集中与分散规律信息资源的集中与分散规律 由马太效应引起的信息富集分布表现为核心趋势和集中取向。核心趋势:是信息生产主体的主动期望与采取实际步骤的结果。如高产作者群体的形成、期刊信息密度增大、高频词汇的确立等集中取向:主要是社会选择和影响的结果,信息生产者基本上处于被动状态。如一篇论文多次被引、一个网站被众多用户点击等。现在学习的是第5页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 信息分布富集现象的积极意义:突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。 马太效应的不足:马太效应描述的信息资源的优势和劣势过
4、度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,因循守旧,不思进取。所形成的信息分布富集优势仅仅是表面的、外在的。核心信息源是马太效应优势积累的结果,但过分注重核心信息源,会忽略分布在其他信息源中有价值的信息。马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。 现在学习的是第6页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律2.1.2 2.1.2 布拉德福定律布拉德福定律 信息资源的离散分布是信息资源的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息资源的离散分布具有复杂的机理,本质上是由信
5、息的生产和利用决定的。 产生背景:一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。根据科学统一性原则,每一学科都或多或少地与其他任何一门学科相关联。现在学习的是第7页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律2.1.2 2.1.2 布拉德福定律布拉德福定律 英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradfords Law of Scattering),简称为布拉德福定律或布氏定律: “如果将科学期刊按其刊载某个学科主题的论
6、文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1aa2的关系(a1)。”这就是布拉德福定律的区域表述形式。 设第一区(核心区)所涉及的文章1种期刊;第二区(相关区)包括2种期刊;第三区(外围区)包括的3种期刊。那么,3个区中的期刊数量成下列关系: 1:2:3=1:2(1) 式中:布拉德福常数,或称比例系数。 现在学习的是第8页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律两个学科的期刊分区表:两个学科的期刊分区表:(1)将刊物按刊载相关主题文章的载文量多少的递
7、减顺序排列(2)将表中的科学期刊按其登载论文数量的大小, 期刊分为包含同等数量论文的三个区。相继各区的期刊数成等比数列 其中:9:59:2581:5:25现在学习的是第9页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律布拉德福定律的图形描述:布拉德福定律的图形描述: 如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。 布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是一段上升的曲线BD。现在学习的是第10页,共66页2.1 2.1 信息资源的集中与分散规律信
8、息资源的集中与分散规律 布拉德福分散曲线布拉德福分散曲线R(n)CBDNlg nR(N)COAR(N)n1R(n1)N布鲁克斯用下述模式来表示布拉德福定律:R(n)=n (曲线部分) (1nC) (2-1)R(n)=klg(n/s) (直线部分) (CnN) (2-2)曲线上BD部分只是近似地满足(2-2)式。 论文累积数期刊累积数的对数现在学习的是第11页,共66页在式中: R(n)相关论文累积数。 n杂志等级排列的序号(级)。 第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。 C“核心区”中的杂志数量。 N等级排列的杂志总数。 k,s待定参数,k等于分布曲线中直线部
9、分的斜率,可用实验方法求得。当N足够大时,kN。 参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1。式(2-1)和(2-2)就是布拉德福定律的图形表述形式。 2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律现在学习的是第12页,共66页以应用物理学期刊为例:以应用物理学期刊为例:2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律现在学习的是第13页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律布拉德福分散曲线:现在学习的是第14页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律
10、 布拉德福定律的数学描述布拉德福定律的数学描述 令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有: r1=m1/p1, r2=m2/p2, r3=m3/p3划分区域使得: r1p1=r2p2=r3p3=m1 p2/p1=r1/r2=a1 p3/p2=r2/r3=a2 令a1=a2=a, 则 p2=a1p1, p3=a2p2=a1a2p1 于是 p1:p2:p31:a:a2 (2-3)现在学习的是第15页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 布氏定律的维克利解释布氏定律的维
11、克利解释 将杂志分区的数目推广到n3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,nm有如下关系: T1:T2:T3:Tm=1:b:b2:bm-1 (2-4)其中:b为维氏分布系数 Ti=ni(i=1,2,m)为前i个区的杂志数量 Tm=n1+n2+n3+nm=N,N为杂志总数现在学习的是第16页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 布拉德福定律的两个基本要点: 一是频次等级排序,形成主体来源(期刊)的有序目录; 二是确定相关论文在主体来源中的分布规律。 布拉德福定律的具体方法则包括区域分析
12、和图形描述,虽然两者数值并不相等,但所揭示的都是论文在期刊中的分散规律。 20世纪60年代,人们从不同的角度和侧面提出了许多经验分布公式和理论模型,使布拉德福定律取得了很大发展,但也存在很多问题。 对布拉德福定律进行严格检验,比较各公式的优劣,寻找更为规范的精确的数学模型; 其次要深入研究布氏分布的机理,寻找科学的统一的理论解释; 再次,进一步分析和研究其适用条件及局限性,大力开展应用研究。 布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究基本上是空白。现在学习的是第17页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规
13、律2.1.3 2.1.3 齐夫定律齐夫定律 齐夫定律的研究内容 任何文集或文献中不同词汇的使用有什么特点?它们在文献中出现的频次有没有一定的规律?如果有规律,其表现形式应当是怎样的?齐夫定律正是要回答这个问题。 齐夫定律的表述 如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有: fr=c(2-5) 式中c为常数。上式称为齐夫定律。 现在学习的是第18页,共66页2.1 2.1 信息资源的集中与分散规律信息资
14、源的集中与分散规律词频分布示例 rfLg rLg f140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69现在学习的是第19页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 齐夫词频分布曲线:齐夫词频分布曲线:如果建立f与r的直角坐标系,用横坐标表示词的等级序号,纵坐标表示出现频次,就得到一条双曲线。f25020015010050300r1325 64现在学习的是第20页,共66页2.1 2.1 信
15、息资源的集中与分散规律信息资源的集中与分散规律 齐夫定律的对数曲线:如果等级齐夫定律的对数曲线:如果等级r r与频次与频次f f都取对数,则双曲线变成一条直线。与之等都取对数,则双曲线变成一条直线。与之等价的数学表达式为:价的数学表达式为: lgr + lgf = lgc 图中的虚线表示理想化形式。齐夫定律的修正:一般地,斜率为齐夫定律的修正:一般地,斜率为b b的任一的任一直线可表示为:直线可表示为: blgr + lgf= lgc这一直线由图中的实线表示。如果将其改写成(2-5)式的形式就得: frb=c(2-6) 取b=1,(2-6)式与(2-5)式相同,因此可以将(2-6)式看做是对齐
16、夫定律的修正。 Lg fLg r现在学习的是第21页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律齐夫分布的其他形式齐夫分布的其他形式 齐夫定律是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。其适用范围具有一定的局限。朱斯双参数等级分布:美国学者朱斯指出,在(2-6)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为: f(r)=cr-b(2-7)式中,b0,c0,对于r=1,2,n,式(2-7)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概
17、率)。现在学习的是第22页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律曼德尔布罗三参数分布:数学家曼德尔布罗运用信息论原理和概率论方法来研究词频分布,用三参数修正了齐夫定律,使齐夫定律更具有一般性和普遍意义。 曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。设r为词的顺序,f(r)为第r个词的频率,m(r)为第r个词的词长。这时平均词长为: L=f(r)m(r) 当给定的熵值最小或当L最小时,应有: H=-f(r)lgf(r)=常数,以及f(r)=1。 根据这些条件,曼德尔布罗从理论上提出了三参数分布
18、公式: f(r)=c(r+a)-b(2-8)现在学习的是第23页,共66页2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律(2-8)式中,0a0,c0。a,b,c为参数,具有如下意义:参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。 参数b与高频词数量的多少有关,对于r1)时,圆周面积上的压强为:P=4P0/4r12=P0/r12 ,当r1,P0。现在学习的是第62页,共66页2.3 2.3 信息资源在空间上的分布信息资源在空间上的分布同时,我们设S为用气体传递信息的信源,显然,气体浓度 越 高 , 越 易 被 感 知 。 现 设
19、被 感 知 的 极 限 密 度 为0=106/m3个分子,低于这一数字就无法被感知。 设S以圆周形式从单位半径 r0=1(m) 时开始扩张,原始气体密度为0 =1018个分子/m3,则单位球气体总分子数为: 0V0=10184/3r3=4/31018 (个) 当r0改变为r时(r1),则圆周内气体分子仍呈现均匀分布,总数不变,但密度减小,为: =0 V0 /V=r-3 1018 当r增加到100米时,=(102)-3 1018 =1012 (个) 当r增加到105米时,=(105)-31018 =103(个)现在学习的是第63页,共66页2.3 2.3 信息资源在空间上的分布信息资源在空间上的
20、分布2.3.2 2.3.2 文献信息资源分布格局文献信息资源分布格局 信息资源分布是信息不断扩散和传递的结果。由于信息提供者和接收者目的的多样性和需求的多样性,使得信息资源在空间分布上显现出复杂的格局。 信息资源的离散分布首先表现在地区差异上。 各类政治、经济、文化、科技和教育中心 发达国家、发展中国家 信息资源的离散分布也表现在机构或者行业的差异上。 各类决策机构、教育与科研部门、协会与学会、广播电视部门、编辑出版发行机构、档案馆、图书馆、情报中心、数据中心、信息中心、调查和咨询中心、策划中心和统计中心 信息资源的离散分布还表现在内容差异上。 信息资源的离散分布是一种绝对现象,但离散的具体分
21、布格局是相对的和动态的,只是在某种程度上满足我们前面提到的规律和定律。现在学习的是第64页,共66页2.3 2.3 信息资源在空间上的分布信息资源在空间上的分布 信息资源的主要分布机构: 图书馆、档案馆:主要存储地 情报中心:交流和咨询 政府部门:国家重要的基础性信息资源 协会和学会:会员提供的专门技术知识、信息服务内容 编辑、出版、印刷和发行机构:书籍、磁盘光盘等出版物 广播、电视机新闻机构:重要的新闻信息、报刊和影片资料 科研机构:科研资料、技术成果档案、研究报告等 企业:专利、图纸、报告、档案、样本等现在学习的是第65页,共66页第二章第二章 信息资源分布信息资源分布( (小结小结) )2.1 2.1 信息资源的集中与分散规律信息资源的集中与分散规律 马太效应布拉德福定律齐夫定律洛特卡定律普赖斯定律2.2 2.2 信息资源随时间的分布规律信息资源随时间的分布规律2.2.1 指数增长律1.普赖斯曲线2.生长曲线2.2.2 逐渐过时率2.3 2.3 信息资源在空间上的分布规律信息资源在空间上的分布规律1.信息扩散的多向对称性2.信息传递的密度递减法则现在学习的是第66页,共66页