《学科交叉分析方法与应用研究.docx》由会员分享,可在线阅读,更多相关《学科交叉分析方法与应用研究.docx(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 硕 士 学 位 论 文 学科交叉分析方法与应用研究 Methods and Application for Interdisciplinarity Analysis 作 者 姓 名 : 张静 学科、专业 : 管理科学与工程 学 号 : 20711021 指 导 教 师 : 党 延 忠 完 成 日 期 : 2010年 5月 火 il理工太營 Dalian University of Technology 71994-
2、2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目 : 学科交叉分析方法与应用研究 _ 作
3、者签名: _ 日期: 年 ),(/2,你 2)-(/,, )-(/|1, ),其中 &表示第女个特征项 ; 为 “ 的权 重。 通常特征项的提取需要对文本进行切分 (中文分词、英文通过词的分界符识别单 词)、停用词处理、英文词的词形还原或者提取词干 (Ste酬 ing), 经过若干个处理步骤 后,基本上就可以得到 一 系列词,将这些词作为文档的特征。所有的这些词构成一个 “ 空 间 ” ,每个词对应着空间中的一维。每个文档可以用文档中的词来表示,这些词及其对 应的权重构成一个向量。传统的 VSM是为了信息检索而提出来的,为了适应文本分类聚 类的应用,提高程序的运行速度和分类精度,剔除那些表现力
4、不强的词汇,特征项的提 取规则也出现了多种算法 46,如文本频数、信息增益、互信息、开方校验、期望交叉 熵、优势率和文本权证等,这里 不再详述。 根据特征对文档内容表达的重要性每个特征可以获得一个权重,权重的经典定义是 TF*IDF公式。其中 TF指 Term Frequency, 表示 t在文档 d中出现的次数,称为词频; IDF指 Inverse Document Frequency。 IDF反映特征在整个文档集合中的分布情况,在 定程度上体现了该特征的区分能力, TF反映特征在文档内部的分布情况,两者相结合 的 TF*IDF可以看成该特征在文档中的重要程度。公式表示如下: _ r/(/,
5、)xl g(/(+0.01) 。一 wn = i=r : . u 其中,化为特征项 t在文本 /中的权重,而 t/u, 为特征项 t在文本 i中出现的 频率, yV为训练文本的总数, /7,为训练文本集中出现 t的文本数, 0.01为常数因子,分 母为归一化因子。 文档表示成向量以后,文档之间的语义距离或者语义相似度就可以通过空间中的这 两个向量间的几何关系来度量。衡量两个特征向量之间的距离,存在三种最通用的距离 度量 47:欧氏距离、余弦距离和内积。其中最常用的是余弦距离,夹角余弦值越大, 两个向量在空间中的夹角越小,表示其语义距离越小,文档越相似,经典的计算公式如 下: 71994-201
6、8 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 simdd 1)二 dl IKIIx K (1.2) (2)对 VSM的改进 VSM模型具有一定的灵活性和适应性。其特征项和权值都可以根据具体应用进行试 验和调节,经过训练为各个任务找到优化的模型。但是关于特征选取和权重标准等没有 统一的理论基础,特征项独立性的假设不能被确切检验,而非独立性所造成的具体误差 也难以被有效评估和控制忽略了特征之间的语义相关性和特征之间的序关系。对于 VSM 的改进主要集中两
7、个方面:一个是对特征词 IFIDF的改进;一个是考虑到特征词语义关 系的改进。 考虑到 IFIDF的缺点,很多学者对其进行改进,并将其应用到新的领域。 BongChih How 和 NarayananK48提出了用 Category Term Descriptor (CTD)来改进 TFIDF,以 弥补数据集在类别分布上的偏斜带来的困扰;张玉芳 49等考虑特征项在类间和类内的 分布情况,增加了在一个类中频繁出现的特征项的权重,提出一种改进的 TFIDF算法。 此外,为了适应特殊的应用领域,学者们也对其进行了相应的改进,比如中文组合型歧 义切分中, LuoXiao50等提出利用改进的IFIDF消
8、除中文分词中组合型分词歧义性问 题,将组合型歧义词分割中的精度提高到 96. 58%;根据聊天文本都很简短的特点,许 晓昕 51等提出按照主题分类的历史缓 存来提高 TFIDF算法对于这类文本的处理能力; 宋斌 52等根据不同的各种 HTML标记的不同,对网页的重要程度不同这一特点,提出通 过加入网页特征因子 (网页标记格式的权重 )改进传统的 TFIDF算法,得到了新的基于网 页特征的 THDF算法。 VSM假定特征词之间是独立,但事实上特征词之间存在着上下位关系、同义关系、 相似关系等各种语义关系。考虑到这些关系,学者开始在文本表示中引入特征词的关系, Liping Jing53等根据 W
9、ordnet和词共现信息得到特征词之间的关系矩阵,并将关系矩阵 反映到特征词 的权重信息上; AndreasHotho54等将特征词统一到本体层次上,用更具 有一般性的本体知识来表示特征矩阵;曾德华 55将本体和词共现的思想引入到中文文 本的特征表示,给出了中文文本特征流程图(见图 U);张杰 56等也在 VSM的基础上, 构建领域本体,利用表示词间关系的本体语义树计算词汇相似度,从而计算出语句的语 义相似度,使该方法更适合智能答疑系统。 71994-2018 China Academic Journal Electronic Publishing House. All rights rese
10、rved, http:/ 大连理工大学硕士学位论文 图 1.1基于语义和统计特征的中文文本建模流程 Fig. .1 Chinese test modeling process based on semantics and statistical characterization 1.3本文主要内容及结构安排 本论文的研究内容是在针对科研项目申请书特点文本建模和相似度计算的基础上, 找到科研项目之间的相似性,分析总结得到学科交叉的规律和性质,最终建立学科交叉 分析的可视化系统。 本文的结构安排如下: 第一章是绪论部分,介绍学科交叉以及文本建模的发展研究情况。 第二章介绍本论文学科交叉分析的相关算
11、法 一一 针对科研项目申请书建模与相似 度计算,在科研项目文本网络结构图建模的基础上,得到文本特征词之间的语义关系, 根据语义关系,对特征词的词频统计进行改进,提出了考虑语义关系的相似度计算方法, 并在结合实际对算法进行了验证 。 第三章是学科交叉分析的应用介绍。根据基于语义的相似度算法得到科研项目申请 书之间的相似度值,选择特定的阈值找到具有交叉关系的项目,根据项目关系统计分析 出学科之间的交叉关系。这一章以管理科学学科与其他学科的交叉分析为例,从宏观、 中观、微观三个层面对这一交叉进行了分析,设定交叉指标,统计交叉规律,并根据分 析结果给出了相关理论分析与政策建议。 第四章是可视化系统的设
12、计与实现,该系统实现了学科交叉分析的相关算法和应用 的整个过程,主要包括文本特征提取、相似度计算以及学科交叉分析三个模块。 最后,是对本文工 作的总结,该部分对论文的整个工作进行了总结,并给出了论文 有待解决的问题,为以后进一步的研究提供了方向。 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 2科研项目申请书建模及相似度计算 2.1科研项目申请书建模 科研项目申请书是凝结科研人员心血最多,知识含量最大的一类科研项目管理文 档。在科研
13、项目的审批过程中,科研人员要提交项目立项申请书,通过特定的申报和评 审程序,来获得科技管理机构的立项资助。申请书的好坏往往是科研项目能否获得资助 的决定性因素,申请书表达得好,专家往往容易获得认可,从而项目得到批准。因此, 科研人员非常重视申请书的撰写,付出大量的精力来写申请书。作为科研人员申请项目、 专家评议和科研管理人员筛选项目重要载体的科技项目申请书,在每个科研管理机构都 会有一个申请书的撰写规范 。一 般来说,科研项目申请书包括了项目名称、简表、课题 组成员、内容摘要、立论依据、研究目的、研究内容、研究方法、技术路线、可行性分 析、结果预测、本研究创新之处、实验条件、研究基础、经费预算
14、、研究进度等部分。 这些内容涵盖了科研项目的自然属性 (如项目起止时间)、管理属性 (如研究性质、计划 类别)以及知识属性。对于科研项目的自然属性、管理属性一般都有比较好的结构化形 式描述,而对于其知识属性,一般都是采用自然语言或者科学符号等来表达,这就导致 了实施知识管理的困难。因此,对于科研项目申请书的建模实际上描述科研项目中所蕴 含知识的描述。随着文本处理技术的发展和应用,对于科研项目的文本建模也逐渐发展 和改进。 2.1.1基于知识元向量空间的建 模 知识元的概念形成于 20世纪 70年代后期,文献 57指出,知识的控制单元将从文 献深化到文献中的数据、公式、事实、结论等最小的独立的
15、“ 知识元 ” 。文献 58将知 识元的概念引入到科研项目管理中,以实现对科研技术知识的结构化表示。该文献重新 界定了知识元的概念,知识元之间的关系以及知识结构。知识元是科学研究过程中作为 知识输入、知识创新以及知识输出的单元,包括理论、原理、概念、定义、范例、规则 和结论等。知识元之间的关系则包括先导、方法、条件、因果、继承等知识元之间的关 联。知识结构则是指若干个知识元依据 逻辑关系而构成的有机整体。 科研活动的过程,是一个知识创新的过程,而科研项目申请书中的知识结构恰恰能 够反映科研过程中知识的结构,也就是一个知识过程中的知识结构。科研项目申请书的 知识结构可用图2.1来描述 ( 图来源
16、于文献 58)。 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理 :.丨 :大学硕士学位论文 图 2. 1科研项目申请书的知识结构 Fig.2.1 Knowledge structure of granted proposals 根据知识结构中各类知识的关系,可以对科技项目申请书的知识进行分类:研究对 象、研究目标、方法、技术路线、结论等。每一类知识都是由更小的单元知识元组成, 这样,科技项目申请书中的知识可以用向量的形式描述如下: Vke(d):(ke
17、i,wi(d)5(ke2; w2(d),(ke3!w3(ci),.(ken,wn(d) 其中: kei,ke2,., ken表示科研项目中所涉及的知识元; wi(d), w2(d), .,wn(d)表示该知识元在科研项目中所属的类别,如研究对象、目标、 方法、技术路线、结论等。 采用这种形式,不仅可以表示出科技项目中所蕴含的知识,而且可以将这些知识之 间的关联关系也表示出来,从而可以充分、精确地表示科技项目管理中知识载体的科学 技术知识单元,在深层次上进行知识组织,实现对科技项目管理中科学技术知识的有效 管理。 将知识元引入到科研项目申请书中,用知识元之间的关系来表示文献中的知识结 构,知识元
18、以及知识元之间的关系构成知识元网络,这个网络可以表示大规模的科学技 术知识体系结构,也为构建描述知识载体中的知识单元的知识结构模型提供了统一标 准,并且可以通过知识元 之间的关联度计算,实现在分析知识载体之间知识相似性或者 知识共享时进行拓展推理。 文献 58给出了基于知识元空间向量的科技项目申请书文本建模的一般模型和理论 描述,知识元的选择这一关键点也给出了一般性描述和选择原则,但是如何在具体应用 中选择知识元,如何确定知识元的属性类别,却没有给出说明。这两个问题都是这一方 法应用的主要障碍,知识元的确定本身具有主观性,而类别属性本身就很模糊 ,一 个知 识元也许隶属于不同的类别,对于不同的
19、类别属性之间是否有一定的联系也无法论证。 在空间向量表示的文本模型中,后续的相似度计算算法并没有应用属性特征,采用的还 是原始的空间向量法来计算文本的相似性。 11 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 2. 1.2基于汉明码集的科技项目建模 汉明码是信息论中的基本概念,利用汉明码来表示文本首先由张焕炯 59等在基于 汉明距离的文本计算中提出,该文章首先建立文字集与码字集之间的 1-1对应关系,然 后利用编码理论中汉明距离的
20、概念,由汉明距离的计算公式,来计算文本之间的相似度。 文献 60将汉明码集的思想用来实现科研项目申请书的计算机表示,以用来对科研项目 进行自动分类。 首先,利用某一领域词库选择一定的方法进行分词,分词后统计各领域关键词在特 定申报书中的词频。然后,根据相应领域汉明码集模版构造该科研项目申请诉的汉明 码 集。领域关键词的模板如图 2.2: 每一组表示某一领域关键词在该项目申请书中出现的情况。如果关键词在该项目申 请书中出现 i次,则其对应的汉明码字段为 C1, 1, “* , 0 , 0) 其中 n为该关键词所对应的汉明码段向量的维度,它会根据某一关键词在项目申请 书中出现的词频最大值不断加以调
21、整的。将所有关键词对应的汉明码段连在一起就构成 该项目申请书的汉明码集。 利用汉明码集表示科研项目申请书,简便、快速,提高了科研项目申请书分类聚类 的速度,在计算相似度时完全避开了在欧式空间中求相似度的大量乘法运算,计算速度 快。它跳开了传统的借用空间的思想,利用码字的方法表达文本信息特征,为联合描述 文本信息提供了可能。但是,汉明码选用的领域关键词仍然没有脱离独立性假设,特征 词之间的关系没有考虑。因此,如何提取文本的信息特征,如何排成与文本 -1对应的 码字集合成为运用该方法的关键和难点。 ? 1994-2018 China Academic Journal Electronic Publ
22、ishing House. All rights reserved, http:/ki.iiet 大连理工火学硕士学位论文 2.1.3科研项目文本网络结构图建模 汉语和英语的构词结构不同,尤其是汉语的复合词,虽然结构复杂,但是从组成复 合词的内部着眼,可以看出其类别和条理。尤其是科技类文本多采用专业术语,用词规 范。从一般意义上来讲,长度较长的特征项在意义上有较好的专指性,在概念上一般处 于下层,而长度较短的特征项具有较广的范畴,在概念上一般处于上层 61。科技文本 的专业术语由于具有公共部分而产生了语义的相关性。将科研项目中的特征项作为要 素,特征项之间的相关性作为要素之间的关系,一个科研项
23、目申请书可以作为一个系统 , 此系统可以用网络模型来表示。 文献 62根据上述科研项目的特点,提出了采用文本网络结构图建模的方法。首先, 在基于长度优先切分词方法的基础上,利用迭代学习来获取层次特征项,得到了科研项 目文本特征项。然后以这些特征项作为节点,特征项之间的语义信息作为关系,建立文 本网络模型。文本特征项的网络模型为: G= (W, R) (2.1) 其中, W为节点的集合 ,可以表示为 W-KWFreLeni), Wi表示特征项, Freqi 表示特征项的频率, Leni表示特征项的长度。 胪 为节点 Wi和 Wj之间相关性的集合。可以通过比较特征项之间词形的相关性 得到,赋值规则
24、为:如果 lenpleiij并且 Wi包含 Wj, 则从特征项 Wi到特征项 Wj有语义 关联关系,关系的权值为 lien: Tij lerii+len (2.2) 通过节点和关系的建模,单个科研项目申请书就构成一个文本网络结构图,该结构 图具有属性、单向无环性和加权性。 利用文本网络图表示科研项目申请书,既能够表示文本特征项的信息,又能够表示 特征项之间的层次语义关系。文献 62不仅给出了该模型的描述,还给出了文本结构表 示的实例,对科研项目文本建模的发展有重要作用。文献虽然说明了用科技术语来选择 特征项,但是并没有给出删除非特征项的方法;文献仅仅提出了文本建模的方、法,并没 有给出该文本建
25、模在相似度计算,文本分类聚类等后续文本过程的应用。因此,本论文 在该方法的基础上提出去掉非特征项的方法,在相似度计算中考虑网络中特征项的关 系,给出了一个完整的基于语义的相似度计算方法 。 -13- 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 2. 2基于语义的相似性计算方法 2.2.1特征提取 特征提取是指从一篇文档中提取出能表示文档信息、能反映文档内容、能表达文档 主题的关键概念,概念用词或词组表示。提取出来的关键概念可作为文
26、本表示模型的特 征词。目前,特征提取技术主要有以下几种:基于主题词表方法、基于词义的方法、基 于统计的方法与基于单字分析的方法。本论文结合基于主题词表方法、基于词义的方法 和基于统计的方法,利用中文主题词分类词表、名词委提供的词表以及申请书关键 词集合,采用人机结合的方式提出了一种特征提取方法。提取过程如下图: 图 2. 3特征提取过程 Fig.2.3 The process of Feature Selection 分词:利用主题词典分词以保证分词的质量,从而使切分出来的词集合包含更多的 领域相关词和主题相关词。 停用词与伪关键词过滤:在科技项目申请书中,大量存在着 “ 研究 ” , “ 方
27、法 ” 等 一般性的科技名词,这些名词的存在对项目之间的相似性计算造成了千扰 ,我们称其为 伪关键词,在选择特征词时有必要将其清理。伪关键词词典的构成是一个不断迭代的人 机结合过程。根据上面的清理预先得到 一 个特征词集,进行相似性计算,根据结果选择 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理 :丄大学硕士学位论文 相似度数值较大的项目组,由专家判断两个项目是否相似,如果不相似,则这两个项目 是伪相似项目组;对伪相似项目组的特征词集进行分析和判断,找
28、到造成这两个项目相 似度数值较大的关键词,将其存入伪关键词词典。将伪关键词过滤,得到新的特征词集, 以此词集为基础进行相似度计算,重复伪关键词的寻找过程,直到某个阈值下不再存在 伪相似项目组。 词性标注:标注每个词的词性。 概念映射:利用同义词典将多个同义词映射到一个概念上。 经过以上的清理过程,就得到了科研项目申请书文本建模的特征词集。 2. 2. 2权值计算 对特征词赋予权值最常用的是由 Salton在 1988年提出的 TF-IDF公式,见公式 1.1, 针对不同的应用领域, TF-IDF不断改进和发展,适用范围也越来越广泛。科研项目申 请书多采用专用名词,用词规范,在特征提取过程中,提
29、取出的特征词多为专指语义串、 短语和词等基本的语言单位。这些语言单位,具有概念语义的整体性和完整性,它们均 是大于等于两个汉字的特征词。这些特征词和子特征词由于包含具有确定语义的公共部 分而具有一定的关联关系。一般意义上讲,长度较长的特征词在语义上有较好的专指性, 在概念上一般处于下层,而长度较短的特征词具有较广的范畴,在概念上一般处于上层。 我们利用由词形上反映出来的特征词之间的语义关系,通过改进 TF部分,在赋予权值 时反映特征词之间的语义关系,从而使得 TF-IDF的权值计算方法适应科研项目申请书 相似度计算的需要。 如果 lenpleny并且 Wj包含 Wj, 则从特征项 Wi到特征项
30、 Wj有语义关联关系。特征 词 Wj到特征词 Wj的语义关联关系用 ru表示,公式见 2.2。根据公式 2.2,可以构建特征 词的语义关系矩阵 Rij, 对角线上的值为 1,该矩阵为方阵。长度较长的特征词的出现 , 意味着长度较短的词在一定程度上也相应出现。由于语义关系 q在定义时就考虑了关系 的方向性,因此,考虑到语义关系的特征词频率可以表示为 (2.3) i tfi表示特征词出现在某一个文档中的次数, tfj表示考虑特征词之间的语义关系后的 调整频率。 如果科研项目申请书文档与特征词的频率矩阵用 TFij 表示,考虑到语义关系的特征 词频率矩阵用 TFij可以用如下公式计算: TFij =
31、TFij* Rij (2.4) 15- 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 至此,科研项目申请书文档的特征词频率有三种统计方式。第一种,完全不考虑特 征词之间的语义关系,不管特征词在何时出现,都作为出现的次数累计统计,我们称之 为完全非独立统计,也就是说是指在统计词频时,只要该词出现就计入频率次数,不管 之前统计的词语中是否包含该词语,长词(包含词的个数比较多的词 ) 出现的次数比较 多,就代表着短词相应的出现同样的次数,
32、存在着重复统计的现象;第二种方式我们称 之为完全独立统计,只要之前统计的长词中包含再次统计的短词时,该短词的出现不计 入自身的频率中,也就是说只统计词语独立出现的次数,不考虑它们包含在长词中出现 的次数。但是,事实上长词中包含的短词在计算文档相似度时是有一定的关联性的。第 三种方式,也就是本论文提出的基于语义计算的词 频统计方式。考虑语义关系统计,是 指考虑长词和短词在词形上的语义相似度。将其反映在词频的统计上,长词的出现在一 定程度上能够映射短词之间的出现关系。下面我们将举例说明这三种词频统计方式在具 体实行过程中的差距。 对于下面一段科研项目申请书中的文字,统计特征词出现的频率。 “ 提出
33、基于对象知识网的信息系统形式化表达方法,解决知识网表达信息系统的 信息爆炸 问题,为信息系统的分析提供数学理论的支持,加深对信息系统本质的认识 以及其规律的掌握,奠定信息系统重用性、适应性等性能优化的理论基础。 ” 利用三种方式统计的 特征词频率如下表(表 2.1)。 表 2.1三种特征词频率统计方法 Tab.2.1 Three methods of term frequency statistics 特征词(有关系的) 不同方法下的特征词频率统计 完全非独立统计 完全独立统计 考虑语义关系统计 信息系统 5 5 5 信息 6 1 1+5*2/3 系统 5 0 0+5*2/3 知识网 2 2
34、2 知识 2 0 0+2*4/5 考虑到特征词之间基于词性的语义关系,对于特征词的权值计算公式表示如下: = 一 tfUxlogiN/Nj+O.Ol) ij (2.5) 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理工大学硕士学位论文 其中, W;7为特征项 J在 文 本 中 的 权 重 , 而 为 特 征 项 J在文本 J中调整后 的频率,可以在矩阵 TFi找到对应值。 yV为训练文本的总数 , /V,为训练文本集中出现 j 的文本数, 0.01为常数
35、因子,分母为归一化因子。 2. 2. 3相似度计算 通过上述特征词和特征词权值的计算方法,科研项目申请书文本已经被表示为 VSM 特征向量。衡量两个特征向量的近似程度的方法很多,主要是通过计算两个特征向量之 间的距离,存在三种最通用的距离度量 47:欧氏距离、余弦距离和内积。我们采用最 常用的方法,即考虑两个特征矢量之间的夹角余弦,计算公式如下: 特征提取中,伪关键词典的建立与相似度计算的过程是相结合的,因此,相似度计 算是与伪关键词典的建立同步进行的迭代过程。这个过程可通过图 2.4的流程来表示。 不同的文本建模方法,对于文本相似度计算的结果有着不同的影响。 在权值计算过 程中,有着三种确定
36、特征词权值的方法,这三种方法对于我们后续的结果分析有着直接 的影响。文献 53-56都证明了在权值计算中考虑语义关系的优越性。不过,由于科研项 目申请书本身的特殊性,我们组织了专家对文档之间的相似度进行评估,以此来判断本 文所提出的基于语义的相似度算法的优劣,见表 2.2。图 2.5为三种情况下相似度算法的 比较。 -17- 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 图 2. 4文本相似度计算过程 Fig.2.4 Process
37、 of text similarity calculation 表 2. 2相似度方法比较 Tab.2.2 Comparison of different similarity calculation methods 申请书 完全非独立 完全独立 考虑语义 专家评价 dl d2 0.30 0.18 0.29 0. 28 d3 d4 0. 42 0.11 0.39 0. 38 d5 d6 0. 43 0. 26 0.41 0.40 d5 d7 0.51 0.37 0.52 0.45 d8 d9 0.68 0.42 0.64 0. 60 dlO d8 0.49 0.34 0. 49 0. 50 d
38、5 d8 0.59 0.38 0.57 0.58 d2 d6 0.35 0.19 0. 33 0.30 dl d6 0. 33 0. 20 0.31 0. 29 -18- 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理工大学硕士学位论文 图 2.5相似度计算算法比较 Fig.2.5 Comparison of different similarity calculation methods 通过以上的讨论我们得到以下结论 : (1) 三种算法的总体趋势是
39、一致的,与专家评估基本一致,都能反映文档的相似 性。 (2) 基于语义的相似度计算与专家的评估值最为接近,效果最好。 19 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 3学科交叉分析 3.1项目数 据介绍 国家自然科学基金委将科学领域划分为七大类:数理科学部、化学科学部、生命科 学部、地球科学部、工程与材料科学部(简称工材科学部)、信息科学与管理科学部, 这七大类科学领域划分分别对应国家自然科学基金委的七个科学部。在各个科学部下设
40、 一级学科代码,是各个科学部下根据基本理论、方法和领域进一步细化下的不同学科。 在各个学科下又细化为不同的研究领域,对应着学科代码体系的二级学科代码。研究学 科交叉主要从三个方面进行,从宏观上研究跨越科学部的交叉;从中观上研究科学部下 的学科之间的交叉;从微观上找到学科交叉的具体领域。根据第二章的方法分析,可以 根据国家自然科学基金委已资助项目的项目申请书的文本处理和结果分析总结得到学 科交叉的最新情况。 为了反映学科交叉的时代特征,使我们的分析结果更能够为现代科学的发展有指导 意义,本论文选取了最近五年 ( 2003年至 2008)各个学科下的国家自然科学基金委己 资助项目的项目申请书共 9
41、956项,申请书内容包括标题、摘要、关键词、申请学科代 码(学科代码 1,学科代码 2),具体情况见表 3.1。 学科代码 1-6是自然科学领域的六个科学部,本章主要根据第二章的文本处理方法 找到管理科学与自然科学之间的交叉项目,并从宏观上分析管理科学与自然科学的项目 交叉情况。 表 3.1项目数据 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 火连理工大学硕士学位论 文 Tab.3. Information of Proposals 科学部 科学部 涉及学科
42、 项目数 经费总额 面上项 经费总额 代码 名称 (个) (万元 ) 目(个) (万元 ) 1 数理 科学部 101 (数学 ) 527 11384. 402 412 8196 2 化学 科学部 206 (化学 X程及工业化学 ) 161 4585 154 3855 牛命 303 (生态学 ) 26 3 科学部 304 (林学 ) 77 2727 99 2321 4 地球 科学部 401 (地理学 ) 750 24139.7 686 19027 504 (冶金与矿业) 115 工材 科学部 506 (工程热物理与能源利用) 8 5 508 (建筑环境与结构工程 ) 461 27896. 95
43、774 20175 509 (水利科学与海洋工程 ) 303 601(电子学与信息系统) 380 6 信息 科学部 602 (计算机科学) 2095 117984. 5551 3331 76436 603 (自动化 ) 1673 701 (管理科学与工程) 1063 7 管理 科学部 702 (工商管理 ) 1049 65785. 4081 2642 46560.1 703 (宏观管理与政策) 1270 根据章节 2.2计算出的项目相似度计算结果,选择交叉项目组,就可以从宏观(科 学部)、中观(学科)、微观(领域 ) 方面分析学科的交叉情况。在伪关键词典的建立 过程中,可以得到一个项目相似性阈
44、值的经验值 ( 0.5)。根据这个阈值选择一系列的 交叉项目组,作为分析的基础数据。在不同的分析层次下,考虑项目的经费额度、时间 跨度等,分析资助结构与演化情况。具体过程如图 3.1: - 21 - 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 学科交叉分析方法与应用研究 图 3.1学科交叉分析过程 Fig.3.1 Process of Interdisciplinarity analysis 3. 2科学部交叉分析 科学部的交叉分析旨在分析管理科学部与自然科
45、学部的六个科学分类之间的 交叉 状况,从总体上把握管理科学部与其他六个科学部的交叉分布情况,为进一步分析下属 学科的交叉提供试验和理论基础,并且为国家宏观调控科学基金项目经费等提供参考。 首先,从总体上来分析管理科学部与其他科学部的交叉项目情况。 考虑所有项目,管理科学部 358项与其他科学部的共 393个项目存在交叉关系(见 图 3.2)。从交叉项目数量上来看, 6 (信息科学部)、 4 (地球科学部)、 5 (工材科 学部)、 1 (数理科学部)与管理科学部的交叉较多,而 2 (化学科学部)和 3 (生命科 学部)与管理科学部的交叉很少,分别只有 2个和 6个项目与管理科学部的项目 4个和
46、 8个项目相似。原始数据的项目数量会对这一结果造成影响,因此,我们计算交叉项目 数占所在科学部所有项目的比例,来进一步分析科学部之间的交叉概况,得到图 3.3。 其他科学部与管理科学部交叉的项目数量占所在科学部的比例在 1.24%以上,从这一结 果可以看出,其他科学部与管理科学部都存在着一定程度的交叉,这是我们进行宏观分 析以及下面的学科和领域分析的基础和前提。 71994-2018 China Academic Journal Electronic Publishing House. All rights reserved, http:/ 大连理工大学硕士学位论文 图 3. 2管理科学部与其
47、他科学部交叉项目数量 Fig.3.2 Number of proposals in Management Science crossing with other disciplines 图 3. 3管理科学部与其他科学部交叉项目比例 Fig.3.3 Proportion of proposals in Management Science crossing with other disciplines 第二,分析交叉项目之间的经费情况。 在所有的交叉项目中,管理科学部的经费是 9963. 3万元,其他科学部的经费 共 11598万元,具体到管理科学部与每个科学部的交叉项目的经费额度见图 3.4。 为了不同科学部之间的经费进行比较,我们同样计算了交叉项目的经费额度占所 在科学部的经费额度的