《档案管理中的文档分类技术应用的分析.docx》由会员分享,可在线阅读,更多相关《档案管理中的文档分类技术应用的分析.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、档案管理中的文档分类技术应用的分析一、档案管理中的文档分类技术应用方法文档分类,或者称之为自动地指派语意上的类别予以由自然语言所构成的文档,是目前常用来管理档案信息的一种方法。归纳式的文档分类希望从一些事先标定的文档集里推导出一个分类的准则,此后能够正确地应用此分类准则来对未知的新文档做分类。一是二元Binary设定法。二元设定法是最简单,也是学习型问题LearningProblem里最重要的设定公式。其它复杂的设定法都能够通过一定的简化步骤,退化为二元设定法的公式。在二元设定法里,只存在两种类别标签。例如在档案信息检索InformationRetrieval的应用问题里,此两种类别标签能够被
2、标定为“相关或者是“不相关这两大类。同样的,在电子档案的分类应用里,能够将接收的电子档案区隔为“垃圾文档与“非垃圾文档这两大类。这代表类别标签的值只能有两种可能的值,为了符号定义的方便,这两种可能的值设定为-1与1。二是多类别Multi-Class设定法。有些分类的问题牵涉两类以上的分类法。例如一个电子文档派送程序,它负责判定能否将所有接收到的电子文档转发给十位中层管理人员。这代表类别标签能够是十个更广义的讲法为l同的值。三是多标签Multi-Label设定法。绝大多数文档分类的问题落在该设定法内。它和多类别设定法不同之处在于类别标签和文档之间不是一对一的对应关系。相反地,每一个文档都能够落在
3、多个、唯逐一个,甚至是零个的类别之内。例如,当档案的情境为分类新闻报导时,每一个语意上的主题都能够成为某一类别的标签,所以一篇新进的新闻报导能够同时落在“足球和“巴西这两个不同的类别之内。这类的设定法能够用一个多维度的二元向量来代表诸多的类别标签。由于类别标签已经使用单维度的二元向量的方式来表示,分类规则所产出的结果也必须是单维度的二元向量。二、档案管理中的文档分类应用词汇在处理自然语言的问题时,文档内的上下文脉络Context会影响一段文字表达的意义,同样的一个单词,在不同的句子里能够有不同的意义。在文档分类的问题里,会采用不同的方法来表达文字,根据不同的需求,可能会可以能不会辨别这些不同的
4、相依性和意义。一般而言,根据文档分析层级的深度,总共有下列四种不同的表达法:次词Sub-Word层级;字词Word层级;多词Multi-Word层级;语意Semantic层级。在每一个层级里,最基本的构成组件BuildingBlock称之为索引字IndexTerm。一是字词Word层级。在很多的情况之下,单词是很好的表达单位,同时单词具备很低的模棱两可性。尽管存在所谓的多义词,但也假设其对整体文档的代表性的冲击是很小的。事实上,字词层级的表达方式已经被证明在信息检索与文档分类的领域里是很有效的。以单词为基础的表达方式的优点为简单和直觉。不考虑逻辑上的构造,使用单词当成是索引字的最小单位能够把一
5、份文档转化成一连串单词的组合。同时我们假设单词出现的顺序在文档分类的任务中是无关紧要的。二是次词Sub-Word层级。该层级不使用单词当成是索引字,一个由n个字母所构成的字串被视为基础的构成组件,这种表示法能够建立类似性的模型,如“computer和“computers是不同的单词。使用这种表示法的优点是系统能够处理拼字错误,允许使用者输入错误的单词,经过系统比对,自动找到类似的单词。三是多词Multi-Word层级。借助语言学上的工具的辅助,大量的文档能够基于句法Syntactic上的构造做深化的分析。在这一个层级里,索引字通常是参考句法构造的信息所产生的。最常被使用的句法构造之一是“名词片语。这种方式通称为句法片语索引SyntacticPhraseIndexing。四是语意Semantic层级。到目前为此,现今既有的信息科技与技术尚未能做到自动化的摘取一份文档的内容所代表的完好语意,并且表达成能够用以作为数学运算的形式。但是就某些角度而言,有研究指称能够使用分类学以及一些固定字汇的索引语言来获得文档所代表的语意。网络上的Yahoo!分类架构就是其中一个例子。Yahoo!使用阶层式的分类树,用以组成整体的分类构造,接着以人工的方式将网页分到一至多个的分类类别里。