《信息检索技术习题答案2012版教学提纲.doc》由会员分享,可在线阅读,更多相关《信息检索技术习题答案2012版教学提纲.doc(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Good is good, but better carries it.精益求精,善益求善。信息检索技术习题答案2012版-答案*一*填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。2信息加工:是指对获
2、取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。3信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。4检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。5信息检索:可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包
3、括存与取两个方面。狭义的信息检索仅指信息查找过程。6信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。7检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。简答题1简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。2简述影响信息动机向信息行为转化的主要因素答:(1)信息动机强度(2)认知能力(3)抱负水平3简述信息需要的特点答:(1)信息需要的广泛性(
4、2)信息需要的社会性(3)信息需要的发展性(4)信息需要的多样性4简述信息检索系统的构成模式答:(1)信息数据的选择、处理、录入、维护子系统(2)词表和标引子系统(3) 检索子系统(4)系统-用户接口子系统5.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。论述题1有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。(3)加工过程有其内在联系,构成一个完整的系统。(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变
5、化和完善。(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点,信息加工分为6个层次:外表信息的加工是描述性的,给用户提供的是信息的线索;整体信息的加工是概述性的,给用户提供的是信息的内容特点;内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;
6、相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。*二*填空1. 数据字典2. 定义机制验证约束机制3. 外模式内模式模式4. 题录文摘全文5. 人工标引计算机辅助标引自动标引6. 对比匹配7. 概念相关性位置相关性8. 夹角余弦9. 知识库文本处理智能接口名词解释1数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2著录:就是对信息外部特征进行分析、选择与记录的过程。3标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。4词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻
7、近检索。简答题1什么是倒排文档?为什么要使用倒排文档?答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。在实施检索时,必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2简述布尔模型及其优缺点答:布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使结果太少。3简述向量空间模
8、型及其优点答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外,向量空间模型计算简单,检索速度快。4简述“网播”的信息推送方式答:(1)频道式推送(2)邮件式推送(3)网页式推送(4)专用式推送5简述智能信息检索的系统结构答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6简述智能信息检索的主要方法答:(1)统计方法(2)文本分析方法(3)人
9、工智能方法(4)语料库方法7. 有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。分标引加权和检索加权;检索加权是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。
10、词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。*四*填空1.表示存储组织访问2.文件内容表达信息查询的获得相关信息的匹配3.基于文本基于Web基于字表基于词表4.分词子系统句法语义子系统总控
11、部分5.自动主题标引自动分类标引6.统计标引法概率标引法句法分析法语义分析法人工智能法7.文本输入词典抽词知识库综合与转换输出8.词频标题位置句法结构线索词指示性短语9.索引数据库检索机制10.主文件倒排文件11.数据准备文本预处理数据加载名词解释1全文检索:是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。2自动标引:是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。3主题词标引:是指抽取信息中能够表达其核心内容的词或词组,并将这些词或词组转化为受控词的过程。4自动文摘:就是
12、利用计算机自动地从原始文献中提取文摘。简答题1简述单汉字标引法及其优缺点答:单汉字标引法是众多标引方法中比较有影响的一种。吸收了西文自动抽词标引的思想,把一个单汉字看成一个西文单词而作为标引词,检索时先匹配单字,再进行词组重组。另外增加了一个停用字表,提高了标引效率。优点:单汉字法绕开切分问题,容易实现,便于系统维护,标引速度快、深入、客观且一致,词语组配灵活。缺点:检索速度不快,增加了用户的智力负担,浪费了计算机存储空间,牺牲了隐含概念主题及词汇间相互关系的表达,系统的查全率和查准率都不能令人满意。2简述主题词标引的基本思路答:主题词标引的基本思路是利用汉语自动分词的研究成果,采用词典分词法
13、将文献进行切分,通过词加权或词频统计法对切分后的词进行排序确定关键词,利用主题词表将关键词转化、合并、去重、重新排序后确定系统正式使用的主题词,并追加文献代号送入系统主题词字段中。3简述主题词标引的实现答:(1)构造词表构造切分词表构造主题词表(2)主题词标引抽取关键词归并关键词确定标引词主题词标引4简述自动标引的基本流程答:自动标引的基本流程包括:确定标引源、输入标引源内容、预处理、分词处理、确定关键词、转换为受控词、给出主题标识符。9. 简述自动标引的基本方法自动标引的方法主要有:(1)统计标引法;(2)概率标引法;(3)句法分析法;(4)语义分析法;(5)人工智能法10. 简述汉语自动标
14、引的方法较典型的汉语自动标引方法包括:词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。11.简述自动标引的系统构成一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换以及输出等6个子系统。*五*填空1.从互联网上抓取网页建立索引数据库在索引数据库中搜索排序2.目录式机器人元3.搜索器索引器检索器用户接口4.页面数据索引数据URL数据5.域名服务器(DNS)6.站点爬行7.消除重复辨别类型限制范围限制深度8.深度优先广度优先9.插件10.字符串词条11.数据汇编12.单词13.词汇词汇出现情况14.索引15.效率准确性16.模板级网页库级17.全面性更新
15、性准确性功能性18.以网对网一级映射模式19.词典生成工具词典导出工具词典连接工具20.语意分析器词典维护工具关键词分析名词解释1搜索引擎:从狭义的角度来说,搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。从广义的角度上讲,搜索引擎是互联网上的一类网站,是提供查询、搜索的网站。2垂直搜索:是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,它通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。3Innernet网:就是由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统。简答题1简述搜索引擎的特点答:(1)信息服务的综合
16、性(2)信息服务的智能性(3)信息服务的个性化(4)具有支持Agent的能力(5)具有与电子商务灵活结合的能力2Robot程序设计时需要考虑的问题是什么答:(1)与平台无关性(2)要考虑是否直接影响访问Web的效率,影响搜索数据库的质量(3)要考虑对网络或被访问站点的影响(4)还应遵守一些协议3简述网络蜘蛛的工作过程答:(1)网络蜘蛛向被访问的站点标明自己的身份(2)一般会访问一个特殊的文本文件Robots.txt(3)遵守相关协议(4)网络蜘蛛在下载网页的时候,会去识别网页的HTML代码。4简述文本预处理的步骤答:(1)文本的词法分析(2)无用词汇的删除(3)词干提取(4)索引词条/词干的选
17、择(5)构造词条的分类结构5简述检索器的功能答:检索器的功能是根据用户输入的查询关键字在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。6倒排文件如何搜索答:(1)词汇查找(2)查询词汇出现情况(3)词汇出现情况的操作7简述PageRank算法的计算公式答:网页A级别=(1-系数)+系数(网页1级别+网页2级别+网页N级别)网页1链出个数网页2链出个数网页N链出个数8简述垂直搜索的特点答:(1)垂直搜索的表现方式和一般的搜索引擎表现方式不同,结构化的搜索和非结构化的搜索并用。(2)从广告模式上,提供了除Googleadsense和百度竞
18、价排名广告之外的另一种可能。(3)垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点,倾向于结构化数据和元数据。(4)垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索。(5)垂直搜索引擎的搜索结果要覆盖整个行业。(6)垂直搜索引擎的Web2.0需求。(7)垂直搜索引擎的目标是帮助用户解决问题。(8)垂直搜索引擎的社区化特征。9简述模板级垂直搜索和网页库级垂直搜索的优缺点答:垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,
19、缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上、检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,其灵活性差、成本高。10简述个性化搜索中用户兴趣信息存放的解决方案答:关于用户兴趣信息的存放有三种解决方案:一是将用户的兴趣信息存放在搜索引擎服务器上;二是将用户的兴趣信息存放在用户的机器上;三是用户的兴趣信息存放在其他服务器上。11简述智能化搜索引擎的特征答:(1)网络蜘蛛的智能化(2)为特定用户提供相关信息(3)搜索引擎人机接口的智能化13. 简述垂直搜索的内容来源垂直搜索的内容主要来源于:门户网站自身的资源;以开放接口方式让行业用户提供的资源;普通用户发
20、布的资源;抓取行业用户的资源。14.简述垂直搜索所需要的技术垂直搜索大致需要信息采集技术、网页信息抽取技术、信息的处理技术、语意相关性分析、分词技术和索引技术等。15. 搜索引擎所使用的信息检索模型有那些?各有什么特点?布尔逻辑模型:布尔型信息检索是最简单的信息检索模型,用户利用布尔逻辑关系构造查询并提交,搜索引擎根据事先建立的倒排文件确定查询结果。标准布尔逻辑模型为二元逻辑,并可用逻辑符“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高,查准率低。目前大多搜索引擎均使用布尔逻辑检索模型,查询结果一般不进行相关性排序。模糊逻辑模型:这种模型在查询结果处理中加入模糊
21、逻辑运算,将检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。模糊逻辑模型可以克服布尔型信息检索模型在查询中其结果具有无序性的问题。向量空间模型:向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。概率模型:基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法,获取匹配函数,这是一种较复杂的检索模型。16. 简述建立搜索引擎的关键技术信息收集和存储一般分为人工和自动两种方式。信息预处理包括信息格
22、式支持与转换以及信息过滤。信息索引技术就是创建文档信息的特征记录,以使用户能够快速地检索到所需信息。17.搜索引擎如何对网页的内容进行提取1关键词的提取。网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。2重复或转载网页的消除3链接分析4网页重要程度的计算论述题1请尝试着比较一下搜索引擎与全文检索答:(1)数据量。全文检索的数据量只有几百万条,而搜索引擎的数据量极大。(2)内容相关性。全文检索强调内容相关性,而搜索引擎不强调内容相关性。(3)安全性。全文检索有安全性要求,而搜索引擎没有安全性要求。(4)个性化和智能化。全文检索的个性化和智能化要比搜索引擎的更好。2请评
23、价一下收费排名答:收费排名并不属于排序技术,而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序。收费排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处。对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。3如何看待垂直搜索的信息采集策略答:采集可通过人工设定网址和网页分析URL方式共同进行。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数、网站稳定系数,根据这些系数来确定对这些网站/网页更新的频率,对网页进行很好的分级可以以低成本很好的解决更新问题。4你如何看待传统搜索引擎技术的不足?你准备如何解决
24、?(解决办法自己写)答:传统的搜索引擎,一方面存在“文海捞针”的问题,但另一方面又存在“信息丢失”的问题。它是由以下四个深层次的问题引起的。这四个问题都与词汇紧密相关。第一个是“忠实表达”问题,第二个是“表达差异”问题,第三个是“词汇孤岛”问题,第四个是“机械式匹配”问题。*六*填空1.内容获取内容描述内容操纵2.场景镜头帧3.镜头4.视频分割代表帧动态特征提取5.突变渐变6.示例查询名词解释1基于内容的图像检索:是基于内容检索技术的一种,是指利用图像的颜色、形状、纹理、语义等特征对图像进行查询,试图在理解图像内容的基础上,检索出与示例相类似的图像。简答题1简述基于内容检索的特点答:(1)以综
25、合性学科为基础(2)从媒体内容中提取信息线索(3)相识性比较(4)交互性查找(5)直观的查询方式(6)大型数据库的快速检索2简述基于内容检索的过程答:(1)初始查询说明(2)相似性匹配(3)相似度排列(4)特征调整3简述基于内容检索的系统结构答:完整的CBR系统一般由两个子系统构成,即数据库生成子系统和查询子系统。(1)对象标识(2)特征提取(3)数据库(4)用户查询和浏览接口(5)检索引擎(6)索引/过滤器4简述基于内容检索的评价标准答:(1)易用性(2)性能(3)可移植性(4)经济性(5)可维护性5简述基于特征的图像检索过程答:(1)图像的预处理(2)图像特征的抽取(3)数据库系统*七*填
26、空1.逻辑学方法数量分析方法系统科学方法2.竞争对手竞争情况3.公共领域非公共领域4.情报规划收集数据分析情报传播5.未知有效可实用6.数据组织形式知识表示推理方式7.Web内容挖掘web结构挖掘Web使用记录挖掘8.一般存取路径追踪专用化追踪9.个性挖掘系统改进站点修改智能商务Web特征描述10.文本收集文本分析特征修剪名词解释1信息分析:是运用科学的理论和方法,通过对信息的加工处理,使信息成为全新的信息,并从中找出描述该事物发展规律的数学模型,进而对其未来的发展状态进行分析预测,为决策提供科学的依据的过程。2数据挖掘:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在
27、其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。3文本挖掘:是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好的组织信息的过程。简答题1简述信息分析的特点答:(1)综合性(2)针对性(3)政策性(4)客观性(5)先导性(6)趋优淘劣性2简述信息分析的工作程序答:(1)选题(2)制定研究计划(3)信息反馈与决策跟踪3简述信息分析报告的内容和结构答:信息分析研究报告应该包括以下内容(1)提出拟解决的问题和要达到的目标(2)研究背景情况,描述与分析(3)分析研究方法(4)结论与论证(5)具体实施的建议、方案与措施结构:研究报告由题目、摘要、引言、正文、结
28、论、参考文献、注释等组成。4简述数据挖掘的功能答:(1)自动预测趋势与行为(2)数据关联(3)聚类(4)概念描述(5)偏差检测5简述数据挖掘的过程答:(1)定义问题(2)获取数据(3)整理和初探数据(4)选择和准备数据(5)挖掘数据(6)解释结果(7)运用知识6简述Web挖掘的基本原理答:目标数据集就是根据用户要求,从Web资源中提取的相关数据;预处理是从目标数据集中除去明显错误的数据和冗余的数据,并将数据转换成有效形式,以使数据开采算法寻求感兴趣的模型;模式分析是对发现的模式进行解释和评估,最后将发现的知识以能够理解的方式提供给用户。7简述个性化信息服务的特点答:(1)以用户为中心(2)允许
29、用户充分表达个性化需求,能够对用户需求行为进行挖掘(3)服务方式更加灵活、多样(4)能够主动将用户所需信息推送给用户8简述个性化信息服务的类型答:(1)个性化内容定制服务(2)个性化信息检索定制服务(3) 个性化界面定制服务(4)个性化信息推荐服务9.个性化信息模型的构建方法个性化信息模型的构建方法:信息Agent的自主学习方法、信息过滤的方法、基于多Multi-AgentSystem的合作方法用户模型的构建方法:在对用户的信息服务中,用户所处的领域不同,使用的信息服务系统不同,获取用户信息的方法不同,建模的方法也不同。通常情况下,通过与用户交互,获取用户信息来建立模型较为简单,较易实现。对于
30、隐式建模方法,用户模型的建设过程主要有四步:内容向量。一列当前活动的上下文(或用户以往信息行为的文档)。一列当前活动的特征。一个用户关键词的集合。论述题1尝试着比较一下Web挖掘与Web信息检索的区别与联系答:Web上的挖掘和信息检索是两种不同的技术,其区别主要表现在以下几个方面:(1)方法论不同。信息检索是目标驱动的;而挖掘是机会主义的,其结果独立于用户的信息需求,也是用户所无法预知的。(2)着眼点不同。信息检索着重于文档中显示存储的字词和链接;而挖掘试图更多地理解其内容和结构。(3)目的不同。信息检索的目的在于帮助用户发现资源;而挖掘是为了揭示文档中隐含的知识。(4)评价方法不同。信息检索
31、使用精度和召回率来评价其性能;而挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。(5)使用场合不同。信息检索系统返回太多的结果以致用户无法一一浏览,在某些场合下,就需要使用挖掘技术。联系:尽管Web挖掘是比信息检索层次更高的技术,但它并不是用来取代信息检索技术,二者是相辅相成的。一方面,这两种技术各有所长,有各自适用的场合;另一方面,我们可以利用Web挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。2如何获取用户的个性化需求答:(1)用户访问记录的挖掘(2)利用Bookmark获取用户的个性化需求(3)利用智能Agent
32、获取用户个性化需求3.个性化信息服务的构建个性化信息服务是个性化信息服务是基于信息用户的信息使用行为、习惯、偏好和特点,来向用户提供满足其各种个性化需求的一种服务。就现阶段的环境条件而言,个性化信息服务至少应包括个性化内容定制服务、个性化信息检索定制服务、个性化界面定制服务和个性化信息推荐服务四个方面。对用户需求、兴趣、爱好的了解和获取是个性化信息服务具备针对性的关键,而对用户网络信息需求的分析、获取和管理是保证个性化信息服务实施的基础。对用户需求的获取,目前主要有两大类方法:一类是通过人,机交互模式获取用户的信息需求。这类方法的优点是可以准确地获得用户的需求信息,也是目前绝大多数检索系统所采
33、用的方法。缺点是主动性差。另一类是通过对用户访问记录的挖掘,获取用户的需求、兴趣和爱好等。这种方法的主动性强,一般用于个性化主动信息服分系统中,对用户需求行为的挖掘,目前有三种方法:一是通过Cookielogs挖掘;二是通过Bookmark(书签)进行网络信息过滤;三是利用智能Agent跟踪用户信息行为。要实现个性化信息服务,系统必须具备两方面的能力:一是构建个性化信息Agent模型,即将个性化信息从全局信息空间中分离出来;二是构建用户Agent模型,即跟踪用户行为,学习、记忆用户兴趣,通过描述用户的兴趣特征来建立个性化用户模型。此外,还需要有功能强大的网络信息搜索能力和友好的用户界面,这既是
34、构建信息Agent和用户Agent的基础,也是实现个性化信息服务的保障。个性化信息模型的构建方法:信息Agent的自主学习方法、信息过滤的方法、基于多Multi-AgentSystem的合作方法用户模型的构建方法:在对用户的信息服务中,用户所处的领域不同,使用的信息服务系统不同,获取用户信息的方法不同,建模的方法也不同。通常情况下,通过与用户交互,获取用户信息来建立模型较为简单,较易实现。对于隐式建模方法,用户模型的建设过程主要有四步:内容向量。一列当前活动的上下文(或用户以往信息行为的文档)。一列当前活动的特征。一个用户关键词的集合。用户模型建立后,对其更新也要遵循一定的规则。通常是根据用户的反馈信息相应地更新用户模型的不同部分。个性化服务的关键是用户需求信息的获取。真正的用户动态需求信息的获取,必须利用智能代理技术。在这方面的研究,虽然取得了一定的成果,但距离实际应用或用户的要求还有较大的差距。-