《国内图书馆数据挖掘技术实践应用进展分析_冯研.pdf》由会员分享,可在线阅读,更多相关《国内图书馆数据挖掘技术实践应用进展分析_冯研.pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、国内图书馆数据挖掘技术实践应用进展分析冯 研 王 馨=摘 要 数据挖掘技术近几年在图书馆行业得到不断广泛的应用,文章通过文献计量学、研究方向和算法、应用软件、数据处理和选择及技术应用详情等方面分析图书馆在数据挖掘实践应用方面的进展情况。=关键词 数据挖掘 图书馆 实践应用Abstract:In recent years,data mining technology has been widely used in library.Based on bibliometrics,the paper discusses the practical application of the technolo
2、gy inthe field by analyzing the research directionsand applied algorithms,applied software,data processing and selection,technical application details,etc1Key words:data mining library practical application 数据挖掘(data mining)就是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。它可以帮助决策者分析历史数据及当前
3、数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。近几年,数据挖掘在图书馆行业得到不断广泛的应用,更多研究者和管理者关注这个领域的发展:利用数据挖掘我们可以获得哪些有价值的、隐含的规律和特点?国内图书馆主要应用了哪些技术,取得了哪些成果?积累了哪些经验?这些经验会带给我们怎样的提示?站在这些先行者的肩膀上,我们还可以继续哪些实践研究?本文将根据近几年有关数据挖掘的文献,总结上述情况,以便开展进一步的研究。1 文献计量分析在 CNKI中国学术期刊网络出版总库中检索近几年国内图书馆数据挖掘研究方面的文献(截止到 2011 年 2月),共得到600 多篇论文,83%的文献主要集中在 20
4、05 2010 年,其中有具体实践应用的文献占到全部图书馆数据挖掘研究文献的 2611%。可见 2005 2010 年是图书馆数据挖掘研究的主要阶段,实践应用的比例偏低 1。2 研究方向和算法本文对有具体实践应用的文献内容进行分析,图书馆应用数据挖掘研究主要集中在三个研究方向:关联分析、聚类分析和决策树,其中应用关联分析数据挖掘的文献量占总量的 60%,聚类分析的文献量占 37%,决策树应用比率较低,只占 11%。也有些文献综合应用多种手段进行数据挖掘,如 5基于 weka 读者借阅行为分析6 应用了聚类和关联规则两种技术 2,5数据挖掘技术在图书馆读者分析中的应用6 先采用聚类,根据聚类分析
5、产生的读者数据,再应用关联规则分析3。5基于数据挖掘的图书部署决策系统设计6 采用决策树和聚类分析 4。大部分关联分析采用最常用的Aprior算法,也有用FP-M ax 算法;聚类分析大部分采用 SimpleKM eans 算法,也有用二层 SOM算法、Kohonen算法及使用基于目标函数的模糊聚类算法。决策树采用 ID 3 算法。有的研究探讨了一些算法优化的问题。3 使用软件进行数据挖掘一般要使用专业的数据挖掘软件,根据文献情况,图书馆数据挖掘研究主要使用了以下几种软件。31 1 weka其全名是怀卡托智能分析环境(W aikato Environmentfor Knowledge Anal
6、ysis),是一款基于 JAVA 环境下的机器学习软件。官方网站可下载软件和源代码。w eka 能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。开发者可使用 Java 语言,利用 w eka 的架构上开发出更多的数据挖掘算法。31 2 Clementine它是 Spss 公司推出的企业级数据挖掘产品,提供包括神经网络、决策树、聚类分析、关联分析、因子分析、回归分析等在内的丰富的数据挖掘模型,通过节点的连接来完成整个数据挖掘过程。31 3 Analysis ServicesM icrosoft SQL Server Analysis Services(SSAS)是微
7、软公司提供的数据挖掘平台,允许设计、创建和管理包含多维结构,使其包含从其他数据源(例如关2 图 书 馆 学 研 究 2011 1 10(应用版)系数据库)聚合的 数据,并 通过这 种方式 来支持OLAP。对于数据挖掘应用程序,Analysis Services 允许使用多种行业标准的数据挖掘算法来设计、创建和可视化从其他数据源构造的数据挖掘模型。314 自行开发编程有些文献没有写明使用的软件,使用程序语言编程完成数据挖掘。4 数据选择数据挖掘的基础是大量真实可信的数据。随着自动化系统和网络相关技术的发展,图书馆拥有数量庞大的、系统有序的信息资源,具备了数据挖掘的数据基础。数据选择主要集中在自动
8、化系统内的数据和Web 服务器访问数据等。大多数研究选择图书馆自动化系统里的数据,主要选取读者借阅历史数据,并根据专业、年级、借阅时间、读者层次等条件做了一些数据抽取。有的研究对数据的筛选有些特殊的考虑,如 5基于weka 读者借阅行为分析6 进行关联规则应用只选择了医学 R大类,是因为该学校没有设置医学院,研究者认为选取这类专业图书可以更好挖掘出读者借阅行为中隐含的规律。有的研究中数据的选取是通过上一步的数据挖掘结果产生的,如 5数据挖掘技术在图书馆读者分析中的应用6 关联规则中读者数据是根据聚类分析产生出的频繁借阅图书的读者。研究者认为这样容易得出较准确的结果。数据选取比较特殊的是 5网格
9、环境下图书馆用户访问信息资源兴趣的路径聚类研究6,数据选择的是Web 服务器的 log 日志 5;5基于关联挖掘技术的数字图书馆个性化推送服务6 是以电子资源访问数据为数据基础6。5 数据挖掘技术研究详情511 关联分析关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测。它的目的是为了挖掘隐藏在数据间的相互关系 7。图书馆应用关联分析的文献在总文献中占据比例较大,关联规则的应用主要集中在以下几个方面。51111 书目推荐这是关联分析在图书馆数据挖掘研究中一个比较重要且有实际意义的应用。如 5基于数据挖掘的图书智能推荐系统研究6 通过实验,运用数据挖掘软件
10、对真实的借阅记录进行关联规则挖掘,得出关联规则是图书智能推荐系统的关键技术的结论 8。5关联规则与图书馆书目推荐6 以简单例子说明关联规则 Aprior 算法可以作为书目推荐的实践技术 9。5最大频繁模式挖掘算法进行书目推荐系统的设计与实现6 研究了应用关联规则 FP-M AX 算法进行书目推荐的方法,并完成了书目推荐系统的设计与实现 10。大部分研究应用实例论证了书目推荐的可行性,有少数研究走出了系统实现的实践性步伐。由于图书馆自动化系统多为商业软件,图书馆自行开发书目推荐的功能很有难度。即便如此,各项研究表明利用关联规则技术,根据自动化系统里的丰富借阅数据开展书目推荐是切实可行,也是有意义
11、的。51 11 2 分析读者的借阅行为特征分析读者专业、年级与所借各专业书籍之间的关联,以便管理者掌握读者借阅特点,开展个性化服务。比较有代表性的文献有 5基于 Weka 读者借阅行为分析6、5基于数据挖掘技术的图书馆流通数据的关联分析611等。有些研究得出一些结论是很有意义的,如提出整个大学期间学生在外语上花费了大量的时间和精力12;读者的专业书阅读习惯和年级的关系等。无独有偶,5基于数据挖掘的图书馆读者行为分析6 也得出英语水平考试类图书是频繁借阅的图书的结论 13。5基于关联规则的图书馆读者兴趣度实证分析6 一文中提出利用关联规则对图书馆文献的借阅信息进行深层次的数据挖掘,建立读者兴趣度
12、度量的计算模型,并进行了相关的实证分析 14。文献举例得出了几类图书的兴趣数值表,表示读者对这些图书的兴趣度,同时也得到几类图书之间的关联关系,如读者借阅经济类后借阅数学类文献的可能性比无条件下借阅数学文献的可能性要大。51 11 3 分析读者所借书籍之间的关联关系这种挖掘非常类似数据挖掘最经典和流传最广的故事:尿布与啤酒的关联,看看哪些种类书是读者最经常放在一起借阅的。如 5关联挖掘在图书借阅数据库中的应用6,研究者认为可以根据结果合理调整馆藏15。51 11 4 网络信息个性化推送5基于关联挖掘技术的数字图书馆个性化推送服务6 以电子资源访问数据为基础应用多维数据集概念,发现读者兴趣和资源
13、的关联,来为读者开展个性化推送服务 16。51 2 聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。其目标就是在相似的基础上收集数据来分类。图书馆应用聚类分析的研究主要集中以下几个方面。51 21 1 用于读者研究聚类分析技术根据读者借阅情况对读者进行分类,3RESEARCH ON LIBRARY SCIENCE 正如商业领域内分析商家的优质客户群一样。5基于分群模型的读者个性化服务研究6 用 K-M eans聚类算法、Kohonen 算法作为参考,将读者分成 5 个群组:均衡型、专业型、考试型、沉默型、文艺偏好型,同时该研究分析出各读者群体的借阅特征,探讨
14、了如何有针对性地开展读者工作问题 17。该研究也提出这样一个疑问:文艺类图书特别是热门书和热播电视剧类图书是否挤占了读者的阅读时间。5聚类分析在图书管理系统中的应用6 也是将读者分成三类,提出可根据读者分类调整流通策略,还提出针对不同读者群开展不同服务的计划;可以针对不活跃读者开展问卷调查等 18。51212 图书聚类分析5聚类分析在图书管理系统中的应用6 根据图书馆总计流通次数和当年流通次数对图书进行聚类分析,分为利用率较高、一般、较低三类图书,从而反映馆藏图书利用情况,以及采访工作的质量 19。513 决策树决策树是一种树状结构,一般都是自上而下产生。每个决策或事件(即自然状态)都可能引出
15、两个或多个事件,导致不同的结果,这种决策分支画成图形很像一棵树的枝干。决策树可以用于分析数据,也可以用来做预测。图书馆应用决策树研究主要有以下几方面。51311 用于构造读者决策树,得出活跃读者的评价规则如 5基于数据挖掘的图书馆活跃读者研究6 以图书馆流通信息和读者信息为研究队形,通过计算各属性间的信息增益度,构造完整的活跃读者决策树,得出活跃读者的评价规则,并提出活跃读者的管理模式 20。得出的结论也比较有意义,活跃研究生读者的评价因素是路途远近、性别差异、专业类别等条件。51312 用于对多校区图书馆的图书合理部署5基于数据挖掘的图书部署决策系统设计6 利用聚类和决策树开发决策支持系统,
16、对多校区图书馆中图书合理部署 21。51313 得到读者借阅图书的规则5基于数据仓库的图书借阅数据挖掘6 通过构建数据仓库,建立多维图书借阅数据集,得出读者借阅哲学和社科图书与自然科学和综合图书之间的关系 22,该研究得出一些有意义的结论,理工科专业的读者比文科的读者更愿意接触自己专业以外的知识。514 其他视角比较独特的文章如湖南师范大学黄斯达等的5基于图书馆借书信息的学生成绩挖掘模型研究6 23,将学生的成绩与借书行为联系到一起,用关联规则算法提出并构建了一个学生专业成绩挖掘模型,利用该模型,可以通过学生的书籍借阅情况来分析和预测学生的专业成绩。这是一个有益的尝试。也启示我们应该将数据挖掘
17、的结果和学校其他数据有机结合起来,发现更多的规律。注释 1 冯研,刘薇薇,张兵兵,王馨1 国内图书馆数据挖掘研究及应用的文献计量分析1 医学信息学杂志,2011(6):57-60 2 12 储文静,奉国和1 基于 weka 读者借阅行为分析1 情报科学,2010(3):424-429 3 钱强,李英1 数据挖掘技术在图书馆读者分析中的应用1 图书情报工作,2009(12):121-124 4 21 刘承真1 基于数据挖掘的图书部署决策系统设计1 图书馆学刊,2010(8):95-96,109 5 宋家秀,王平1 网格环境下图书馆用户访问信息资源兴趣的路径聚类研究1 情报探索,2009(4):1
18、01-103 6 16 熊拥军,陈春颖1 基于关联挖掘技术的数字图书馆个性化推送服务1 图书情报工作,2010(1):125-129 7 陈安,陈宁,周龙骧等1 数据挖掘技术及其应用1 北京1 科学出版社,2006 8 丁雪1 基于数据挖掘的图书智能推荐系统研究1 情报理论与实践,2010(5):107-110 9 陈定权,朱维凤1 关联规则与图书馆书目推荐1 情报理论与实践,2009(6):81-84 10 赵麟1 基于最大频繁模式挖掘算法进行书目推荐系统的设计与实现1 现代图书情报技术,2010(5):23-28 11 陆觉民,马国栋,郑宇1 基于数据挖掘技术的图书馆流通数据的关联分析1
19、现代情报,2009(9):108-110 13 王伟,张征芳,王海明1 基于数据挖掘的图书馆读者行为分析1 现代图书情报技术,2006(11):51-54,60 14 邓春林,邹凯1 基于关联规则的图书馆读者兴趣度实证分析1情报理论与实践,2009(4):93-95,108 15 许珂1 关联挖掘在图书借阅数据库中的应用1 福建电脑,2006(9):26-27 17 李菲1 基于分群模型的读者个性化服务研究1 图书馆论坛,2009(2):1-4 18 19 姜雷1 聚类分析在图书管理系统中的应用1 情报探索,2010(10):111-113 20 张金镯1 基于数据挖掘的图书馆活跃读者研究1 现代图书情报技术,2008(7):96-99 22 谭立云,丁智斌,玉嘉邓1 基于数据仓库的图书借阅数据挖掘1 现代情报,2009(12):120-122 23 黄斯达,陈启买1 基于图书馆借书信息的学生成绩挖掘模型研究1 现代计算机(专业版),2008(10):196-198 冯 研 王 馨 大连医科大学图书馆。4 图 书 馆 学 研 究 2011 1 10(应用版)