《项目八:旅游电子商务数据挖掘(授课PPT)教学课件.ppt》由会员分享,可在线阅读,更多相关《项目八:旅游电子商务数据挖掘(授课PPT)教学课件.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、项目八旅游电子商务数据挖掘知识目标:理解数据挖掘的概念和内涵;理解机器学习、数据挖掘之间的区别和联系;理解旅游数据挖掘的意义。学习目标项目八 旅游电子商务数据挖掘技能目标:能够运用Python语言从旅游网站上提取有用信息,并保存至本地存储;能够对中文文本进行文本分析,提取关键词,分析词频;能够运用情感分析技术对游客对景区的网络点评进行舆情分析。素质目标:提升学生对旅游数据挖掘工作的理解和职业热爱;培养学生的创意创新思维和团队协作精神;培养学生认真细致的工作态度和工匠精神;通过中文分词的学习,让学生感悟汉字与中文之美,坚定文化自信。任务一:新媒体的概念与发展历程任务导入:近年来,大数据和数据挖掘
2、的概念频繁出现在各类媒体上,“曝光率”和“回头率”都非常高,在旅游业中也不例外,请阅读“第一财经”的这篇报道:你有没有看懂旅游大数据?课堂讨论以4人为一个小组,查阅大数据与数据挖掘在旅游业应用的案例,分组讨论:什么是数据挖掘?数据挖掘在电子商务业务上有哪些成功的案例?旅游业是否也需要进行旅游数据挖掘?虽然有些数据挖掘技术非常新颖并且看上去非常酷,但是数据挖掘本身并不是一种新的技术,自从世界上第一台计算机发明并投入实用以来,各行各业的人们就一起通过计算机进行数据分析,并把结果应用到各自的领域。在计算机发明之前的数个世纪里,人们在没有计算机的情况下,同样分析数据,只不过速度要慢上许多。Gordon
3、 S.Linoff对数据挖掘的定义是:数据挖掘是一项分析大量数据以发现有意义的模式和规则的业务流程。一、什么是数据挖掘自动预测趋势和行为,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。关联分析,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。聚类,数据库中的记录可被划分为一系列有意义的子集,即聚类。二、数据挖掘功能概念描述,就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。偏差检
4、测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。二、数据挖掘功能三、数据挖掘技术包括关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。序列分析序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义。三、数据挖掘技术包括分类分析分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法及支持向量机。聚类
5、分析聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。三、数据挖掘技术包括预测预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。时间序列分析时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。四、机器学习与数据挖掘机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论
6、、凸分析、算法复杂度理论等多门学科。它专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。四、机器学习与数据挖掘Tom Mitchell在1997年出版的Machine Learing一书中指出,从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习中所包含的探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对
7、海量数据进行的,等等。从某种意义上说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。任务拓展咨询一下你在旅行社、酒店、景区等旅游企业实习或工作的师兄弟师姐,了解一下,他们的公司有没有采用数据挖掘技术为公司的业务开展提供数据支持。任务二:电商数据挖掘工具任务导入:张大方是朝阳旅行社的电商部经理,近日接到公司的通知,要在他的部门里成立一个旅游数据挖掘的项目小组,目的是分析商业数据,为公司的决策和业务开展提供数据支持。张大方是学旅游管理的,学过Visual Basic和SPSS,对数据统计也有些了解,但对数据挖掘还是有些陌生,作为部门负责人,当然要对这个数据挖掘小组的业务有深层次的了解,
8、所以他决定要好好恶补一下。他发现部门实习生手中有本旅游电子商务,其中有一部分是对数据挖掘的介绍,倒也通俗易懂,于是,用了三天的时间阅读了数据挖掘的内容,学习过后,心中对成立这一项目小组有了底。任务二:电商数据挖掘工具以4人为一个小组,分组讨论三种以上的大数据分析工具,你们认为哪种工具比较适合自己,为什么? 一、常见数据挖掘工具Rapid Miner,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。一、常见数据挖掘工具IBM SPSS Modeler工具工作台最适合处理文
9、本分析等大型项目,其可视化界面非常有价值。 它允许您在不编程的情况下生成各种数据挖掘算法。 它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。一、常见数据挖掘工具Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。 它还可以为整个企业的自动化、调度和部署创建SQL和PL / SQL脚本。一、常见数据挖掘工具KNIME(Konstanz information miner)信息采集器是一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台。它有一个图形用户界
10、面,帮助用户方便地连接节点进行数据处理。一、常见数据挖掘工具Python 是由 Guido van Rossum 在八十年代末和九十年代初,在荷兰国家数学和计算机科学研究所设计出来的。Python 本身也是由诸多其他语言发展而来的。流量红利期2012年-2014年二、Python语言使用安装二、Python语言使用安装二、Python语言使用安装&开发环境的搭建过程任务拓展有关Python语言的深入介绍不在本课程讨论范围内,课后,同学们以4人小组的形式自学并研究python。可以从图书馆借阅相关书箱,也可以从网上收集并阅读相关教程。任务三:电商数据挖掘的方法任务导入:今天是陈晓白同学入职朝阳旅
11、行社实习的第一天,在办好相关入职手续后,陈晓白充满了疑惑。部门经理张大方:晓白同学,有什么问题吗?陈晓白:我想问问,我的岗位是数据挖掘专员,具体要做什么呢?张大方:咱们部门主要为公司提供数据,为各部门的业务开展提供数据支持,而你的工作就是从网络和各部门提供的大量数据中“提炼”或“挖掘”知识。陈晓白:我在学校里学过一点Python语言,没有接触过数据挖掘的相关内容,听着感觉难度不小,有一点紧张。张大方:不用担心,我这儿有一本旅游电子商务,其中有旅游数据挖掘的介绍,你可以先自学一下,有什么问题,可以请教你的企业导师,也可以来问我。陈晓白:太好了,我这就去学习。陈晓白同学接到主管的任务后,首先用一天
12、的时间学习了数据挖掘的几种常见技术,并尝试用在学校学习的Python语言对照教材上的几种技术进行了编程,体验了旅游数据挖掘的魅力,他感觉到在新时代,旅游业的确也是需要技术助力的。情感分析, 通常是指对一段带有主观性情感的文本进行分析的过程。情感分析有很强的实用价值,例如,通过对某酒店服务评论的情感分析, 可以发现顾客对该酒店软硬件设施和服务的褒贬态度和意见,从而改进设施并改善服务, 赢得竞争优势;通过对游客对某条旅游线路的评论情感分析,旅行社可以了解游客对该线路的态度倾向分布, 从而优化路线,提高服务品质,从竞争中脱颖而出。通过情感分析技术,可以帮助企业从互联网上海量的产品评论中获取对产品综合
13、、全面的评价信息。情感分析技术目前进行情感分析,主要使用两种方法,分别是:基于机器学习的方法和基于语义的方法。SnowNLP是一个中文的自然语言处理的Python库,支持的中文自然语言操作包括:中文分词、词性标注、情感分析、文本分类等功能。利用SnowNLP实现文本情感分析亲和性分析是根据样本个体之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的旅游营销的应用场景,比如游客更愿意同时购买哪些景点的门票、向景区网站用户提供多样化的服务或投放定向广告、旅行社向游客推荐旅行线路,卖给他们一些与之相关的产品。亲和性有多种测量方法。例如,统计两个景点门票一起出售的频率,或者统计游客购买了景点1 后再
14、买景点2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。亲和性分析支持度:表示同时购买X、Y的订单数占总订单数的比例。置信度:表示购买X的订单中同时购买Y的比例,即同时购买X和Y的订单数占购买X的订单的比例。任务四:旅游数据挖掘应用:景区游客点评词频分析旅游数据挖掘应用:景区游客点评词频分析任务导入:陈小白通过一周的学习,对数据挖掘应用有了一定的认识,加上他之前是学习过Python语言的,所以,决定牛刀小试,对去哪儿网站上对公司业务的点评进行提取与词频分析。学习知识讲解中的代码,把几部分融会贯通,添加自己的代码,完成对某一景区网页上
15、游客点评的分析。一、网络数据提取lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择。JSON(JavaScript Object Notation,JS对象简谱)
16、是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON成为理想的数据交换语言。易于阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。JSON于2001年开始推广使用,在2005年-2006年正式成为主流的数据格式,谷歌就在那时候开始广泛地使用JSON格式。二、中文分词将游客对景区的评价信息从网页中提取出来以后,需要对评论内容进行预处理,第一步需要进行中文分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将由汉字序列组成的评价语
17、句,通过一定的方法分割成若干个有着单独意义的汉语词条,这一步比较关键,同时这也是中文文本挖掘的重点和难点。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。以下代码使用jieba包实现了一段景区点评的中文分词。import jiebatxt = 扬州瘦西湖,一直是闻其名,果然是美景怡人,门票稍贵了点,不过也算值得,在湖上荡舟,别有风味。就是四月的扬州人太多了些。words = jieba.cut(txt)print(/.join(words)运行结果为:扬州/瘦西湖/,/一直/是/闻其名/,/果然/是/美景/怡人/,/门票/稍贵/了/点/,/
18、不过/也/算/值得/,/在/湖上/荡舟/,/别有风味/。/就是/四月/的/扬州人/太多/了/些/。三、词云绘制“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。在Python中使用wordcloud包,可以很方便的进行词云图的绘制。任务拓展本项目示例代码,没有实现对游客点评的情感分析,请按4人小组为项目小组,利用SnowNLP包,对一段游客点评进行情感分析。项目实训实训背景:陈晓白同学的景区游客点评的词频分析报告提交给主管后,主管认为完成得不错,并交给他一个正式的任务
19、:用网络数据提取技术抓取给定的景区景点的游客评价的情感倾向进行分析,为公司的旅游线路设计的安排作参考。假设你是陈晓白,你如果开展这一工作呢?实训目的:通过实训,加深对旅游数据挖掘的理解,通过对某一景点的游客评价的数据采集、数据存储和对数据的情感分析,使学生具备旅游数据挖掘的基本技能要求,培养认真、细致、一丝不苟的工作态度,并激发他们对旅游数据挖掘工作的兴趣;通过对景区数据的分析,感悟祖国的大好河山,在美景中感受爱国情怀。项目实训实训任务:1. 利用网页数据提取和文本情感分析技术,对某景区景点旅客评价进行分析,得出某种结论,并把工作过程写成报告;2. 文字需要是正规书面用语,结论需要有数据支持;3. 情感分析的结果,需要得出正向评价的平均概率;4. 要有python源代码5. 需要对所使用的理论和技术进行介绍;6. 要符合一般论文的格式要求;7. 建议文章中要用相应的表格、图片8. 要注意报告的WORD排版9. 项目设计报告不少于2000字项目实训实训反馈:以4人为一个小组,完成顾客点评情感分析项目,并撰写分析报告,制作演示文稿,每组安排一名同学负责汇报并和全班一起分享成果。