《(5.2)--2UGC数据旅游文本.pdf》由会员分享,可在线阅读,更多相关《(5.2)--2UGC数据旅游文本.pdf(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、UGC数据旅游文本 copyrightDuanRui&DengNing目录第一节 旅游文本数据第二节 旅游文本的分析方法copyrightDuanRui&DengNing第一节旅游文本数据copyrightDuanRui&DengNing第一节 旅游文本数据一、数据来源I.OTA评论数据II.旅游UGC社区数据III.社交媒体数据二、研究内容I.游客满意度研究II.口碑声誉研究III.游客情感及行为意向研究copyrightDuanRui&DengNing第一节 旅游文本数据慕课视频:旅游文本数据的来源.mp4思考旅游文本数据主要有哪些类型?各种旅游文本数据都有什么特点?各种旅游文本数据的主要
2、来源是什么?copyrightDuanRui&DengNing第一节 旅游文本数据什么是旅游文本?文本数据是由以文本形式呈现的网络评论数据、博客数据及其他相关数据所组成的可以应用于旅游研究中的一种大数据类型。文本数据能够传达出游客对旅游目的地的情感倾向,对旅游目的地研究具有重要的意义。copyrightDuanRui&DengNing第一节 旅游文本数据copyrightDuanRui&DengNing第一节 旅游文本数据copyrightDuanRui&DengNing第一节 旅游文本数据什么是旅游文本?应用于旅游研究中的文本数据主要包括两类:评论数据和旅游游记数据。评论数据是指表达旅游者对
3、旅游产品态度的文本的数据。在旅游研究当中,评论数据一直被用于游客满意度的研究,如探讨游客满意度的影响因素等。旅游游记数据主要记录了旅游者在旅行过程中所发生copyrightDuanRui&DengNing一、数据来源旅游文本数据的来源主要有三种:OTA平台内容社区平台大社交媒体平台copyrightDuanRui&DengNing一、数据来源OTA评论数据在旅游研究中,针对旅游产品的评论数据主要来源于OTA平台,研究人员所选用的评论数据来源于多种不同的OTA网站。这些平台包括TripAdvisor,Yelp,Expedia,携程,去哪儿,Booking和大众点评等。在线旅游代理(OTA,全称为
4、Online Travel Agency),是旅游电子商务行业的专业词语。指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,即各旅游主体可以通过网络进行产品营销或产品销售”。copyrightDuanRui&DengNing一、数据来源OTA评论数据案例:TripAdvisor作为规模最大、最受游客喜爱的旅游社交媒体之一的TripAdvisor是使用最广泛的数据源。TripAdvisor(中文名称为“猫途鹰”)是成立于2000年的以互联网旅游服务为主要业务的旅游网站。该网站全面覆盖全球的酒店、餐厅、景点和航空公司等,收集来自全球旅游者的点评和建议,为即将出行
5、的游客提供参考。此外该网站还为游客提供旅行规划以 及酒店、餐厅、景点的预订等服务。copyrightDuanRui&DengNing一、数据来源OTA评论数据案例:TripAdvisor目前,TripAdvisor已收录超过6.61亿条旅游点评及建议,覆盖全球190多个国家超过770万处酒店、餐厅、景点和航空公司的信息,可以搜索200多家网站,帮助旅行者找到当日优惠的酒店价格并预订。TripAdvisor是一个大型的在线旅行数据平台,并在全球49个市场的月均独立访问量达4.56亿。由此该网站也成为酒店筛选标准研究中广泛使用的数据源。copyrightDuanRui&DengNing一、数据来源
6、OTA评论数据案例:大众点评大众点评网,于2003年成立于上海。大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评经营范围较广,可以为用户提供商户信息、消费优惠及消费点评等信息服务以及团购、餐厅预订、外卖及电子会员卡等O2O(Online To Offline)交易服务。2015年10月,大众点评网与美团网达成战略合作,成立新公司美团点评,致力于打造中国O2O领域的领先平台。copyrightDuanRui&DengNing一、数据来源OTA评论数据案例:大众点评美团点评平台有丰富的UGC数据库,为消费者提供大量在线POI(Point of Inte
7、rest)的详细、真实及透明信息。目前美团点评已覆盖全国2800个市县,平台为3.1亿年度交易用户和约440万年度活跃商家提供了服务。该平台在2017年完成了超过58亿笔交易,交易金额为3570亿元。copyrightDuanRui&DengNing一、数据来源旅游UGC社区数据旅游 UGC 社区数据主要来源于内容社区平台,如马蜂窝旅游网、穷游网等。copyrightDuanRui&DengNing一、数据来源旅游UGC社区数据案例:马蜂窝旅游网2015年初,该公司发布自由行战略,使马蜂窝成为基于个性化旅游攻略信息构建的自由行交易与服务平台。马蜂窝以“自由行”为核心,提供全球范围内6万多个旅游
8、目的地的旅游攻略、旅游问答、旅游点评等资讯,以及酒店、交通、当地游等自由行产品及服务。copyrightDuanRui&DengNing一、数据来源旅游UGC社区数据案例:马蜂窝旅游网“自由行”的实质是旅游社交和旅游大数据,即用户通过网络获取并分享旅游信息、旅游产品和服务。马蜂窝用户通过交互生成内容,经由数据挖掘和分析,形成结构化的旅游数据并循环流动。马蜂窝依据用户偏好及其行为习惯,有针对性地提供个性化的旅行信息、自由行产品交易及服务;而全球的OTA、酒店、邮轮、民宿、当地旅行社等旅游产品供应商则通过马蜂窝的旅游大数据与消费者精准匹配,实现游客与产品的线上对接,既节省营销费用,又可获得丰厚的营
9、收。copyrightDuanRui&DengNing一、数据来源旅游UGC社区数据案例:马蜂窝旅游网马蜂窝旅游网站在自由行消费者的视角上,帮助用户做出合理的旅游消费决策。UGC、旅游大数据、自由行交易平台是马蜂窝的三大核心竞争力,社交基因是马蜂窝区别于其他在线旅游网站的本质特征。copyrightDuanRui&DengNing一、数据来源旅游UGC社区数据案例:穷游网穷游网于2004年创立,现已发展为国内领先的出境旅行服务平台。穷游网提供原创实用的出境游旅行指南、攻略,旅行社区和问答交流平台,以及智能的旅行规划解决方案,同时提供签证、保险、机票、酒店预订、租车等在线增值服务。copyrig
10、htDuanRui&DengNing一、数据来源旅游UGC社区数据案例:穷游网穷游网的核心产品包括穷游社区、穷游锦囊、行程助手、穷游商城、JNE及海外之家Q-Home。其中穷游社区是穷游网的起点,包含论坛、目的地、问答等多种功能,汇集了上千万的达人用户和高质量的游记攻略;穷游锦囊则是来自全世界的资深旅行达人原创的出境旅行电子指南,目前,锦囊总数已达600多本,涵盖300多个境外地区,下载量已超过2.3亿次。copyrightDuanRui&DengNing一、数据来源社交媒体数据大社交媒体平台用户众多,应用广泛。不仅拥有丰富庞杂的旅游评论数据,博客数据也纷繁多样,主要包括Twitter、Fac
11、ebook和新浪微博等平台。copyrightDuanRui&DengNing一、数据来源社交媒体数据案例:新浪微博新浪微博,隶属于新浪公司一家服务于中国及全球华人社群的领先网络媒体公司。新浪微博是为用户提供创作、分享和发现中文内容的社交媒体平台,用户可以在该平台上进行社交互动、实时公开表达个人观点。微博用户群体广泛,既有普通大众、明星和其他公众人物,又有媒体、企业、政府、慈善机构和其他组织,为众多用户公开表达和接触丰富的想法、文化及经历提供了可能。copyrightDuanRui&DengNing第一节 旅游文本数据慕课视频:2.旅游文本的研究方向.mp4思考可以从哪些方面对旅游文本开展研究
12、?copyrightDuanRui&DengNing二、研究内容旅游 UGC 文本数据的研究主要用于三个方面:一是游客满意度研究;二是口碑声誉研究;三是游客情感及行为意向研究。copyrightDuanRui&DengNing二、研究内容(一)游客满意度研究游客满意度是指游客将对旅游目的地的期望与在旅游目的地游览后的体验结果进行比较,所产生的一种心理状态。研究游客满意度的目的在于提高服务质量,提升旅游体验。研究人员针对满意度的研究主要基于UGC评论数据,且侧重游客满意度属性(attributes)以及游客满意度与其他相关因素的关系两个方面。copyrightDuanRui&DengNing二、
13、研究内容(一)游客满意度研究:游客满意度属性W.Lu等人(2012年)运用内容分析技术对所采集的 UGC 评论数据进行分析,识别出影响生态旅游者对生态住宿满意度的26个属性,并将这些属性进一步归纳为7类:生态住宿环境、客房、自然、服务、食物、地理位置和物有所值感。Y.Guo 等人(2017年)则运用数潜在狄利克雷分析法(LDA)对酒店UGC评论数据进行分析,识别出由酒店顾客产生的顾客服务的关键要素。该研究找出了19个可控要素,这是管理酒店与其顾客互动行为的关键。copyrightDuanRui&DengNing二、研究内容(一)游客满意度研究:游客满意度属性X.Xu 等人(2016年)运用潜在
14、语义分析技术(LSA)来分析酒店的在线UGC评论。他们发现使顾客对酒店产生满意或不满意的决定因素是不同的,并且特定类型的酒店有特定的因素,这些酒店包括全服务酒店、有限服务酒店、带食物和饮料的套房酒店以及无食物和饮料的套房酒店。copyrightDuanRui&DengNing二、研究内容(一)游客满意度研究:游客满意度与其他因素的关系研究人员对游客满意度与其他相关因素之间的关系也颇为重视,尤其对产品质量、服务体验、旅游目的地质量与游客满意度之间的相互作用的研究颇多。copyrightDuanRui&DengNing二、研究内容(一)游客满意度研究:游客满意度与其他因素的关系Z.Xiang等人(
15、2015年)运用文本分析方法对所抽取的 UGC评论数据进行分析,以解构酒店顾客的体验,并检验其与顾客满意度之间的关系。研究的主要目的就是探讨和展示如何利用大数据分析技术对酒店顾客体验和顾客满意度之间的关系进行分析。研究结果揭示了顾客体验的几个维度(混合感知、酒店业务、基础设施、家庭氛围、核心产品、员工等),通过对这些维 度的分析,他们发现顾客体验和顾客满意度之间的关系很紧密,因而表明这两个消费行为领域是内在关联的。copyrightDuanRui&DengNing二、研究内容(二)口碑声誉研究口碑声誉研究是UGC文本数据研究的重要内容。随着在线旅游行业的发展,旅游舆情对旅游从业者和游客的引导趋
16、势越来越明显,针对旅游舆情的在线文本数据研究成为学者们的研究重点。口碑声誉研究的目的:服务于旅游舆情分析;为行业管理和营销提供了重要的指导意见。copyrightDuanRui&DengNing二、研究内容(二)口碑声誉研究:旅游舆情分析和颐酒店女生遇袭事件品牌丑闻的溢出效应:各类媒体针对酒店,尤其是快捷连锁酒店的丑闻报道持续发酵,舆论的矛头很快从和颐事件的焦点酒店转向了同类型其他酒店及整个快捷酒店行业。针对这种溢出效应,李东娟(2017 年)在品牌丑闻事件研究的理论基础上,构建了酒店品牌丑闻的溢出效应模型。copyrightDuanRui&DengNing二、研究内容(二)口碑声誉研究:旅游
17、舆情分析文章以网络媒体信息作为研究对象,通过各大网络论坛、微博和微信话题、新闻专题等收集公众对酒店品牌丑闻的话题讨论及态度反应等信息进行内容分析,选取4个酒店丑闻事件作为研究样本,论证酒店品牌丑闻是否有溢出效应,以及分析影响溢出效应的因素。为酒店管理者明确品牌丑闻事件的影响,增强品牌管理能力,提升行业自律精神,重视危机公关能力,建立良好的品牌形象提供理论指导。copyrightDuanRui&DengNing二、研究内容(二)口碑声誉研究:指导行业管理和营销由于住宿、餐饮和旅行是旅游者在旅游过程中最关心的三大要素,因此众多的文本数据中,酒店、饭店和景区景点的点评数量最大,是游客评论的重点对象。
18、旅游研究也因此将针对酒店(包括乡村旅馆)、饭店和景区的文本数据作为重点内容进行研究,为酒店业和景区的管理和营销提供建设性的指导意见。copyrightDuanRui&DengNing二、研究内容(二)口碑声誉研究:指导行业管理和营销酒店评论被广泛用于评价和改善酒店的网络口碑。相关研究可以从评论文本中提取客户评价酒店质量的不同维度。对饭店 UGC 评论的研究主要用于评判游客的旅游满意度。相关研究可以分析UGC评论中星级评定的有用性和受欢迎程度。研究景区评论有助于改善景区管理,提升景区形象。在线评论能够提供额外的产品信息,因此旅游者经常依赖在线评论来形成购买决策以减少购买过程的不确定性。copyr
19、ightDuanRui&DengNing二、研究内容(三)游客情感及行为意向研究对游客行为意向的研究主要包括游客情感分析和旅游推荐意愿两方面。在游客情感分析方面,可以使用情绪分析技术对评论和博客数据进行分析,建立低成本、实时的酒店顾客态度或知觉测量模型,以指导酒店经营和销售。copyrightDuanRui&DengNing二、研究内容(三)游客情感及行为意向研究旅游推荐案例一:H.Yuan等(2016 年)提出了一个研究框架。这个框架能够帮助人们从大量的旅游博客中总结出先前未知的城市的旅游信息,如热门旅游地点以及它们的旅游路线,目的是为用户提供更好的旅游安排。copyrightDuanRui
20、&DengNing二、研究内容(三)游客情感及行为意向研究旅游推荐案例二:H.Xu等(2015年)则通过挖掘旅游博客中的地理术语来搜寻旅游热门地,识别出与该地相关的 ToI(Things of Interest),探索去哪玩和玩什么的有价值信息。copyrightDuanRui&DengNing第二节 旅游文本的分析方法copyrightDuanRui&DengNing第二节 旅游文本的分析方法慕课视频3.文本分析的方法和工具.mp4思考旅游文本分析可以用到哪些方法?旅游文本分析的工具有哪些?copyrightDuanRui&DengNing第二节 旅游文本的分析方法旅游文本的分析方法为了抽取
21、并使用在线文本数据中隐含的有用信息,在旅游研究领域,各种文本挖掘技术被广泛使用。它们主要分为两个典型步骤:数据收集和文本挖掘(包括数据预处理和模式发现两个子步骤)。copyrightDuanRui&DengNing第二节 旅游文本的分析方法copyrightDuanRui&DengNing一、数据收集数据收集主要做什么?数据收集是利用互联网搜索引擎数据实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,最后形成数据库文件的一个过程。数据收集基本上是利用垂直搜索引擎技术和网络爬虫技术等完成的。copyrightDuanRui&DengNing一、数据收集垂直搜索引擎垂直
22、搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是根据特定用户的特定搜索请求,对网站(页)库中的某类专门信息进行深度挖掘与整合后,再以某种形式将结果返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的、有特定用途的信息和相关服务。copyrightDuanRui&DengNing一、数据收集垂直搜索引擎数据来源 所处行业的相关站点;自身平台:来源于自身平台的搜索常被认为是“站内搜索”。但是,当某一平台上的信息达到足够量大的时候,其实就是一种垂直搜索。况且,垂直搜索本身就是从这
23、些行业站点提取出数据的。copyrightDuanRui&DengNing一、数据收集垂直搜索引擎数据特性 垂直搜索引擎的数据倾向于结构化和格式化。copyrightDuanRui&DengNing一、数据收集垂直搜索引擎关键技术 聚焦、实时和可管理的网页采集技术;从非结构化内容到结构化数据的网页解析技术;精、准、全的全文索引和联合检索技术;高度智能化的文本挖掘技术。copyrightDuanRui&DengNing一、数据收集网络爬虫网络爬虫技术是按照一定的规则,自动地抓取万维网信息的程序或脚本。网络爬虫的爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大 型 Web
24、 服务提供商采集数据。copyrightDuanRui&DengNing一、数据收集网络爬虫爬虫分类 通用网络爬虫(General Purpose Web Crawler)聚焦网络爬虫(Focused Web Crawler)增量式网络爬虫(Incremental Web Crawler)深层网络爬虫(Deep Web Crawler)copyrightDuanRui&DengNing一、数据收集通用网络爬虫主要特点 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。
25、虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。copyrightDuanRui&DengNing一、数据收集通用网络爬虫组成结构 通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。copyrightDuanRui&DengNing一、数据收集通用网络爬虫爬虫策略 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。广度优先策略:此策略按照网页内容目录
26、层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。copyrightDuanRui&DengNing一、数据收集通用网络爬虫Python爬虫举例copyrightDuanRui&DengNing二、文本挖掘什么是文本挖掘?文本挖掘是采用数据挖掘技术对收集到的在线文本数据进行分析以抽取有用的知识。文本挖掘技术主要分为两步:数据预处理和模式发现。copyrightDuanRui&DengNing二、文本挖掘数据预处理数据预处理是数据挖掘前的数据准备工作,一方面保证数据挖掘的正确性和准确性,另一方面通过对数据格式和内容的调整,使数据更符合挖
27、掘的需要。其目的在于把一些与数据分析、挖掘无关的项清除掉,为了给挖掘算法提供高质量的数据。copyrightDuanRui&DengNing二、文本挖掘数据预处理在旅游领域中,会产生大量的 UGC 数据,而文本数据是 UGC 中比较常见的形式,其预处理的大致步骤分为:数据清理、数据分割、词干提取、词性标注等。并且不同的语言面临的预处理步骤会有所不同。copyrightDuanRui&DengNing二、文本挖掘数据预处理之数据清理数据清理就是发现数据、模式的不一致、不兼容,并加以消除,提高数据的质量。数据清理主要解决的是数据质量问题。为了提高数据质量,要去掉一些拼写上的错误、停用词(stop
28、words)、非目标词语、低频词,留下有价值的相关词汇。copyrightDuanRui&DengNing中中文文停停用用词词表表举举例例英英文文停停用用词词表表举举例例copyrightDuanRui&DengNing二、文本挖掘数据预处理之分词分词(断词,词语切分)是把统一整体的长文本分割成为较小的、可以独立处理的词或者短语(称为token)。相较于字母型语言中天然用空格分隔的单词,字符型语言(如,中文,韩文,日文等)文本中没有明显的词的界限,因此在进行此类文本处理时,分词功能的要求更高。而分词效果优劣将直接影响后续文本分析、数据分析的效果。copyrightDuanRui&DengNin
29、g二、文本挖掘数据预处理之分词分词方法主要有两大类:依据词典的分词算法:我是中国人 基于统计学习的机器学习算法:江州市长江大桥参加了长江大桥的通车仪式 乒乓球拍卖完了copyrightDuanRui&DengNing二、文本挖掘数据预处理之词干提取所谓词干提取,是指去除词缀得到词根的过程,也就是抽取词的词干或者词根的形式。词干提取是将从同一类别演化出来的文字归为一类,简化数据。Cats、Catlike、Catty catcopyrightDuanRui&DengNing二、文本挖掘数据预处理之词性标注词性标注(Part-of-Speech Tagging,POST)是给不同的文字加上对应的词性
30、标签,如名词、形容词、副词等。copyrightDuanRui&DengNing二、文本挖掘模式发现模式发现是文本数据分析的另一重要步骤,旨在探寻文本文档中有用的信息。LDA情感分析统计分析分类、聚类文本总结相关性建模copyrightDuanRui&DengNing二、文本挖掘模式发现之LDA(Latent Dirichlet Allocation)文档主题生成模型,采用无监督机器学习,认为每个词是以一定概率选择了某个主题,这个主题以一定概率选择了某个词语。LDA 主题模型实质上是一种语言模型,是对自然语言进行建模,自动挖掘分析出文档中的主题文档分布和词汇主题分布。用于在大量数据中寻找主题。
31、Guo Yu(2017)使用 LDA 从大量旅游评论中快速发现混合主题,例如影响旅游者满意度的因素。copyrightDuanRui&DengNing二、文本挖掘模式发现之情感分析情感分析就是挖掘游客的观点、情绪,评估对于服务等产品的价值。可以将游客态度分为三种:积极、消极、中立,来研究游客态度。从正面、负面或者中性能够识别游客对旅游景点或旅游产品的态度。Philander&Zhong(2016)、Hu Yahan(2017)等人最近的研究倾向于使用情绪分析作为调查旅游者对酒店服务的意见的有用工具。copyrightDuanRui&DengNing二、文本挖掘模式发现之统计分析描述性统计(均值
32、、方差):描述性统计是用来概括和描述事物整体或者个体之间情况的,就是用制表、图形、分类和计算概括性数据来描述数据特征的各项活动。描述性统计要对调查总体所有变量的有关数据进行统计性描述,主要包 括数据的频数分析、集中趋势分析(常用指标有均值、中位数等)、离散程度分析(常用的指标有方差等)、分布以及一些基本的统计图形。copyrightDuanRui&DengNing二、文本挖掘模式发现之统计分析描述性统计分析可以根据旅游者的评论概括出旅游者的人口统计信息(如年龄、性别、收入、旅游者的类型、旅游者的地理位置信息等),描述性统计分析还可以描绘出游客画像、旅游者基本人口信息等。copyrightDua
33、nRui&DengNing二、文本挖掘模式发现之分类/聚类聚类就是按照某个特定标准(如距离准则),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能地大,同时不在同一簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。简单地说就是把相似的数据归为一类。聚类可以做游客类型分类(可以大致划分出商务型、经济型等),可以对游客路径进行聚类,分析商圈热点,也可以对热点地形进行聚类。copyrightDuanRui&DengNing二、文本挖掘模式发现之文本总结文本总结也是文本挖掘的一个重要内容,它是抽取关信息,用简洁的形式,对文本内容进行摘要和
34、解释,也就是从原始文本数据中提取出具备有用信息的文本。Hu Yahan(2017)提出了一种多文本总结技术来识别酒店评论中最具信息性的句子。copyrightDuanRui&DengNing二、文本挖掘模式发现之相关性建模相关性建模用于发现文本数据(尤其在线评论数据)和旅游要素之间的关系,如酒店、餐厅绩效,旅行者行为等。相关性建模中最常用各种回归方法,例如贝叶斯有序多元回归,线性回归,Tobit回归等。copyrightDuanRui&DengNing第二节 旅游文本的分析方法慕课视频4.数据挖掘工具和软件包.mp4思考数据挖掘工具和软件包都有哪些?分别有什么功能?copyrightDuanR
35、ui&DengNing三、数据挖掘工具和软件包工具和软件包除去上述介绍的各种典型文本分析算法外,引人注目的是,当前已有很多数据分析系统工具被开发用于文本分析和数据收集。常见的多功能工具包有WEKA,LingPipe和TextBlob;专门用于机器学习的工具有Python中的Sklearn包;数据采集工具有基于Google Chrome浏览器的WebScraper插件,八爪鱼,火车头等半商用工具。copyrightDuanRui&DengNing三、数据挖掘工具和软件包工具和软件包除去上述介绍的各种典型文本分析算法外,引人注目的是,当前已有很多数据分析系统工具被开发用于文本分析和数据收集。常见的
36、多功能工具包有WEKA,LingPipe和TextBlob;专门用于机器学习的工具有Python中的Sklearn包;数据采集工具有基于Google Chrome浏览器的WebScraper插件,八爪鱼,火车头等半商用工具。copyrightDuanRui&DengNing三、数据挖掘工具和软件包WEKAWEKA(Waikato Environment for Knowledge Analysis)的全名是怀卡托智能分析环境,是一套用Java编写的机器学习软件,由新西兰怀卡托大学开发。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类
37、,回归,聚类,以及在新的交互式界面上的可视化。copyrightDuanRui&DengNing三、数据挖掘工具和软件包WEKAWEKA具有以下几个优点:GNU通用公共许可证下的免费可用性;可移植性,WEKA完全在Java编程语言中实现,因此可以在任何现代计算平台上运行;兼具数据预处理和建模技术两种功能,且图形用户界面方便操作,易于使用。copyrightDuanRui&DengNing三、数据挖掘工具和软件包WEKAcopyrightDuanRui&DengNing三、数据挖掘工具和软件包LingPipeLingPipe是alias公司开发的一款使用计算语言学处理文本的工具包,它一般被用于查
38、找新闻人物、组织或地点的名称,将Twitter搜索结果自动分类为类别以及建议查询的正确拼写。LingPipe 的体系结构高效、可扩展、可重复使用且功能强大。copyrightDuanRui&DengNing三、数据挖掘工具和软件包LingPipe主题分类(Topic Classification)命名实体识别(Named Entity Recognition)词性标注(Part-of-Speech Tagging)句题检测(Sentence Detection)拼写纠正(Spelling Correction)兴趣短句识别(Interest Phrase Detection)聚类(Cluste
39、ring)字符语言建模(Character Language Modeling)数据库文本挖掘(Data Text Mining)中文分词(Chinese Word Segmentation)情感分析(Sentiment Analysis)语言识别(Language Identification)字符串比较(String Comparison)连字和音节(Hyphenation and Syllabification)奇异值分解(Singular Value Decomposition)Logistic回归(Logistic Regression)期望最大化(Expectation Maxim
40、ization)词义消歧(Word Sense Disambiguation)EclipsecopyrightDuanRui&DengNing三、数据挖掘工具和软件包TextBlobTextBlob是一个用Python编写的开源的文本处理库,它提供了一个统一的应用程序编程接口(API),用于执行通用自然语言处理(NLP)任务,如词性标注,名词性成分提取,情感分析,文本翻译等。copyrightDuanRui&DengNing三、数据挖掘工具和软件包SklearnSklearn全称为Scikit-learn,是机器学习中一个常用的Python第三方模块,该软件对一些常用的机器学习方法进行了封装,
41、在进行机器学习任务时,只需要简单地调用Sklearn里的模块就可以实现大部分机器学习任务,是简单高效的数据挖掘和数据分析工具,可供使用者在各种环境中重复使用。机器学习任务通常包括分类(Classification)、回归(Regression)、聚类(Clustering)、降维(Dimensionality Reduction)、模型选择(Model Selection)和预处理(Preprocessing)六种。copyrightDuanRui&DengNing三、数据挖掘工具和软件包Web scraper Web scraper 是一个专门从事网页数据爬取的软件工具,包括基于谷歌浏览器的
42、 Web Scraper 和基于云的 Web Scraper。在使用基于谷歌浏览器的 Web Scraper 时须设置站点地图,即设置 Web Scraper 浏览网页的方式和所要提取的内容,Web Scraper 会根据站点地图的导航提取所有数据并以CSV格式将其导出;基于云的Web Scraper 可以同时运行多个挖掘程序,提取大量数据。copyrightDuanRui&DengNing三、数据挖掘工具和软件包其他工具还有一些基于某步具体功能的专业工具,如中科院开发的中文词典分析系统(ICTCLAS),支持 Python 的 Jieba 包专门针对中文文本中的分词、词性标注有很好的性能;英文词性标注中斯坦福大学开发的 Loglinear POS Tagger 表现出色。copyrightDuanRui&DengNing谢谢聆听!copyrightDuanRui&DengNing