第6章Web挖掘与文本分析.pptx-淘文阁

资源描述

《第6章Web挖掘与文本分析.pptx》由会员分享，可在线阅读，更多相关《第6章Web挖掘与文本分析.pptx（29页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第6章Web挖掘与文本分析温浩宇西安电子科技大学出版社商业智能：方法与应用5.1 Web挖掘概述5.2网页信息抓取5.3 中文分词目录O N T E N T S网页信息抓取实例网页信息抓取原理基本概念常见的分词方法开源的中文分词器5.4 情感分析5.1 Web挖掘概述Web挖掘（Web mining）是数据挖掘技术在互联网上的应用技术，通过收集网络数据形成结构化和和非结构化信息，并在此基础上抽取出隐含的知识和模式。 5.1 Web挖掘概述 Web使用挖掘的目标是从Web数据中发现用户的使用模式，从而根据用户的使用情况和需求，不断调整Web应用程序的设计。数据包括Web用户的身份、来源以及他

2、们在Web站点上的浏览行为。Web使用挖掘 Web内容挖掘是从Web页面内容中挖掘、提取和集成有用的数据、信息和知识，包括半结构化数据或非结构化数据。Web内容挖掘 Web结构挖掘采用图论的方法来分析网站中页面节点的连接关系。Web结构挖掘的主要目标是生成Web站点和Web页面的结构图。Web结构挖掘 5.1 Web挖掘概述Web挖掘的关联关系5.2 网页信息抓取网页信息抓取原理网页信息抓取实例5.2.1 网页信息抓取原理概念方法过程n Web内容挖掘的基础是从网页中抓取信息n 通过专门的软件或针对网站进行个性化的软件开发抓取目标数据n 下载并完整解析目标数据所在的网页n 从下载到的网页中获取

3、相应的目标数据n 手工获取，对访问对象逐一打开，并将所需内容进行复制整理n 使用网络数据抓取软件，对目标网站进行批量下载n 通过编写爬虫程序，自定义抓取策略，获取目标网页的数据 5.2.1 网页信息抓取原理网络爬虫概念网络爬虫是自动提取网页的程序，它实现的基础是基于互联网本身的拓扑结构是一个联通的图，通过网络爬虫将互联网中的网页进行爬取后，分析页面内容，并对这些网页进行索引，进而提供对页面内容进行检索的功能。爬取方式n 直接爬取页面完整数据n 局部刷新爬取页面数据n 级联页面数据n 规则URL页面爬取n 非规则URL页面爬取n 需登录验证或特定请求格式爬取n 需动态变更IP地址爬取 5.2.

4、1 网页信息抓取原理网络爬虫网络爬虫基本原理图 5.2.1 网页信息抓取原理网络爬虫直接爬取页面复杂的获取形式模拟用户访问AJAX方法通过一个请求就可以将对应URL的页面一次性全部获取到按步骤地触发页面的响应事件，并模拟浏览器调用脚本引擎执行相应的Javascript程序，重新更新页面以获取完整的数据分析AJAX异步调用过程中所访问的服务器接口，分析其对应接口的请求构造和返回值优点最为简单直接伪装效果好，不易被服务器端察觉为爬虫程序执行效率低，数据获取的效果很大程度取决于模拟器是否完善可靠缺点简单直接，效率高容易被判为爬虫，并且需要逐步分析AJAX的调用流程，增大了工作量 5.2.1

5、网页信息抓取原理网络爬虫模拟用户输入用户账户信息，完成登录过程特点：这种方式实现简单，模拟效果好，但局限于Javascript解析引擎的解析效果构造登录的页面表单，提交表单，完成验证特点：这种方式效率高，但需要做相应的登录表单分析工作，容易被服务器端检测并判为爬虫程序，拒绝其登录先正常的登录验证，单独提取Cookie信息，供后续使用特点：Cookie通常存在一定的有效期，过了有效期后服务器就需要用户再一次进行身份验证。用户登录验证的三种方式 5.2.1 网页信息抓取原理数据存在形式静态数据AJAX动态更新数据动态解析数据存在形式简单，静态数据在浏览器端和服务器端是同构的，是一份数据的两份

6、一致的副本，因此是最容易处理和提取的数据形式。由服务器程序响应浏览器请求并返回数据的，其返回数据存在较高的不可预见性，因此获取数据的难度也因此提升。具有高不可预见性，同一页面会由于用户具体的操作内容不同而产生不同的数据，因此，AJAX形式的数据获取的难度最高，所需设计的策略也更为复杂。5.2.1 网页信息抓取原理网页包装器基于正则表达式基于逻辑判断选择基于树结构基于机器学习一个典型的基于正则的网页包装器是W4F，W4F为了降低用户对HTML语法的学习成本，使用了向导的方式指引用户标记处其目标数据。并根据这些目标数据生成相应的正则表达式，从而获取目标数据。其核心思想是设计一门专用的

7、包装器编程语言来完成包装器设计工作，基于包装器设计语言的工具将网页视为一个半结构化的树状文档（即DOM）而不是一串纯粹的字符串序列。基于树的包装器主要讨论的问题是包装器所提取的目标数据与树结构特征的对应关系，将数据的提取过程映射为树结构元素的匹配定位问题，并可有多种策略解决这一问题。机器学习技术适用于获取互联网页面中特定领域的信息，一旦获得一个训练完备的模型，那么该模型便可有效地获取目标数据，而且灵活性好，准确度高。5.2.2 网页信息抓取实例基于正则表达式基于逻辑判断选择基于树结构基于机器学习5.2.2 网页信息抓取实例基于正则表达式基于逻辑判断选择数据结构

8、有组织结构的数据非结构化文本数据eg：公司名称、职位名称规范的爬取导入到关系型数据库中直接进行分析eg：职位描述需要对其进行文本分析5.2.2 网页信息抓取实例职位基本信息需求维度职位名称、工作地点职位详细信息公司所属行业、所需雇员经验程度工作性质、雇主ID、发布时间职位详细信息为研究分析的主要数据成分为纯文本格式5.2.2 网页信息抓取实例基于正则表达式基于逻辑判断选择选取一部分种子URL将第一步选取的URL放入一个队列中，这个队列即待抓取URL队列从待抓取URL队列中一条条取出待抓取URL，下载该URL对应的页面之后将其从待抓取URL队列中转移到另外一个队列中-已抓取URL队列解析已抓

9、取URL队列中的URL，然后进入下一个循环5.2.2 网页信息抓取实例基于正则表达式 WebMagic总体架构图5.2.2 网页信息抓取实例基于正则表达式程序开发获取目标URL并进行初步分析页面内容提取和解析数据存储领英网页面的访问需要用户注册并登陆之后，才可以查看网站上的招聘信息，这里采取通过传送Cookie信息的方式访问网页这里采用Json选择器，将得到的HTML代码输入，寻找路径，最终每一个所需维度信息得到一个Json选择器路径爬取数据最后的一个步骤即为数据存储，将网页上获取到的目标信息完整地存储到目标库中之后就完成了数据爬虫的设计开发。5.3 中文分词基本概念常见的分词方法开源中文

10、分词器5.3.1 基本概念基本概念n计算机中文信息处理就是要“用计算机对汉语的音、形、义进行处理”，词是语言中最小的能够独立活动的有意义的语言成分，是信息处理的基本单位。n中文分词，就是把输入计算机的汉语语句自动切分为词的序列的过程。重要程度n中文分词技术在实际中应用广泛，在搜索引擎中的应用具有代表性。n中文分词得准确与否，常常直接影响到对搜索结果的相关度排序。5.3.1 基本概念基于正则表达式基于逻辑判断选择词的界定及分词规范问题分词标准上若不能达成共识，那么在词表和带标注的语料库等重要资源上就不能做到共享与复用，势将造成重复开发。分词和理解的先后问题计算机不可能像人那样先理解后分词，因

11、此自动分词只能是在知识严重短缺的条件下去追求比较好的分词结果。歧义切分字段问题一个句子经常对应几个合法词序列，中文分词需要在这些可能的序列中选出一个正确的结果。未登录词的识别未登录词是指没有加入分词词典而实际文本中存在的词汇，可能会引起分词错误，是当前中文自动分词研究的重点和难点。中文分词要解决的问题5.3.2 常见的分词方法常见的分词方法词典分词法正向最大匹配法逆向最大匹配法双向最大匹配法统计分词法基于序列标注的分词方法神经网络（ANN）分词法5.3.3 开源中文分词器中文分词器算法开发语言操作系统字符编码IKAnalyzer 正向最细粒度切分算法JavaLinux/WindowsUTF-8

12、盘古分词字典和统计结合的算法C#.NETWindows GBKPaoding细粒度切分算法JavaLinux/WindowsUTF-8/GBKimdict-chinese-analyzerHHMM模型JavaLinux/WindowsUnicodeJiebaHMM模型(Viterbi算法)PythonLinux/WindowsUnicodemmseg4jMMEG 算法JavaLinux/WindowsUTF-8AnsjHMM模型(Viterbi算法)JavaLinux/WindowsUTF-8主要分词器特征比较5.3.3 开源中文分词器主要分词器参数比较中文分词器精度(Precision)召回

13、率(Recall)F指数(F-mesure)耗时(s)IKAnalyzer 0.9590.9540.937115.335盘古分词0.9420.9330.937243.487Paoding0.9850.9630.97490.403imdict-chinese-analyzer0.9760.9560.966351.180Jieba0.8930.8560.874304.356mmseg4j0.9710.9630.967141.196Ansj0.9620.9410.951224.9865.4 情感分析情感分析是对文本中关于某个实体的观点、情感、情绪及态度的计算研究。情感分析的目标就是明确评论者对所评论

14、对象的态度。它利用各种方法对带有情感色彩的文本进行分析、处理、推理和归纳。5.4 情感分析词语情感分析句子情感分析篇章情感分析整体倾向性预测词语情感倾向性分析沙及的内容有基础情感词典或词库的建立，可以利用基于知网（HowNet）情感词典的构建方法针对互联网上的带有情感倾向的文本经过预处理、分词等过程转化为标准文本之后，要对其中的情感词进行识别与提取，并表示成向量空间模型（即VSM）形式，然后判别情感词的原极性和修饰极性根据所有带有主观色彩的情感词的最终极性来识别出句子的情感。最后，得出整篇文本的情感5.4 情感分析情感分析方法基于情感词典简单代数运算基于语法规则符合模型基于机器学习有监督分类深度学习基于核函数和统计学分类器朴素贝叶斯分类器SVM最大信息熵其他分类器无监督分类词典与机器学习混合的方法

展开阅读全文