《教学课件商务数据分析与应用第4章 商务数据的采集与处理ppt(全).ppt》由会员分享,可在线阅读,更多相关《教学课件商务数据分析与应用第4章 商务数据的采集与处理ppt(全).ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教学课件商务数据分析与应用第教学课件商务数据分析与应用第4 4章章 商商务数据的采集与处理务数据的采集与处理 商务数据分析与应用商务数据分析与应用第4章 商务数据的采集与处理本章提纲 网页数据的采集网页数据的采集4.1 市场调查问卷的设计与回收市场调查问卷的设计与回收4.2 数据的导入与导出数据的导入与导出4.3 数据清洗与预处理数据清洗与预处理4.4学习目标u1.熟悉商务数据采集的类型和方法u2.了解网络数据的爬取方式和开源工具u3.掌握调查问卷的设计方法与注意事项u4.掌握数据在Excel中的导入导出操作u5.掌握用Excel进行基本的数据处理和规范化操作重点难点知识u章节重点章节重点1.
2、对网页数据的采集操作2.利用Excel进行数据的导入和导出3.利用Excel进行数据的预处理u章节难点章节难点1.操作爬取网络数据的工具2.设计调查问卷及了解数据统计方法本章思维导图知识导入u亚马逊不仅是电子商务公司更是一家信息公司亚马逊不仅是电子商务公司更是一家信息公司亚马逊是全球电子商务的巨头。对于亚马逊来说,大数据意味着大销售量,各个业务环节都离不开“数据驱动”的身影,不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来。这种对数据价值的高度敏感和重视,以及强大的海量数据处理与挖掘能力,尝试定位每一位客户和获取客户反馈,使得亚马逊绘制出大数据时代的宏伟商业蓝图,
3、成为了一家名副其实的“信息公司”。对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。不难看出,大型商业企业对数据十分重视,数据在商业领域既是基础,又是商业决策的指挥棒。那么如何收集这些数据成了众多渴望成功的企业的关注重点,本章将介绍数据获取的主要渠道以及数据处理的方法。4.1 网页数据的采集v4.1.1 静态数据采集静态数据采集v4.1.2 动态数据采集动态数据采集v4.1.3 网络数据的爬取网络数据的爬取4.1.1 静态数据采集u静态数据是指在运行过程中主要作为控制或参考用的数据,它们在很长的一段时间内不会变化,一般不随系统运行而改变。进行描述时应把各数据元素有逻辑地分成若干组,例如函
4、数、源数据或对于其应用更为恰当的逻辑分组,给出每个数据元素的名称、定义、度量单位、值域、格式和类型等有关信息。在网页上,静态的目标数据是在网页源码中,可一次性加载在网页中。4.1.1 静态数据采集u下面将详细说明网页数据采集的主要操作过程。采集东方财富网2020年中报业绩大全数据,部分股票数据如图4.1所示,数据样例如表4.1所示。4.1.1 静态数据采集 Step 1:新建一个Excel文件,在“数据”选项卡中,单击“新建查询从其他源从Web”,单击如图4.2所示。Step 2:在弹出的“从Web”对话框的地址栏里键入网址,如图4.3所示。4.1.1 静态数据采集Step 3:单击“确定”后
5、,在“导航器”对话框中,在表视图中可观察出“Table 0”是目标数据,单击“Table 0”表,再单击“编辑”进入Power Query编辑器,如图4.4所示。4.1.1 静态数据采集Step 5:加载在表格中的数据,如图4.6所示。Step 4:进入PowerQuery编辑器后,删除不需要的数据,以删除“相关”为例。保留需要分析的数据,如图4.5所示。然后,单击页面左上角的“关闭并上载”。4.1.2 动态数据采集u动态数据指在系统应用中随时间变化而改变的数据。动态数据的准备和系统切换的时间有直接关系。动态数据采集的目标数据在 JavaScript 或 XHR 中,只有在网页中进行特定操作才
6、能向服务器请求加载动态数据。从美国职业篮球协会数据库和网站获取动态的球队信息。根据球队名称、缩写和年份创建球队信息表,如表 4.2 所示。4.1.2 动态数据采集Step 2:打开打开 Headers Headers 选项卡,可以看到请求的选项卡,可以看到请求的 URLURL:http:/www.stat- 4.8 4.8 所示。所示。Step 1:打开美国职业篮球协会网站,右击,在弹出的菜单中单击“检查”命令,进入“开发者模式”,在 NetWork 选项卡中选择不同的赛季,在 Name 下拉列表框中单击新增文件链接,在 Preview 下拉列表框中可查看文件内容,如图 4.7 所示。4.1.
7、2 动态数据采集Step 4:单击“确定”按钮,进入 Power Query 编辑器,单击“年份”列右侧的下拉按钮,在弹出的菜单中单击“更改类型”“整数”命令,如图 4.11 所示。Step 3:在 Excel 的“数据”选项中单击“获取和转换”选项组中的“从表格”选项,如图 4.9 所示。在弹出的“创建表”对话框中设置“表数据的来源”为$A$1:$C$5,如图 4.10 所示。4.1.2 动态数据采集Step 6:在“添加列”选项卡中的“常规”选项组中单击“自定义列”选项,如图 4.13所示。Step 5:在弹出的“更改列类型”对话框中,单击“替换当前转换”按钮,如图 4.12所示。4.1.
8、2 动态数据采集Step 7:在弹出的“自定义列”对话框中,将“新列名”设置为 URL,在“自定义列公式”列表框中输“http:/www.stat- 写&season=&年份&col=pts&order=1&isseason=1”,如图 4.14 所示。4.1.2 动态数据采集Step 8:单击“确定”按钮,重复上述操作打开“自定义列”对话框,在“自定义列公式”列表框中输入“Web.Page(Text.FromBinary(Web.Contents(URL),65001)0 Data”,设置“新列名”为“数据”,如图 4.15 所示。Text.FromBinary()函数的作用是将二进制文件转
9、换成文本,本例使用该函数是为了解决乱码问题,第二个参数 65001 表示UTF-8 编码。4.1.2 动态数据采集Step 10:单击“确定”按钮,单击“球员”列右侧的下拉按钮,在弹出的菜单中取消“总计”、“全队数据”和“对手数据”复选框的勾选,如图 4.17 所示。Step 9:单击“确定”按钮,单击“数据”列右侧的下拉按钮,在弹出的菜单中取消空列和“使用原始列名作为前缀”复选框的勾选,如图 4.16 所示。4.1.2 动态数据采集Step 11:单击“确定”按钮,在“Power Query 编辑器的主页”的“开始”选项中下单击“关闭并上载”选项删除 URL 列,即可在工作表中得到相应的数据
10、,如图 4.18 所示。4.1.3 网络数据的爬取u1.网络爬虫基本概念网络爬虫即编写计算机程序访问互联网中的网页,又称为网络蜘蛛或Web信息采集器。狭义的网络爬虫指利用标准网络协议(如 HTTP、HTTPS 等),根据网络超链接和信息检索方法(如深度优先)访问网络数据的软件程序。网络爬虫的应用步骤为,先确定待采集的 URL 队列,获取每个 URL 对应的网页内容(如 HTML 和 JSON 等),根据用户要求解析网页中的字段(如标题),并存储解析得到的数据。此外,由于批量爬虫需要等待服务器响应,效率相对较低,因此可以通过多进程、多线程的设计来充分利用资源。利用网络爬虫抓取数据有技术难度,需要
11、熟练掌握 R 或 Python 等语言,同时也有不少成熟的爬虫软件,如八爪鱼等。4.1.3 网络数据的爬取u2.利用开源的网络爬虫工具爬取数据八爪鱼(1)八爪鱼采集器八爪鱼采集器是深圳视界信息技术有限公司研发的一款业界领先的网页采集软件,具有使用简单、功能强大等诸多优点。八爪鱼采集器可简单快速地将网页数据转化为结构化数据,存储于Excel或数据库等,并且提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。其智能模式可实现输入网址全自动化导出数据,是国内首个大数据一键采集平台。八爪鱼采集器的规则配置流程模拟人的思维模式,贴合用户的操作习惯,以满足不同的个性化应用需求。其中,八
12、爪鱼的简易模式内置上百种主流网站数据源,存放了国内一些主流网站爬虫采集规则,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据,节省了制定规则的时间及精力。对于大部分电子商务平台上的卖家,直接自定义规则可能有难度,在这种情况下,可以使用简易模式。4.1.3 网络数据的爬取(2)八爪鱼简易模式下采集苏宁易购商品列表采集网站中的商品数据可以用来分析商品价格变化趋势,了解评价数量、竞品销量和价格,分析竞争店铺等,帮助企业快速掌握市场行情,制定相应的营销策略。下面介绍在八爪鱼简易模式下采集苏宁易购商品列表的方法。4.1.3 网络数据的爬取Step 1:下载八爪鱼
13、软件并登录。:下载八爪鱼软件并登录。打开八爪鱼软件官方下载界面,单击下载按钮,如图4.19所示。下载软件并安装,安装完毕之后打开软件,首先进行账户注册并登录。4.1.3 网络数据的爬取Step 2:设置苏宁易购商品列表抓取规则。:设置苏宁易购商品列表抓取规则。进入登录界面即可看到主页上的“热门采集模板”,单击“更多”按钮,模板类型选择“电子商务”,下拉选择“苏宁易购”,单击后进入选择“商品列表采集”,如图4.20、图4.21和图4.22所示。4.1.3 网络数据的爬取Step 3:掌握模板的使用方式。:掌握模板的使用方式。“采集模板”页面详细介绍了该模板的使用方式,如图4.23,“采集字段预览
14、”包括商品图片,总评价数,标签,价格,是否自营,详情链接,关键词等,如图4.24;“采集参数预览”包括输入关键词等;“示例数据”则以表格形式给出爬取的数据,如图4.25,点击“立即使用”。4.1.3 网络数据的爬取Step 4:保存并运行苏宁易购商品列表采集规:保存并运行苏宁易购商品列表采集规则则。填入本次爬取任务的任务名,以及对应的任务组(默认为“我的任务组”),输入需要爬取的关键词,点击“保存并启动”,如图4.26所示。Step 5:本地采集。:本地采集。在弹出的启动任务窗口点击“启动本地采集”,如图4.27所示,即用本地发送网络请求,“启动云采集”则是指在用云服务器资源向目标服务器发送请
15、求,适用于时间长,数据量较大的爬虫任务,本示例以启动本地采集为例。4.1.3 网络数据的爬取Step 6:爬取数据。:爬取数据。点击后会弹出一个新窗口,上半部分显示实时网页画面,可以看到网页在不断地下拉,说明正在爬取数据,采集过程中可以随时点击“停止采集”,如图4.28所示。Step 7:导出数据。:导出数据。采集结束后,可以点击“导出数据”,如图4.29所示。4.1.3 网络数据的爬取Step 8:数据存储。:数据存储。八爪鱼提供多种可选的数据存储方式,如图4.30所示,包括Excel、CSV文件、HTML文件、JSON格式、保存到数据库等,本示例选择Excel,保存的数据如图4.31所示。
16、4.1.3 网络数据的爬取3.利用免费的爬虫插件爬取数据Web Scraper(1)Web Scraper的基础知识Web Scraper是一个免费的轻量级Chrome浏览器爬虫插件,用于抓取任意Web页面并使用几行JavaScript代码从中提取结构化数据。它能够加载Web页面并实现动态抓取。Web Scraper既可以在用户界面中手动配置和运行,也可以使用API运行。可以将抓取的数据以各种格式导出保存到本地,比如JSON、XML或CSV。对于一般的爬取需求,Web Scraper都能满足。4.1.3 网络数据的爬取(2)Web Scraper抓取数据的操作Step 1Step 1:Web
17、ScraperWeb Scraper的安装。的安装。如果网络状况较好,可以选择在Chrome网上应用商店下载,也可以在其他提供下载的网站下载,下载后保存有一个以.crx结尾的文件。打开Chrome浏览器,找到“扩展程序”,如图4.32所示。4.1.3 网络数据的爬取打开开发者模式,如图4.33所示。将下载好的crx文件更改后缀名为“zip”并解压,点击“加载已解压的拓展程序”,选中解压后的文件夹,部署过程和结果如图4.34所示。4.1.3 网络数据的爬取Step 2:以抓取CSDN博客条目为例,展示Web Scraper的基本使用方法。首先,打开CSDN网站的博客首页,搜索“java”条目,如
18、图4.35所示,得到如下网页,并记下当前URL:https:/ 网络数据的爬取Step 3:鼠标右键单击,点击“检查”,此时可以从菜单中看到最后一项“Web Scraper”,点击,可以看到如下三个子菜单,点击“Create new sitemap”-“Create sitemap”,创建一个新网站地图,并填写刚才得到的URL,自拟一个名称。需要注意的是,名称最好使用英文名,再点击“Create Sitemap”按钮,如图4.36所示。4.1.3 网络数据的爬取Step 4:此时只有一个根节点,点击“Add new selector”,创建一个新的选择器并为其命名,Type选填“Element
19、”,表示要抓取的是元素节点,因为Web Scraper是基于DOM的抓取工具,它会将HTML页面解析为一个节点树,在根节点下有元素、元素属性、文本等节点类型。在Id一栏输入“page”作为父节点,点击“selector”栏的“select”,移动鼠标到页面上,会发现自动框选元素,调整鼠标到合适的位置,将一整个条目都框住,为了选取所有文章,需要框选多个节点,当框选一定数量的节点后,工具会自动帮我们选择相同结构的节点,选择完毕后,点击“Done Selecting!”。选择后的结果如图4.37所示,要勾选“Multiple”选项,代表选择多个节点。4.1.3 网络数据的爬取Step 5:点击“Se
20、lector”栏的“Element preview”可以看到已选择的元素,点击“Data preview”可以看到数据预览,由于本次选择的是Element节点,它包含子节点,所以数据预览无法显示,它只适用于文本类型节点的预览。点击“Save selector”可以保存该选择器,保存后的页面如图4.38所示。4.1.3 网络数据的爬取Step 6:还可以再次编辑、删除该选择器或者预览该选择器选中的元素或数据。为了爬取文章或资源的标题和文本,单击page进入该父节点,再添加两个选择器,将类型选择为“Text”,不要选中“multiple”选项,将“Parent Selectors”选为page,因
21、为一个page元素只有一个该子元素,如图4.39所示。Step 7:为了看到层次清晰的选择器结构,点击“Sitemap(web_scraper)”-“Selector Graph”,可以看到该网页的选择器父子结构,如图4.40所示。4.1.3 网络数据的爬取Step 8:点击到选择器节点,点击“page”选择器的数据预览,可以看到title和text子节点自动变成表格的列标题,如图4.41所示。Step 9:点击“Sitemap(web_scraper)”-“Scrape”,可以选择以一定的时间段和响应时间爬取网页,Request interval参数的作用是让web_scraper以一定的时
22、间间隔发起爬取请求,而Page load delay参数的作用是爬取后显示数据的延迟。如图4.42所示。4.1.3 网络数据的爬取Step 10:点击“Start scraping”后,弹出一个新的页面,在该页面中爬取选择器对应的数据,爬取成功后,可以点击左上角“Refresh Data”预览爬取的数据,如图4.43所示。4.1.3 网络数据的爬取Step 11:点击“Sitemap(web_scraper)”-“Export data as CSV”-“Download now!”,以CSV格式将爬取的数据保存到本地,如图4.44所示,保存后的数据如图4.45所示。4.2 市场调查问卷的设计
23、与回收v4.2.1 调查问卷设计调查问卷设计v4.2.2 调查问卷的回收调查问卷的回收v4.2.3 调查问卷的数据分析调查问卷的数据分析4.2.1 调查问卷设计u1.搭建问卷框架调查问卷是一种非常好的数据收集方式。在正式设计调查问卷之前,首先要明确问卷的内容,需要采集哪些数据。这可以通过搭建问卷框架来实现,问卷框架通常包含三部分,分别为中心概念、核心内容、具体问项,如表 4.3 所示。4.2.1 调查问卷设计u1.搭建问卷框架中心概念。中心概念可理解为一级指标,一般由研究主题直接获得。中心概念的作用在于进一步明确问卷调查的主题,确保不会遗漏重要内容。例如,有关“京东移动端使用情况”的调研问卷,
24、中心概念就由“使用情况”和“需求满足情况”两个方面构成。核心内容。核心内容是对中心概念的阐述,也可以理解为一级指标下面包含了哪些二级指标。核心内容并不会体现在具体的问题设计当中,但是有助于把整个问卷模块化、逻辑化。具体问项。具体问项是每一项核心内容的具体细化条目,是会直接出现在问卷中的问题内容,决定了最终能获得哪些数据。4.2.1 调查问卷设计u2.确定问题形式如果说搭建问卷框架有助于梳理问项的内容,那么确定问题形式就是在决定所采集的数据类型。问卷中常见的问题形式包括封闭式问题和开放式问题。单选题、多选题、排序题、量表题都是常见的封闭式问题的表现形式,具体示例如表4.4所示。4.2.1 调查问
25、卷设计由表 4.4 可知,采用开放式问题,得到的是半结构化或者非结构化的文本数据,后期需要经过人工编码、加工处理才能整理成结构化的、易于分析的数据;采用封闭式问题,得到的是结构化的数据,从而省去了大量的加工成本。但是,这并不意味着开放式问题完全不可用。对于意见、建议征集等问题或其他无预设标准答案的问题,开放式问题仍然是最佳选择。虽然表 4.4 中的封闭式问题得到的都是结构化数据,但是由于答项的设计不同,最后得到的数据类型也有所差别。例如,单选题、多选题得到的通常是定性数据(定类数据或定序数据),主要通过柱形图、饼图、频数频率表、列联表等进行统计分析和描述分析。通过量表题(五级/七级、评分式)可
26、以得到定量数据,满足后续更为复杂的数据分析要求,如回归分析、多元分析、因子分析、聚类分析等。因此,在设计问卷时,需要将后续的数据分析也纳入思考范畴,带着分析需求来设计问题,会让问卷更有针对性。4.2.1 调查问卷设计u3.选措辞、排结构确定了问卷框架和问题形式,接下来需要对每一个问题的措辞表达和前后位置进行设计。问题的措辞表达应与受访者的认知能力相适应,基本要求是准确、优雅。准确指的是受访者清楚理解问题的含义,优雅指的是让受访者以一种轻松舒适的心情配合调查。这两个要求共同保障了“所答即所需”。表 4.5 中列出了问项措辞、答项设置的若干基本原则,以及对应的反例和修改方案。其中,前三个原则是为了
27、满足“准确”的要求,后两个原则保证了问卷的“优雅”。4.2.1 调查问卷设计4.2.1 调查问卷设计u一般来说,一份问卷包含四个部分,分别是开头(标题、开场白、填表说明、问卷编号);正文(核心问项、背景信息);结束语(感谢、联系方式);作业记载(访员信息、调查时间等)。在开头部分,标题和开场白都应简明扼要,后者应至少包含“我们是谁”“因何目的需要开展调查”“需要您做什么”“数据是否商用/保密”、“感谢”等信息。在正文部分,核心问项指的是前面已经设计好的具体问题,应按照从易到难的原则来排序,即先封闭问题、后开放问题,先客观性的核查问题、后主观性的态度问题。同时,建议最好按类编排核心问项,也就是按
28、照问卷框架中的“核心内容”来使问卷模块化。背景信息一般包含与受访者个人有关的特征,如年龄、性别、婚姻状况、工作单位属性、收入情况等。因为涉及个人隐私,建议将这部分内容放在核心问项之后。避免因为敏感性让受访者感到不安而影响核心问项的回答质量,甚至拒填问卷。4.2.2 调查问卷的回收u校订是指对回收的问卷资料进行详细审查,以确定所搜集资料的有效性及合理性。问卷中需要校订的内容主要包括:调查员是否按照抽样调查指示进行访问?样本单位是否正确?如果受访者不符合抽样的要求,其答案应予舍弃。答案是否完整无遗漏?所有应该答复的问题是否都有回答?字迹是否清晰可见?受访者寄回的问卷、访问员的访问报告或观察员的观察
29、记录上的字迹是否清晰可读?如果无法辨认,有时可以送回原答卷者或原记录者重新填写,但有时因时间关系或其他原因,只能舍弃不用。答案是否有前后不一致的现象或者出现矛盾的地方?答案的意义是否明确?开放式答案的叙述常难以了解,如有合糊不清的答案应设法弄清楚。4.2.3 调查问卷的数据分析u问卷调查分为两大类:即量表问卷和非量表问卷。量表问卷通常更多用于学术研究,其特点在于更多的态度认知题项,体现样本人群对于某事物的态度和看法等,通过对各研究变量的关系研究,找出其中内涵与逻辑关系。非量表问卷更多体现对某现状的事实情况和基本态度调研,此类问卷更多在于分析思路的逻辑和现状情况的了解分析,以及样本的基本态度情况
30、。u从分析方法上,量表类问卷可以使用信度、效度、因子分析等方法。非量表问卷更多使用基本频数分析和交叉分析等,同时使用图形和表格进行多样化展示。涉及到的数据分析方法主要包括:样本背景分析(频数分析、描述性分析),样本特征与行为分析(频数分析、描述性分析),指标归类分析(探索性因子分析),信度分析(信度分析),效度分析(探索性因子分析),研究变量描述分析(描述性分析、频数分析),变量相关关系分析(相关分析),研究假设验证分析(回归分析),差异分析(方差分析,t检验、卡方分析),影响关系分析(logistic回归分析)等。4.3 数据的导入与导出v4.3.1 数据导入数据导入v4.3.2 数据导出数
31、据导出4.3.1 数据导入u可以将收集到的数据直接填写在Excel工作表的单元格中,也可以将多种格式的数据文件导入到Excel工作表中。单击Excel导航栏“数据”,最左侧可以选择将不同格式的数据导入Excel,如图4.46所示。4.3.1 数据导入1.1.将文本文件导入将文本文件导入ExcelExcel表格表格将如图4.47所示的文本文件导入Excel表格中。4.3.1 数据导入Step 1:打开并创建Excel文件,点击“数据”“自文本”,如图4.48所示。Step 2:在“导入文本文件”窗口中选择需要导入的文件,点击“导入”,如图4.49所示。4.3.1 数据导入Step 3:在弹出的“
32、文本导入向导”对话框中选择“原始数据类型”为“分隔符号”,点击“下一步”,如图4.50所示。4.3.1 数据导入Step 4:在弹出的“文本导入向导”对话框中选择“分隔符号”为“Tab键”,点击“下一步”,如图4.51所示。Step 5:“文本导入向导”对话框中选择“列数据格式”为“常规”,点击“完成”,如图4.52所示。4.3.1 数据导入Step 6:弹出对话框“导入数据”,选择“新工作表”,按“确定”按钮即可,如图4.53所示。Step 7:返回Excel工作表,可以看到数据的导入情况,如图4.54所示。4.3.1 数据导入2.2.将将CSVCSV文件导入文件导入ExcelExcel工作
33、表工作表Step 1:此处导入的数据是从国家统计局网(http:/ Values),如图4.55所示。Step 2:导入前再次确认数据的格式、编码、分隔符、数据行数等,此处默认,点击“加载”,如图4.56所示。4.3.1 数据导入Step 3:数据导入之后的Excel文件如图4.57所示。4.3.2 数据导出 将Excel数据导出到其他操作软件中。本书主要讲授将Excel中的数据导出到Word中。Step 1:打开Word,点击“插入”“对象”,如图4.58所示。Step 2:在弹出的“对象”对话框中,选择“由文件创建”,并点击“浏览”,如图4.59所示。4.3.2 数据导出Step 3:选择
34、需要导出的Excel数据源,点击插入,如图4.60所示。Step 4:在“对象”对话框中点击“确定”,如图4.61所示。4.3.2 数据导出Step 5:返回Word文件,就可以看到从Excel导出的数据,如图4.62所示。4.4 数据清洗与预处理v4.4.1 数据清洗数据清洗v4.4.2 数据概化数据概化v4.4.3 数据规范化数据规范化v4.4.4 数据合并与分组数据合并与分组4.4.1 数据清洗u1.含噪声数据处理含噪声数据最常用的是数据平滑法。应用分箱技术通过检测周围相应属性值进行局部数据平滑。分箱方法主要包括按箱平均值平滑、按箱中值平滑和按箱边界值平滑。例如,某 price 属性值排
35、序后为 4,8,12,12,15,24,24,28,38。采用不同分箱方法进行处理的结果如表 4.6 所示。处理含噪声数据还可以应用聚类技术检测孤立点数据并进行修正,或者利用回归函数或时间序列分析的方法进行修正。另外,使用计算机和人工相结合的方式也非常有效。对于含噪声数据,尤其是孤立点或异常数据,是不可以随便以删除方式进行处理的。因为某些孤立点数据和离群数据代表了某些重要的有特定意义的潜在知识。因此,对于孤立点数据可以先载入数据库,而不进行任何处理。当然,如果结合专业知识分析,确信无用的数据则可进行删除处理。4.4.1 数据清洗u2.错误数据对带有错误数据的数据元组,应结合数据所反映的实际问题
36、,进行分析、更改、删除或忽略,或者根据前一段历史数据趋势对当前数据进行修正。u3.缺失数据补充缺失数据的主要办法包括。若数据属于时间局部性缺失,则可采用近阶段数据的线性差值法进行补缺;若时间段较长,则应该采用该时间段的历史数据恢复丢失数据;若属于数据的空间残损,则用其周围数据点的信息来代替,且对相关数据做备注说明,以备查用。使用一个全局常量或属性的平均值填充空缺值。使用回归的方法或基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复。忽略该数据元组。u4.冗余数据冗余数据包括属性冗余和属性数据冗余,若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方
37、法找出具有最大影响因子的属性数据,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的属性可被删除。若经过分析,发现这部分冗余数据可能还有他用,则先保留并进行备注说明。4.4.2 数据概化u数据概化在数据变换过程中使用的比较广泛,例如:将细节数据汇聚到粗粒度的类别层面,通过电商销售记录统计各品类的总体销售水平、发现更具有普遍意义的数据分析结论等。如图4.63所示,从下至上形成具有四个层级的“家电类”商品的概化结构。4.4.3 数据规范化u数据规范化、标准化的目的是将其转化为无量纲的纯数据,便于不同单位或量级的指标能够进行比较或加权。常见的方法有以下四种:(1)最小最大标准化。也叫
38、离差标准化,是对原始数据的线性变化,将结果落在0,1区间,转换函数如下:(2)对数转换。通过对数函数转换的方法实现归一化,方法如下:4.4.3 数据规范化(3)arctan函数转化。用反正切函数实现数据的归一化,方法如下:(4)z-score标准化。也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:4.4.4 数据合并与分组u1.数据合并数据合并包含纵向合并和横向合并,将多张表格合并成一张表格;数据分组是依据某些维度进行统计分组的操作。(1)纵向合并纵向合并也称数据追加,常用于将多张相同结构字段的表格合并成一张表格的场景。例:现有4个国家120个地区的销售
39、数据,分别保存在4个文件中,将这120个地区的销售数据合并成一张表。4.4.4 数据合并与分组Step 1:在Excel的“数据”选项卡中选择“获取数据”,在“从文件”中选择“从文件夹”选项,将数据导入PowerQuery编辑器中,如图4.64中。Step 2:在弹出的“文件夹”对话框中,选择文件夹路径,如图4.65所示。4.4.4 数据合并与分组Step 3:单击“组合”后会弹出下拉菜单,选择“合并并编辑”选项,如图4.66所示。Step 4:浏览并确认文件内容无误后,单击“确定”进入PowerQuery界面,如图4.67所示。4.4.4 数据合并与分组Step 5:在PowerQuery界
40、面浏览文件内容,无误后在左上角单击“关闭并上载”,即可得到合并后的数据,如图4.68所示。Step 6:合并后的数据如图4.69所示。4.4.4 数据合并与分组(2)横向合并横向合并也称为合并查询,合并查询分为左外部、右外部、完全外部、内部、左反和右反6种连接方式。例:若现有两张表,表4.7是商家的基本信息表,表4.8是商家的销售情况表。若分析不同商家的销售情况差异,需要将两张表进行合并。4.4.4 数据合并与分组Step 1:选中表格,在“数据”选项卡中单击“从表格”选项,如图4.70所示。Step 2:以基本信息表为左表,进入PowerQuery编辑器,在“开始”选项卡中单击“新建源”,选
41、择Excel,将商家销售情况表导入,如图4.71所示。4.4.4 数据合并与分组Step 3:选中销售情况表,单击“确定”导入,如图4.72所示。Step 4:在左侧选择“销售情况表”,右键单击左上角,选择“将第一行用作标题”,如图4.73所示。4.4.4 数据合并与分组Step 5:在选中基本信息表的情况下单击“开始”选项卡下的“合并查询”,选中相同的列,如图4.74与4.75所示。4.4.4 数据合并与分组Step 6:单击“确定”后,在展开的销售情况表中取消勾选“商家名称”,如图4.76所示。Step 7:展开后的表格如图4.77所示。4.4.4 数据合并与分组Step 8:单击左上角“
42、关闭并上载”,返回Excel表格,可得到合并后的数据,如图4.78所示。4.4.4 数据合并与分组u2.数据分组数据分组是根据某个维度将数据以某种算数方法(求和、计数等)进行统计汇总。例:统计部分旗舰店部分月份的平均销售量,如表4.9所示。4.4.4 数据合并与分组Step 1:先选中表,在“数据”选项卡中单击“从表格”选项,将表格导入PowerQuery中。Step 2:然后选中“开始”选项卡下的“分组依据”选项,对数据进行分组统计,如图4.79所示。Step 3:分组后的结果如图4.80所示。本章知识小结u 数据收集是商务数据分析的第一步,也是非常重要的一步。本章主要介绍了数据采集和数据获取的主要渠道,主要包括:从网页上获取静态和动态数据,通过爬虫工具获取网络数据,设计调查问卷获取用户反馈等方式。详细说明了基于网络爬虫对网络数据进行爬取的过程,给出了调查问卷的设计和回收处理的基本原则。运用Excel进行数据的导入导出操作。对重复、缺失、错误数据的基本处理操作。从数据清洗、数据概化和规范化、数据纵向与横向合并、数据分组等方面学习数据的准备与预处理操作。本章内容结束!