《《数据采集与预处理》教学教案—11用OpenRefine进行数据预处理.docx》由会员分享,可在线阅读,更多相关《《数据采集与预处理》教学教案—11用OpenRefine进行数据预处理.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据采集与预处理NO. 11教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数4授课章节名称任务4用OpenRefine进行数据预处理教学目的(1)熟悉OpenRefine的相关基础知识。(2)学会使用 OpenRefine完成“北京公交线路信息”数据的预处理。教材分析教学重点使用 OpenRefine完成 “北京公交线路信息” 数据的预处理教学难点使用 OpenRefine完成 “北京公交线路信息” 数据的预处理更新、 补充、删节内容课外作业积极动手实践, 熟练完成相关任务的实施操作教学提示教学过程一、知识准备:OpenRefine (原名为Google Refine)是一个用
2、来管理杂乱数据,进行 整理与扩展的工具,即使处理人员缺乏专业技术背景,其仍能够快速廉价 地在一个操作界面中处理大量的数据问题。OpenRefine可使用半自 动化的 方式对数据进行处理,如删除缺失值和重复值、行过滤透视、值聚类及转 换、单元格拆分等。1 .运行程序下载压缩包,将其解压到根目录中,在命令 行窗口中执行“./refine”命令,启动服务,OpenRefine会自动启动浏览器。OpenRefine Web界面左侧有几个选项卡,这里只介绍其中3个选项的 功能。2 .清洗数据(1)找到问题数据分面(facet):分组结果显示在屏幕左栏中。OpenRefine中有四种 基本的分面:文本、数
3、值、时间线及散布图。文本分面:便于快速地对数据集中文本列的分布建立认知。数值/时间线分面:便于粗略了解数值型数据的分布。散布图分面:便于分析数据集中数值型变量间的相互作用,用非数学 的方式来辨认某现象的测量值与可能原因 因素之间的关系。文本过滤(filter):查找特定值,可以使用正则表达式,后续修改 /替换等处理可仅针对过滤后的数据进行。排序(sort):可设定有效值、空值、错误值的排序位置,易于 找到问题数值。(2)批处理通用转换:去空格、更改字母大小写、更改取值类型(文本、数值、 日期)等。 编辑/修改/替换:修改单元格值时,可选择适用 于所有相同单元格。 自动归类相似取值:可将数据一键
4、合并为相同值,这是快速完成 数据一致性处理的强大工具。 定制文本转换:使用各种表达式(公式/函数),结果即时预览,确 认正确后再执行。 电子表格通用的功能:分列/合并、填充等。向下填充是智能的, 无需指定范围,即可自动复制其值到后续空格中。(3)所有操作历史自动保留 可随时通过回退(Undo/Redo)找回某个处理前的状态。要选择返 回某步骤,单击该步骤的链接即可完成回退操作。 处理步哪可复制(例如,复制步骤用于对另一批数据做相同处理), 可抽取复制操作代码,并将其粘贴到 Apply窗口中运行(当然,也可以在 运行前修改代码)。3.转换格式把其他格式的数据(清单、键/值等)通过分组处理、行列转
5、换等转 换为需要的电子表格形式。4,增强数据通过 API获取外部数据,增强电子表格中的内容。二、任务实施;(1)在OpenRefine目录中使用“./refine”命令启动OpenRefine服务, 如图4-8所示。:r/local/openrefine$ |./refine |You have 2747M of free memory.Your current configuration is set to use 1400M of memory.OpenRefine can run better when given more memory. Read our FAQ on how to
6、allocate more memory here:Starting OpenRefine at http:/127.0.6.1:3333/图4-8启动OpenRefine服务(2)进入其 Web操作界面,单击“浏览”按钮,选择busjnfo.csv 文件,单击 “打开” 按钮,再单击 “下一步” 按钮,导入数据。(3)进入一个新界面,在该界面中可以发现上传的 CSV 文件,如果 文件出现乱码,则可以设置字符编码,应选择支持中文的编码,这里选择 “GBK”编码,单击界面右上角的“新建项目”按钮。(4)进入北京公交线路信息显示界面,在其“运行时间”列中有一些 多余的信息,可将这些多余信息删除,以
7、使数据更加简洁和直观,如图 4-9所示。 OpeaKrnaettn ftwssttdra aa 于丸二 ai *S,图4-9删除多余信息(5)在“运彳亍时间”下拉列表中选择“编辑单元格”中的“转换” 选项,启动转换功能。(6)弹出“自定义文本转换于列 运行时间” 对话框,在 “表达式” 文本框中编写表达式,去除列中 “运行时间:” 多余信息,编写结束后, 根据“预览”选项卡中的结果判断表达式编写是否正确。清洗结果满意后 单击 “确定” 按钮,完成自 定义文本转换操作。(7)界面上方弹出一个黄色通知框,通知相关操作导致改变的单元格 数,再次进行确认操作。在界面左边的 “撤销/重做” 选项卡中会显示刚 刚的操作记录,如果不想进行相关操作,则可以单击界面左侧对应操作的 上一步操作链接,以恢复操作。同理,可以对其余几列执行类似操作。(8)操作记录及结果如图4-45所示。(9)下面将 “今司”列中的 “服务热线” 信息抽取出来并使其独立成 列。在 “公司” 下拉列表中选择“编辑列”中的 “由此列派生新列” 选 项。(10)弹出“基于当前列添加列公司”对话框,设置“新列名称”和 数据抽取的表达式。(11) 操作结束后,需要将预处理后的数据导出为文件。在界面右上角单击“导出”按钮,这里选择Excel,弹出下载对话框,单击“0K”按 钮,完成文件的导出操作,如图4-48所示。