《EXCEL数据分析 (2).ppt》由会员分享,可在线阅读,更多相关《EXCEL数据分析 (2).ppt(192页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据培训专家大数据培训专家 1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析第第1章章 数据和数据分析数据和数据分析大数据培训专家大数据培训专家 l根据数据的属性:数值型:123.1万元、23.5、4700点连续型数据:温度变化,如23.5、离散型数据:5个篮板、120个集装箱、属性型:用文字、判断等表示的数据天气晴、阴、雨;股市升、降;CPI高、中、低;质量好、中、差,属性型数据都是离散的。1.1 数据第第1章章 数据和数据分析数据和数据分析商务数据的分类大数据培训专家大数据培训专家 l根据数据的变化 不随状态变化、相对稳定的数据称为静态数据。
2、随状态变化的数据称为动态数据。项目数据数据性质姓名王大明静态性别男静态出生年月1970年4月静态年龄37岁动态出生地北京静态学历本科静态身高176厘米静态体重73公斤动态年收入13万元动态1.1 数据商务数据的分类大数据培训专家大数据培训专家 时间序列数据时间序列数据截面数据年份199619971998199920002001200220032004农村居民家庭56.355.153.452.649.147.746.245.647.2城镇居民家庭48.846.644.742.139.438.237.737.137.71996年2004年农村与城镇家庭恩格尔系数(食品支出占家庭总支出的百分比,单位
3、:)按照时间前后发生的数据称为时间序列数据。按照时间前后发生的数据称为时间序列数据。1.1 数据20022006年某市旅游接待与收入情况年某市旅游接待与收入情况 年份20022003200420052006人次(万)490229526565620人均消费(元)135138140145202收入总量(亿元)6.633.97.398.212.5l按时间划分大数据培训专家大数据培训专家 序号地区2007年经济指标GDP(亿元)人口(万人)占地面积(平方千米)1汉中 291.21 379.36 27246 2商洛 135.8 238.45 19292 3安康 189.85 265.25 23539 陕
4、南陕南 2007年经济年经济指标:指标:同一时间段发生的数据称为截面数据。同一时间段发生的数据称为截面数据。1.1 数据截面数据截面数据大数据培训专家大数据培训专家 定类数据定类数据(Categorical/NominalData)由不同类别组成的数据称为定类数据。各类数据的类型和单位一般都不相同。不同类的数据之间有些可以运算,有些则不能运算。户总数(万户)总人口数(万人)男(万人)女(万人)全市204.52651.68332.62319.06市区120.56401.59204.43197.16桐庐县14.3239.4420.119.34淳安县14.6545.1623.3521.81建德市17
5、.2150.8226.3724.45富阳市20.262.7832.0530.73临安市17.5951.8926.3125.571.1 数据l按相互关系划分大数据培训专家大数据培训专家 定序数据定序数据(OrdinalData)城市重庆德阳绵阳达县雅安西昌环境评价值环境评价值(无量纲)(无量纲)0.98830.1732 0.3172 0.7885 0.3713 0.6037评价等级评价等级三级一级二级三级二级二级仅表明对象的排列次序的数据称为定序数据,定序数据之间的差或比值一般没有意义。1.1 数据定距数据定距数据(Interval Data)数据没有绝对的零值,没有倍数、比例关系,只有相互之间
6、的差距有实际意义。20082008年中国城市金融中心指数(引自年中国城市金融中心指数(引自“中国城市竞争力报告中国城市竞争力报告”)城市国际金融产业集聚金融业人才规模综合分上海 北京 深圳 天津 南京 杭州 西安 10.7470.2470.3030.1850.0280.00610.7340.470.3010.3740.1870.31510.9410.690.6410.4930.4920.3961.1 数据大数据培训专家大数据培训专家 定比数据(定比数据(Ratio Data)定比数据具有明确的零点,可以计算数据的比例。例如2008年美国的GDP是中国的4.15倍。国家GDP(亿美元)人均(美元
7、)1美国139800462802日本52900414803中国3370025204德国32800397105英国25700424306法国25200412007意大利20900359808西班牙14100308209加拿大136004147010俄罗斯1140080301.1 数据大数据培训专家大数据培训专家 l根据数据的连续性离散数据离散数据数据是整数或者若干可能的结果之一。例如顾客投诉的次数,产品中不合格的个数,天气是晴天、阴天或下雨。连续数据连续数据数据是连续变量。例如产品的成本、利润、交货时间等。1.1 数据大数据培训专家大数据培训专家 数据数据按类型划分数值数据属性数据按相互关系划分
8、时序数据截面数据定类数据定序数据定距数据定比数据连续数据离散数据按时间划分静态数据动态数据按变化划分1.1 数据大数据培训专家大数据培训专家 EXCEL软件简介n Microsoft ExcelMicrosoft Excel是一个功能强大、使是一个功能强大、使用灵活方便的电子表格软件,也是最为流行用灵活方便的电子表格软件,也是最为流行的办公自动化软件,本课程主要利用的办公自动化软件,本课程主要利用EXCELEXCEL的统计分析功能和丰富的统计图表。的统计分析功能和丰富的统计图表。1.2 Excel 基础大数据培训专家大数据培训专家 p工作表和单元格工作表和单元格p单元格的格式单元格的格式p数据
9、输入方法数据输入方法p条件格式工具条件格式工具p数据分列工具数据分列工具1.2 Excel 基础主要内容大数据培训专家大数据培训专家 p工作表和单元格工作表和单元格1.2 Excel 基础默认的Excel工作薄由三张工作表组成。最多可以包括255张工作表;最多可以输入256列。大数据培训专家大数据培训专家 p工作表和单元格工作表和单元格1.2 Excel 基础单元格是Excel工作表的基本元素。单元格可分为数据单元格和公式单元格。大数据培训专家大数据培训专家 数据单元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D$8:D$11)=$B$5*B8+$C$5*C8+$D$5
10、*D8=$B$5*B9+$C$5*C9+$D$5*D9=$B$5*B10+$C$5*C10+$D$5*D10=$B$5*B11+$C$5*C11+$D$5*D11=SUM(F8:F11)p工作表和单元格工作表和单元格1.2 Excel 基础公式单元格例例1.1:大数据培训专家大数据培训专家 p 单元格的格式单元格的格式Excel单元格有多种格式,包括:“常规、数值、货币、日期、时间、百分比、分数、科学计数、文本、特殊、自定义”等11种格式。1.2 Excel 基础选定需要定义格式的单元格,打开Excel菜单:格式单元格,弹出单元格格式对话窗口:大数据培训专家大数据培训专家 其中,“常规”和“文
11、本”两种格式没有格式选项,其他格式都有不同的选项。例如“数值”格式有小数位数、是否选用千分位分隔符、负数的显示方式等选项。1.2 Excel 基础p 单元格的格式大数据培训专家大数据培训专家 日期格式:可以把日期系列数显示为定义的日期格式。日期系列数是从1开始的整数,数字1表示1900年1月1日,2表示1900年1月2日等等。1.2 Excel 基础p 单元格的格式大数据培训专家大数据培训专家 日期系列数和日期格式的转换如下图所示:=A2=A3=A201.2 Excel 基础p 单元格的格式大数据培训专家大数据培训专家 不同的时间格式如下:1.2 Excel 基础p 单元格的格式大数据培训专家
12、大数据培训专家 数据输入是数据分析和建模的第一步,采用正确的数据输入方法可以提高数据输入的效率、减少数据输入的错误。p数据输入方法1.2 Excel 基础Excel数据输入的方法有:l直接键盘输入l用自定义格式输入l输入序列l用“有效性”工具输入l用条件函数IF输入l用字符提取函数RIGHT、LEFT、MID输入l用查找函数VLOOKUP输入大数据培训专家大数据培训专家 l直接键盘输入键盘输入是Excel数据输入最基本、最常用的输入方法。键盘输入遇到的常见问题有:数值格式输入的数字最大为15位,多于15位的数字将自动转换成科学计数格式。例如,常规或数值格式的单元格中输入18位身份证号码:330
13、106195805210038,按回车确认后,显示为:3.3106E+17。因此,如果需要输入15位以上的数字,需要将单元格定义为文本格式,或者在常规或数值格式单元格中,先输入撇号,然后输入数字。p数据输入方法大数据培训专家大数据培训专家 l自定义格式输入如果某些单元格中输入的数据有相同的字符,例如,出生于20世纪、出生地为杭州市的身份证号码前8个字符“33010619”,可以将需要输入身份证号码的单元格定义为“自定义格式”如下:“33010619”。这样,输入身份证号码时,只需要输入后面10个字符,即可完整显示身份证号码。p数据输入方法大数据培训专家大数据培训专家 以上“自定义格式”的对话窗
14、口如下:p 数据输入方法大数据培训专家大数据培训专家 用自定义格式输入后的效果如下图。其中黄色的单元格是用”33010619”自定义格式。p数据输入方法大数据培训专家大数据培训专家 l输入序列1,2,3,4,;一,二,三,四,;A,B,C,D,;甲,乙,丙,丁,;子,丑,寅,卯,等都是序列。数字序列的输入方法:输入数字序列的前两个数字,拖动单元格右下十字钮。或用Excel菜单“编辑填充序列”工具生成数据序列。p数据输入方法1.2 Excel 基础其他序列的方法:打开Excel菜单“工具选项自定义序列”;在对话框中输入一个序列,单击“添加”;定义序列以后,就可以用数字序列一样的方法输入。具体过程
15、如下:大数据培训专家大数据培训专家 Excel菜单:“工具选项自定义系列”对话窗口如下:p数据输入方法大数据培训专家大数据培训专家 序列可以在对话窗口中直接输入,单击“添加”后生成。如下图:p数据输入方法大数据培训专家大数据培训专家 也可以事先在Excel表中输入序列,然后在对话窗口中选用“从单元格中导入序列”,选定$A$1:$A$7,单击“导入”生成序列。这种方法比较适合生成较长的序列。p数据输入方法1.2 Excel 基础大数据培训专家大数据培训专家 自定义序列后,只要输入序列第一个值,拖动单元格右下十字钮,就可以输入整个序列。如图:p数据输入方法大数据培训专家大数据培训专家 l用用“有效
16、性有效性”工具输入工具输入Excel有效性工具是数据输入的常用方法,它可以提高输入效率,减少输入错误。打开Excel菜单:“数据有效性”,出现以下“数据有效性”对话窗口。其中有四个卡片:“设置”、“输入信息”、“出错警告”和“输入法模式”。p数据输入方法大数据培训专家大数据培训专家 其中,“设置”卡片用来设置数据的有效性范围。例如,数值型数据可以设置最小值和最大值、字符型数据可以设置字符长度等。一旦输入的数据在有效范围以外,将会出现出错警告。例如,职工“出生年月”的值应该在1949年(60岁)到1991年(18岁)之间;手机号码应该为11位,固话号码应该为8位,等等。p数据输入方法大数据培训专
17、家大数据培训专家 如果输入的数据是职工出生年月,在“允许”下拉菜单中选定“日期”,输入“开始日期”和“结束”日期:p数据输入方法大数据培训专家大数据培训专家 如果输入的数据是职工身份证号码,在“允许”下拉中选定“文本长度”,“数据”下拉选定“等于”,“长度”输入18.p数据输入方法大数据培训专家大数据培训专家 “输入信息”卡片用于用户定制选定输入单元格时出现的提示信息。例如,对于输入身份证号码的单元格,提示信息如下:p数据输入方法大数据培训专家大数据培训专家 当选定输入单元格时,出现提示信息的效果如下:p数据输入方法大数据培训专家大数据培训专家 数据有效性工具还可以定制输入出错警告。定制输入职
18、工出生日期的“出错警告”如下图:p数据输入方法大数据培训专家大数据培训专家 定制输入职工身份证号码的“出错警告”如下图:数据输入方法大数据培训专家大数据培训专家 输入的身份证号码不足18位时出现的错误警告。数据输入方法大数据培训专家大数据培训专家 有效性工具中,可以建立输入项目的下拉菜单,特别适合输入定制的项目。先选定单元格C2:C17,然后打开“允许”下拉菜单,选定“序列序列”。p数据输入方法大数据培训专家大数据培训专家 在“来源”中,输入定制项目单元格范围E2:E13,单击确定。将光标置于选定的C2:C17的每一个单元格,都将出现下拉箭头。数据输入方法大数据培训专家大数据培训专家 选定下拉
19、菜单中的院校名称,就可以方便地输入所选内容。数据输入方法大数据培训专家大数据培训专家 如果出现的条件有两个以上,可用嵌套的IF函数实现。例如:如果奖金发放金额由考核等级确定:AB1考核等级奖金额度2A20003B10004C0设考核等级单元格为A2,计算奖金额度的函数为:IF(A2=“A”,2000,IF(A2=“B”,1000,0)IF函数嵌套的层数最多为7层。由于多层嵌套的IF函数构造比较复杂,容易出错。多个条件的情况,还是推荐用函数VLOOKUP来实现。数据输入方法大数据培训专家大数据培训专家 l用字符提取函数RIGHT、LEFT、MID输入(选读)许多数据包含不同的信息,例如18位身份
20、证号码中就包含了出生地、出生日期、性别等信息。身份证中不同位置的数字对应的信息如下:123456789101112131415161718出生地出生日期序号出生省出生市年份月份日期性别出生县要从身份证号码中提取相应的信息,就需要用以上三个函数。数据输入方法大数据培训专家大数据培训专家 123456789101112131415161718出生地出生日期序号出生省出生市年份月份日期性别出生县设身份证号码单元格为A2,提取出生省份:LEFT(A2,2)*10000提取出生市:MID(A2,3,2)*100提取出生县:MID(A2,3,4)提取出生日期:MID(A2,7,4)&”-”&MID(A2,
21、11,2)&”-”&MID(A2,13,2)提取序号:RIGHT(A2,4)提取性别:MOD(MID(A2,17,1),2)返回值1为男性,0为女性数据输入方法大数据培训专家大数据培训专家 l用查找函数VLOOKUP输入(选读)在表格或数值数组的首列查找指定的数值,并由此返回表格或数组当前行中指定列处的数值。VLOOKUP中的“V”代表垂直。VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)lookup_value为需要在数组第一列中查找的数值。col_index_num为table_array中待返回的匹配值的列序号。ra
22、nge_lookup为一逻辑值,指明函数VLOOKUP返回时是精确匹配还是近似匹配。如果为TRUE(1)或省略,则返回近似匹配值,也就是说,如果找不到精确匹配值,则返回小于lookup_value的最大数值;如果range_value为FALSE(0),函数VLOOKUP将返回精确匹配值。table_array为需要在其中查找数据的数据表。对于非精确匹配查找,table_array的第一列必须排序,对于精确匹配查找,则不必排序。数据输入方法大数据培训专家大数据培训专家 =VLOOKUP(B3,$G$2:$G$6,2,0)=VLOOKUP(B2,$G$2:$G$6,2,0)=VLOOKUP(B1
23、3,$G$2:$G$6,2,0)用VLOOKUP函数可以实现多个条件数据的查找和输入。数据输入方法大数据培训专家大数据培训专家 lVLOOKUP在计算个人所得税中的应用=(B13-B14)*VLOOKUP(B13-B14,A2:E10,4,1)-VLOOKUP(B13-B14,A2:E10,5,1)数据输入方法大数据培训专家大数据培训专家 “条件格式”工具是将符合一定的条件的单元格的格式(边框、底色、文本格式、文本颜色等)改变为用户定制的形式。条件格式常用于突出显示某些单元格的内容,也可以用于美化Excel表格。例如,在根据考核等级评定奖金的Excel表中,将考核等级为A用红色表示。选定“考核
24、等级”B2:B13,打开Excel菜单:“格式条件格式”:p条件格式工具1.2 Excel 基础大数据培训专家大数据培训专家 在“条件1”下拉菜单中选择“单元格数值”,中间下拉菜单选择“等于”,右侧下拉菜单输入“A”。然后单击“格式”,选定文本字体和颜色。单击“确定”。p条件格式工具1.2 Excel 基础大数据培训专家大数据培训专家 得到效果如下:p条件格式工具1.2 Excel 基础大数据培训专家大数据培训专家 在“条件格式”对话窗口中单击“添加”,可以增加第二个条件。“条件格式”最多可以有三个条件。p条件格式工具1.2 Excel 基础大数据培训专家大数据培训专家 设置两个条件的“条件格
25、式”产生的效果如下图:如果设置的多个条件是互相冲突的,不会出现任何提示,所定义的格式也不会起作用。p条件格式工具1.2 Excel 基础大数据培训专家大数据培训专家 并不是所有的Excel的数据都需要用键盘输入,很多数据来自网络或其他信息系统,Excel读入这些数据后,往往需要根据数据不同的属性,将这些数据分为不同的列。Excel菜单:“数据分列”的数据分列工具就可以完成这一工作。Excel读入的数据有三种情况:读入的数据有三种情况:1.字段之间有空格、逗号、制表符等分割符。字段之间有空格、逗号、制表符等分割符。2.字段没有任何分隔符,但每个字段的长度是确定的。字段没有任何分隔符,但每个字段的
26、长度是确定的。3.字段之间既没有分隔符,字段的长度也各不相同。字段之间既没有分隔符,字段的长度也各不相同。对于前两种情况,对于前两种情况,Excel分列工具可以方便地实现分列。第分列工具可以方便地实现分列。第三种情况则需要用户分析数据的特点,在字段之间插入分隔三种情况则需要用户分析数据的特点,在字段之间插入分隔符,然后再实现数据分列。符,然后再实现数据分列。p数据分列工具数据分列工具1.2 Excel 基础p工作表和单元格工作表和单元格p单元格的格式单元格的格式p数据输入方法数据输入方法p条件格式工具条件格式工具p数据分列工具数据分列工具大数据培训专家大数据培训专家 从网上搜素并下载“身份证号
27、码和地址对照表”如下:这个表只有一列,其中包括身份证号的前六位和相应的地址,两个字段之间有空格分隔。需要把身份证号和地址分为两列。p数据分列工具数据分列工具1.2 Excel 基础大数据培训专家大数据培训专家 打开Excel菜单:“数据分列”,弹出“文本分列向导”,选择“分隔符号”,单击“下一步”。数据分列工具数据分列工具大数据培训专家大数据培训专家 在“分隔符号”中选定“空格”,预览中出现分列的演示。单击“下一步”。数据分列工具数据分列工具大数据培训专家大数据培训专家 设置数据的类型为“常规”,单击“完成”。数据分列工具数据分列工具大数据培训专家大数据培训专家 这样就完成了数据分列。数据分列
28、工具数据分列工具大数据培训专家大数据培训专家 注意到这个数据的第一个字段“身份证号”是六个字符,因此也可以用“固定宽度”分列。选定“固定宽度”,单击“下一步”。数据分列工具数据分列工具大数据培训专家大数据培训专家 用户可以用“拖动分列线”自定义列宽。单击“下一步”。数据分列工具数据分列工具大数据培训专家大数据培训专家 同样可以完成分列。数据分列工具数据分列工具大数据培训专家大数据培训专家 实际应用中,所要分析的对象(公司、政府部门、人等)通常具有多个不同的属性,例如,部门、姓名、性别、年龄、职务、职称、专业等。在数据统计表中,这些数据称为“属性数据”。1.3 属性数据分析属性数据分析序号姓名性
29、别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科
30、3900第第1章章 数据和数据分析数据和数据分析1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析大数据培训专家大数据培训专家 实际应用中,所要分析的对象(公司、政府部门、人等)通常具有多个不同的属性,例如,部门、姓名、性别、年龄、职务、职称、专业等。在数据统计表中,这些数据称为“属性数据”。1.3 属性数据分析属性数据分析 运用数据透视表可以对属性数据进行统计分析运用数据透视表可以对属性数据进行统计分析。p1.3.1数据透视表数据透视表p1.3.2单变量属性数据分析单变量属性数据分析p1.3.3双变量属性数据分析双变量属性数据分析p1.3.4数据透
31、视表在问卷调查中的应用数据透视表在问卷调查中的应用大数据培训专家大数据培训专家 数据透视表是Excel中的功能强大的工具。运用数据透视表可以对大量数据进行快速汇总,创建相应的多维统计表格。1.3 属性数据分析1.3.1数据透视表大数据培训专家大数据培训专家 1.3 属性数据分析1.3.1数据透视表例如:例如:创建汇总统计表格大数据培训专家大数据培训专家 1.3 1.3 属性数据分析属性数据分析 1.3.2单变量属性数据分析单变量属性数据分析用途:对性别、职称、品牌等单列属性数据进行分布统计。用途:对性别、职称、品牌等单列属性数据进行分布统计。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1
32、954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.分析该研究所“男、女职工”的人
33、数。大数据培训专家大数据培训专家 n步骤:步骤:1.打开打开“数据数据”菜单;菜单;2.选择选择“数据透视表数据透视表”,按下一步;,按下一步;3.选择选择“布局布局”;4.单击变量单击变量“性别性别”,拖到,拖到“行行”区域中;区域中;5.单击变量单击变量“性别性别”,拖到,拖到“数据数据”区域中;区域中;6.双击双击“求和项求和项”,在,在“汇总方式汇总方式”中选择中选择“计计数数”;7.单击单击“确定确定”。1.3.2单变量属性数据分析单变量属性数据分析1.3 属性数据分析大数据培训专家大数据培训专家 示例:示例:对济南市饭店业进行前景调查,问卷数据如对济南市饭店业进行前景调查,问卷数据
34、如下表所示。要求统计出下表所示。要求统计出业主类型业主类型的分类人数。的分类人数。1.3 属性数据分析1.3.2单变量属性数据分析单变量属性数据分析大数据培训专家大数据培训专家 1.分析研究所的分析研究所的“职称结构职称结构”。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖
35、男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析例1.2,打开教学光盘中的“研究所员工资料”:1.3.2单变量属性数据分析单变量属性数据分析序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马
36、良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科3900大数据培训专家大数据培训专家 1.分析各部门中分析各部门中“男、女职工男、女职工”的人数。的人数。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男19
37、64年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析例1.2,打开教学光盘中的“研究所员工资料”:1.3.3双变量属性数据分析 两维表格(列
38、联表)两维表格(列联表)用途:对性别、职称等属性数据进行相关关系描述。用途:对性别、职称等属性数据进行相关关系描述。1.3.1 数据透视表数据透视表1.3.2 单变量属性数据分析单变量属性数据分析1.3.3 双变量属性数据分析双变量属性数据分析1.3.4 数据透视表在问卷调查中的应用数据透视表在问卷调查中的应用大数据培训专家大数据培训专家 序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1
39、月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科3900p数据透视表期望结果:二维列联表二维列联表大数据培训专家大数据培训专家 1.3 属性数据分析1.3.3双变量属性数据分析 两维表格(列联表)两维表格(列联表)步骤:步骤:1.打开打开“数据数据”菜单;菜单;2.选择选择“数据透视表数据透视表
40、”,按下一步;,按下一步;3.选择选择“版式版式”;4.单击变量单击变量“部门部门”,拖到,拖到“行行”区域中;区域中;5.单击变量单击变量“性别性别”,拖到,拖到“列列”区域中;区域中;5.单击变量单击变量“姓名姓名”,拖到,拖到“数据数据”区域中;区域中;6.双击双击“求和项求和项”,在,在“汇总方式汇总方式”中选择中选择“计数计数”;7.单击单击“确定确定”。大数据培训专家大数据培训专家 打开菜单:“数据数据透视表和数据透视图”1.3 属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 选择图表类型:选择数据区域:1.3 属性数据分析大数据培训专家大数据培训专家 确定数
41、据透视表生成的位置:1.3 属性数据分析接着,选择接着,选择“布局布局”:1.3.3双变量属性数据分析大数据培训专家大数据培训专家 分别将分别将“部门部门”拉到拉到行区域、行区域、“性别性别”拉到拉到列区域、列区域、“姓名姓名”拉到拉到数据区域。数据区域。1.3属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 得到数据透视表:1.3属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 继续:继续:单击“部门部门”单元格的下拉菜单,可以选择统计的范围。例如,“部门”中不包括“办公室”:1.3 属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家
42、 得到不包括部门“办公室”的人数统计:1.3 属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 为什么拉到数据区域的是“姓名”,数据区域出现的数字是“人数”?右键单击数据区域,出现右键菜单,选定“字段属性”:1.3 属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 可以看到默认的字段属性为“计数”,因此数据字段出现的数字是人数。1.3 属性数据分析1.3.3双变量属性数据分析大数据培训专家大数据培训专家 2.分析分析“部门、职称、性别、学历部门、职称、性别、学历”平均工资。平均工资。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算
43、机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析1.3.3双变量属性数据分析生成三
44、维表格生成三维表格大数据培训专家大数据培训专家 在二维列联表上,把“学历”拉到“性别”下面,就可以产生三维列联表:1.3 属性数据分析1.3.3双变量属性数据分析生成三维表格生成三维表格大数据培训专家大数据培训专家 1.3 属性数据分析1.3.3双变量属性数据分析生成三维表格生成三维表格大数据培训专家大数据培训专家 或者,在二维列联表上,把“职称”拉到“部门”右边,也可以产生三维列联表:1.3 属性数据分析1.3.3双变量属性数据分析生成三维表格生成三维表格大数据培训专家大数据培训专家 或者,在二维列联表上,把“职称”拉到“部门”右边,也可以产生三维列联表:1.3 属性数据分析1.3.3双变量
45、属性数据分析生成三维表格生成三维表格大数据培训专家大数据培训专家 把“职称”拉到“部门”右边,把“学历”拉到“性别”下面,就可以产生四维列联表:1.3 属性数据分析1.3.3双变量属性数据分析生成四维表格生成四维表格大数据培训专家大数据培训专家 1.3 属性数据分析1.3.3双变量属性数据分析生成四维表格生成四维表格大数据培训专家大数据培训专家 把“职称”拉到“部门”右边,把“学历”拉到“性别”下面,把把“姓名姓名”拖出数据透视表外,把拖出数据透视表外,把“月薪月薪”拉拉进数据区域,进数据区域,就可以产生数据区域为“月薪”的四维列联表:1.3 属性数据分析1.3.3双变量属性数据分析生成四维表
46、格,且数据区域为生成四维表格,且数据区域为“月月薪薪”大数据培训专家大数据培训专家 把“职称”拉到“部门”右边,把“学历”拉到“性别”下面,把“月薪”拉到数据区域,就可以产生数据区域为“月薪”的四维列联表:1.3 属性数据分析1.3.3双变量属性数据分析生成四维表格,且数据区域为生成四维表格,且数据区域为“月月薪薪”大数据培训专家大数据培训专家 右键单击数据区域,选择“字段设置字段设置”,将数据区域的属性定义为“平均工资”,则数据区域的数字是“合计工资”。同样的方法,也可以求“最高工资”、“最低工资”或“求和”。1.3属性数据分析1.3.3双变量属性数据分析生成四维表格,且数据区域为生成四维表
47、格,且数据区域为“月月薪薪”大数据培训专家大数据培训专家 四维列联表如下:1.3 属性数据分析1.3.3双变量属性数据分析生成四维表格,且数据区域为生成四维表格,且数据区域为“月薪月薪”大数据培训专家大数据培训专家 1.4 数据展示图数据展示图1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析pExcel数据展示图形有13种。大数据培训专家大数据培训专家 p柱形图垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。1.4 数据展示图数据展示图年份第一产业第二产业第三产业20011.541184.875003.3153020021.611735
48、.298023.6074820031.692816.127413.91880 20042.076817.238724.37206例例1.7 创建我国创建我国20012004年第一、第二和第三产业产值年第一、第二和第三产业产值数量的变化的柱形图。数量的变化的柱形图。大数据培训专家大数据培训专家 1.打开Excel表,单击“插入图标”工具图标,选择图表类型柱形图和子图标类型,点击“下一步”。p用图表和曲线图展示数据1.4 数据展示图图表向导大数据培训专家大数据培训专家 2.从“数据区域”选择目标数据,用鼠标选定B4:D8,单击“系列”卡片,点击“下一步”。p用图表和曲线图展示数据1.4 数据展示图
49、大数据培训专家大数据培训专家 3.在“系列”中,选择输入系列名称,用鼠标选定“分类(X)轴标志”A5:A8,单击“下一步”p用图表和曲线图展示数据1.4 数据展示图大数据培训专家大数据培训专家 4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。p用图表和曲线图展示数据1.4 数据展示图大数据培训专家大数据培训专家 5.选择图表位置,单击“完成”。p用图表和曲线图展示数据1.4 数据展示图大数据培训专家大数据培训专家 6.图表完成。如果需要,可以双击图表中任何一部分进行修改。p用图表和曲线图展示数据图表区分类轴分类轴标题数值轴图例图表标题系
50、列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”1.4 数据展示图大数据培训专家大数据培训专家 条形图的制作是类似柱形图。垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。例例1.8:我国20012004年三次产业的条形图如下:p条形图1.4 数据展示图例1.92004年我国三类产业产值p饼图饼图常用来表示一项数据中各部分的比例。1.4 数据展示图年份第一产业第二产业第三产业20042.0768 7.2387 4.3721 大数据培训专家大数据培训专家 p折线图常用来表示数据随时间或项目不同的变化。年份总量煤炭石油天然气水电19785714440400.