第一讲数据整理与描述PPT讲稿.ppt-淘文阁

资源描述

《第一讲数据整理与描述PPT讲稿.ppt》由会员分享，可在线阅读，更多相关《第一讲数据整理与描述PPT讲稿.ppt（34页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第一讲数据整理与描述第1页，共34页，编辑于2022年，星期一第一部分：各讲学习概要n第一讲：数据的整理与描述n第二讲：统计指数n第三讲：动态数列n第四讲：抽样调查及估计n第五讲：假设检验n第六讲：相关分析与回归分析第2页，共34页，编辑于2022年，星期一第一讲数据整理与描述在日常用语中，术语“统计学”称为数字事实。然而，统计学所涉及到的领域或学科比数字事实要多得多。从广义上来说，统计是收集、分析、列示和解释数据的一门艺术和科学。特别是在商务和经济中，对数据进行收集、分析、列示和解释的一个主要原因，是它可以使经理和决策者们更好地理解商业和经济环境，得到更多的信息，做出更好的决策。n一、

2、统计在商务中经济中的应用在当代全球性商务和经济环境中，可以获取大量的统计信息。最成功的管理者和决策者是那些能够理解和有效地运用统计信息的人。第3页，共34页，编辑于2022年，星期一n（一）会计当会计师事务所为其客户进行审计时，他们要利用统计抽样方法。例如，假定一家会计师事务所想要确定某客户资产负债表中所显示的应收账款余额是否公允地反映了其真实的应收账款余额。通常，审计人员抽取一个样本。在对被抽取账户的正确性进行了审查后，审计人员就可以得出关于该客户资产负债表中所列示的应收账款余额是否属实的结论。n（二）金融金融顾问们利用各种统计数据来引导投资。拿股票投资来说，顾问们检查包括市盈率和红利

3、在内的一系列金融数据。通过将某只个股的数据与股票市场平均数进行比较，金融顾问们就能够判断该只股票的价值是被高估还是低估了。将帮助顾问们做出买入、卖出还是继续持有该股的建议。第4页，共34页，编辑于2022年，星期一n（三）营销装在零售收银台的电子扫描设备是用来为各种各样的营销研究的应用收集资料的。例如，像尼尔森公司和数据资源公司等数据提供商从杂货商店购买关于销售的扫描数据，然后将其加工成综合的统计数据卖给生产商。扫描获得的统计数据和促销活动获得的统计住处来更好地了解促销活动的销售两者之间的关系。这种分析对于各种产品将来的营销策略很有帮助。n（四）生产由于现在非常强调产品的质量，因此质量控制

4、是统计在生产中的一个重要应用。许多统计质量控制图被用来控制某生产过程的产量，尤其是可以用条形图来控制平均产量。第5页，共34页，编辑于2022年，星期一n（五）经济人们经常要求经济学家们对将来的经济以及其他方面进行预测。在进行这些预测时，他们要用到各种各样的统计信息。例如，在预测通货膨胀率时，经济学家们就要用到诸如生产者价格指数、失业率和生产利用能力等方面的统计住处通常这些统计住处指标被输入到计算预测模型中来预测通货膨胀率。n二、数据的类型根据描述事物所采用的不同度量尺度，数据可分为分类型数据和数量型数据。分类型数据描述的是事物的品质特征。例如，人的性别、民族、职业等。数据型数据说明的是事

5、物的数量特征。例如，产品的产量和寿命、企业的营业额、股票的价格、产品的市场占有率、国民总产值、国家的人口等等，都是数量型数据。数量型数据用数值形式表示。第6页，共34页，编辑于2022年，星期一数据按照被描述的对象与时间的关系分为截面数据、时间序列数据与平行数据。截面数据描述的是事物在某一时刻的变化情况，即所谓横向数据。时间序列数据描述的是事物在一定的时间范围内的变化情况，即所谓纵向数据。平行数据是截面数据与时间序列数据的组合在统计中，我们把对事物现象特征的描述称为变量。如果它是分类型数据，称为分类型变量；如果它是数量型数据，则称为数量型变量。很多情况下，我们所研究的变量都是数量型变量，大

6、多数的统计分析方法也都是对于数量型变量的分析，因此有时把数量型变量简称为变量。第7页，共34页，编辑于2022年，星期一n三、数据的整理与图表显示（一）数据的分组与频率直方图统计分组是数据整理的一项初步工作，它是根据实际需要，将数据按照数据的某种特征或标准分成不同的组别。按照数据的某种特征对数据进行分组后，再计算出所有类别或数据在各组中出现的次数或频数，就形成了频数分布表。我们称全部数据在各组内的分配状况为数据的频数分布，分配在各组内的数据个数为频数，频数与全体数据个数之比称为频率。分类型数据按类计算出各类的频数或频率，就形成了频数或频率分布表。分类型数据按类分组时，一定要注意既不能重数也

7、不能漏数，这应要求所有类别必须有明确的界定。对于数量型数据，我们只简单介绍两种方法单变量值分组法和组距分组法。第8页，共34页，编辑于2022年，星期一单变量值分组法就是把每一个变量值作为一个组。n例：某单位有职工20人，下面是六月份该单位职工请假天数的记录：0，0，1，0，2，1，0，0，0，1，2，0，5，1，1，0，0，0，10，0 观察这个记录，我们不难发现，所有不同的请假天数一共只有5个，即0、1、2、5和10。因此，采用单变量值分组方法分组的话，应该发成5个组。请假天数频数（人）频率（%）累积频率（%）0 11 55 55 1 5 25 80 2 2 10 90 5 1 5 9

8、5 10 1 5 100 合计 20 100第9页，共34页，编辑于2022年，星期一在数据较多且比较分散的情况下，单变量值分组法由于组数过多，不便于观察数据的分布特征和规律。因此，单变量值分组方法适用于数据较少或分布比较集中的情形。对于变量值较多的情况，可以采用组距分组法。确定组数的一般原则为：数据个数n 分组数 50以下 56 50100 610 100250 712 250以上 1020第10页，共34页，编辑于2022年，星期一我国各地区2000年死亡率频率分布表组号分组界限频数频率（%）组中值 1 4.9,5.6 3 10.00 5.25 2 5.6,6.3 8 26.67

9、 5.95 3 6.3,7.0 12 40.00 6.65 4 7.0,7.7 5 16.67 7.35 5 7.7,8.4 1 3.33 8.05 6 8.4,9.1 1 3.33 8.75第11页，共34页，编辑于2022年，星期一n（二）、数据的图形显示除去频率直方图以外，还有许多数据的图形显示方法。我们在这里主要介绍饼形图、条形图、柱形图、散点图、折线图、曲线图和茎叶图。n1.饼形图饼形图一般用来描述和表现各成分或某一成分占全部的百分比。使用饼形图时必须注意以下三点：第一，饼形图中的成分最好不要多于6个，如果成分多于6个的话，一般的做法是从这些成分中选出5个最重要的，然后把剩下的成

10、分全部合并成一个称做“其他”的成分。第二，各成分份额的和必须是100%。第三，成分比例必须与扇形区域的面积比例一致。第12页，共34页，编辑于2022年，星期一第13页，共34页，编辑于2022年，星期一n2.条形图和柱形图条形图是用来对各项数据进行比较的。对于条形图来说，它的纵坐标没有尺度，只用来标注各项信息的名称，比如：国家、行业、公司等等。n例：2001年日本、美国、韩国和港澳台地区来某市旅游的人数（单位：10万人）如下：地区013245日本美国韩国港澳台第14页，共34页，编辑于2022年，星期一n例：下表列出的是2004-2010年某市接待的旅游人数（包括外国人、华侨、港澳台胞）（

11、单位：万人），用柱形图显示这些数据。年份2004200520062007200820092010人数10.0113.2117.4820.2720.2920.6921.892520151050040506070809102004-2010年某市接待的旅游人数第15页，共34页，编辑于2022年，星期一n3.折线图由柱形图，我们可以大致地看出纵坐标变量随横坐标变量变化的趋势。一个更明显的表示趋势的图示方法是折线图法。2004-2010年来某市旅游人数的折线图。折线图的优点是简单、容易理解，并且对于同一组数据，折线图具有唯一性（两点间有且只有一条直线）。9232117130405060708091

12、0第16页，共34页，编辑于2022年，星期一n4.曲线图商务和金融领域中许多事物不但其自身是逐渐变化的，而且连其变化的速度也是逐渐变化的。折线图虽然展示了变量间变化的趋势，但是我们不难发现，在各实心点处，数据变化的速度（线段的倾斜程度）会发生突变。曲线图弥补了折线图的这一不足，采用光滑的曲线段连接各实心点，形成一条整体光滑的曲线。曲线图虽然有更加自然的特点，但是“光滑地连接各实心点”的方法很多，因此带有一定的随意性，即不是唯一的。n5.散点图散点图一般表现两个变量之间的相互关系。两个变量的任何一对取值都在平面直角坐标系上代表一个点。在平面坐标系上将所有这样的点描画出来便形成了散点图。第1

13、7页，共34页，编辑于2022年，星期一n四、数据集中趋势的度量下面将介绍数据集中趋势（即数据集的中心位置）以及离散趋势（即数据集的分散程度）的各种度量。这些度量是反映数据集主要特点的一些综合数据，掌握这些方法的定义和优缺点就能使我们在大量的数据中抓住事物的本质，不至于毫无头绪地迷失在数据的海洋中。数据集中趋势主要介绍平均数，中位数，众数的定义（计算），以及它们的应用。n（一）、平均数n1.数据未分组时（简单平均数）数据集中趋势的最常用的度量就是平均数，即若数据为,则这组数据的平均数，记为为：第18页，共34页，编辑于2022年，星期一n【例1】某工商管理硕士班30名学生“管理统计分析方法”课

14、期末考试成绩如下：866584957269697063968773828885678186837772739370718290828787求他们的平均成绩。解：这些学生的平均成绩为平均数的优点在于它容易理解，易于计算；它不偏不倚地对待数据集中的每一个数据；它是数据集的“重心”，即：如果我们在数轴上各数据点处放置一个单位的重量，则平均数所处的位置正好是平衡点。平均数的一个主要缺点是它对极端值十分敏感。所谓极端值就是和数据集中大部分数据相比，特别大或特别小的那些（个别）数据。下面的例子说明了这一点。第19页，共34页，编辑于2022年，星期一职位实际收入（元）财务部经理60000市场部经理3250

15、00人事部经理45000研发部经理70000生产部经理55000【例2】下表列出的是某公司中层干部2009年的实际收入：不难注意到，市场部经理的收入是一个极端值（与其他人的收入相比，它特别大）。我们来看看它对平均数的影响。解：如果计算上述5位经理的平均收入，得到平均收入=111000（元）但是，如果不考虑市场部经理的收入，只计算其余4人的平均收入，则平均收入为57500元。因此，市场部经理收入的加入使得平均收入增加了近一倍。第20页，共34页，编辑于2022年，星期一n2.分组数据的平均数（加权平均）前面我们已经讲过，一个数据集的平均数是数据集中全体数据的和除以数据的个数。但是如果数据是以频率

16、分布表的形式出现的，我们就不知道每一个原始数据的数值。这时，我们可以利用频率分布表近似地计算平均数。具体做法是：平均数 n【例6】某大学管理学院管理科学与工程系有25名教师，下表是他们在该院任教年数的频率分布数据。求该系教师在该院任教的平均年数。第21页，共34页，编辑于2022年，星期一任教年数人数组中值15年610年1115年1620年2125年2630年3135年95530123813182328332740655402866总和25280平均任教年数（年）。不同的权重反映了数值所具有的不同重要性：重要的数据其权重比较大，不那么重要的数据其权重比较小。因此，分组数据的平均值就是把频数作为

17、组中值的权重的加权平均。第22页，共34页，编辑于2022年，星期一n（二）、中位数将数据集按上升顺序排列，位于数列正中间的数值成为该数据集的中位数。n【例3】以上例中的数据，计算全班期末考试成绩的中位数。解：将原数据按上升顺序排列，得到 636567696970707172727373778182828283848586868787878890939596第23页，共34页，编辑于2022年，星期一n【例4】计算5位经理年收入的中位数。解：将5位经理的收入按上升顺序排列得到 45 000 55 000 60 000 70 000 325 000 则中位数为60 000。中位数将整个数据集一

18、分为二，正好有一半的数据比中位数小，也正好有一半的数据比中位数大。从数据的个数来说，中位数正好位于数据集的中间。用中位数描述数据的集中趋势的优点是它对极端值不像平均数那么敏感，因此，对于包含极端值的数据集来说，用中位数来描述集中趋势比用平均数更为恰当。第24页，共34页，编辑于2022年，星期一n（三）、众数众数是数据集中出现次数最多的数值。众数的英文是mode,它具有时尚、流行等含义，也就是说，有普及和常见的意思。众数的主要缺点是一个数据集可能没有众数，或众数可能不唯一，而数据集的平均数和中位数都是存在且唯一的。如果一个数据集中每一个数值都只出现一次，则该数据集没有众数；如果一个数据集中只

19、有一个数据集中只有一个数值出现的次数最多，则该数据集具有唯一的众数；如果有两个数值出现的次数最多，则称该数据集具有双众数；如果有两个以上的数值出现的次数最多，则称该数据集具有多众数。众数的优点在于它反映了数据集中最常见的数值，即最普遍的数值。众数的另一个优点是它不仅对数量型数据集（数据都是数值）有意义，它对分类型数据集也有意义，下面的例子可以说明这一点。第25页，共34页，编辑于2022年，星期一n【例5】某房地产开发公司2010年售出的住房情况如下（单位：套）：求该数据集的众数。解：在这里，数据集不是数量型的，而是分类型的，并且已经按类分组。由于有152户购买了三室两厅两卫型住房，购买其他户

20、型的住户都少于152，因此，三室两厅两卫户型是这组数据的众数。众数的另一个优点是能够告诉我们最普遍、最流行的款式、尺寸、色彩等产品特征，从而帮助我们进行生产计划决策。如例5中，由于众数是“三室两厅两卫”，说明这一户型是当前最受欢迎的，在未来计划中应当考虑多建造三室两厅两卫户型的住房。第26页，共34页，编辑于2022年，星期一n五、数据离散趋势的度量【例7】为了考察灯泡质量，随机地从两种品牌的灯泡中各抽取了10只，测得寿命如下（单位：小时）：品牌1995101010059901015985101010109751005品牌210208901130105092087011009301070102

21、0灯泡质量的一个重要指标就是灯泡的平均寿命。通过计算这两组灯泡的平均寿命都是1000小时。因此，仅从平均寿命上看，这两组品牌的灯泡质量难分上下。但是不难发现，第一组灯泡的寿命数据变化幅度不大，而第二组灯泡的寿命数据变化幅度很大，说明第二组灯泡的质量不如第一组那么稳定。从例子可以看出，一个数据集各数据的分散情况，或离散的程度是该数据集的另一个重要特征，为此，在这里介绍度量数据离散程度的几种方法，如方差、标准差。第27页，共34页，编辑于2022年，星期一n（一）、极差最简单、最直观的度量数据离散程度的方法或许应当是数据集中最大数值的差，称为极差（或全距），记为R，即：极差R=最大值最小值很明显，

22、极差越大，说明数据散布的范围越广，即数据越分散；极差越小，说明数据越集中。但是它也极易受极端值的影响。如果数据存在着极端值，极差就不能反映数据一般性的离散趋势，这是它的主要缺点。n（二）、四分位点和四分位极差四分位点是把数据集等分为四部分的那些数值。四分位点共有三个，分别称为第一四分位点（记为Q1），第二四分位点（记为Q2），第三四分位点（记为Q3）。在计算四分位点之前，应先将数据集按上升顺序重新排列。第28页，共34页，编辑于2022年，星期一由四分位点的定义，我们知道，有25%的数据小于Q1，有25%的数据大于Q3。四分位点的定义是：第二四分位点Q2就是整个数据集的中位数；第一四分位点

23、是所有小于Q2的数据所组成的数据集的中位数；第三四分位点是所有大于Q2的数据所组成的数据集的中位数。第三四分位点Q3与第一四分位点Q1的差Q3Q1称为四分位极差。也就是说有50%的数据散布在跨度为Q3-Q1的范围内。n【例8】某商场经理在分析近17周内收到的顾客投诉数据时，希望得到以下信息：星期1234567891011121314151617投诉次数13151091238497181671012615第29页，共34页，编辑于2022年，星期一（1）求四分位点，投诉次数15落在什么范围？（2）求四分位极差。解：（1）首先将数据按上升顺序重新排列，然后计算四分位点。排列后的数据为：3 4 6

24、 7 7 8 9 9 10 10 12 12 13 15 15 16 18 即Q1=7，Q2=10，Q3=14。投诉次数15落在上25%（大于Q3）的范围内。（2）四分位极差Q3Q1=147=7。n（三）、方差和标准差方差记为第30页，共34页，编辑于2022年，星期一n例如例7中两组灯泡寿命的方差分别为（995-1000）2+（1010-1000）2+（1005-1000）2=155（1020-1000）2+（890-1000）2+（1020-1000）2=7540很显然，远大于，说明第二组灯泡寿命的分散程度大于第一组灯泡。注意到灯泡寿命方差的单位为平方小时，为了使离散度量的单位与原数据

25、一致，我们令并称为标准差。第一组灯泡寿命的标准差=12.45(小时)第二组灯泡寿命的标准差=86.83（小时）第31页，共34页，编辑于2022年，星期一（四）、变异系数前面讲到的方差、标准差、极差和四分位极差都只能用来比较同一属性（具有相同单位）的两组数据的离散程度，特别是当两组数据的平均数相等时，我们可以直接用方差或标准差说明数据的离散程度，。但是，如果两组数据具有不同的平均数，我们就不能直接用方差或标准差进行比较，因为方差（标准差）是根据平均数计算出来的，它是数据本身的离散程度有关，还与平均数的大小有关。此时，应当计算变异系数。变异系数是标准差与平均数的比值，即表示数据相对于其平均数的分

26、散程度。【例10】某工厂生产两种包装的儿童膨化食品，一种是规定净重50克的小袋装，另一种是规定净重500克的大袋装。每种包装各取10袋测得其实际净重如下：第32页，共34页，编辑于2022年，星期一小袋装49485053484952515150大袋装510498496493505508515490510502由以上数据可以计算出：小袋装平均净重为50.1克，标准差为1.6633克；大袋装平均净重为502.7克，标准差为8.2603克。从标准差的比较来看，我们可以认为大袋装是食品净重变化比较大。但是，大袋装平均净重几乎是小袋装平均净重的10倍，如果两种包装的离散程度相同，大袋装食品净重的标准

27、差应当是小袋装净重标准差的10倍。所以，这时用标准差作为衡量两种包装净重的离散程度谁大谁小，就不合理了。若采用变异系数，计算结果为：小袋装食品净重的变异系数3.32%第33页，共34页，编辑于2022年，星期一大袋装食品净重的变异系数1.64%说明相对来讲，大袋装食品的净重之间的差异比小袋装的要小一些。用标准差无法比较具有不同度量单位或不同属性的两组数据离散程度的大小，此时可以采用变异系数。【例11】某公司所有雇员的平均年工资为8470元，标准差为764元。这些雇员受教育的平均年数为15年，标准差为2年。雇员年工资和受教育年数中哪一个的差异更大一些？解：因工资和受教育年数具有不同的度量单位，不能采用标准差来进行比较。为此，计算变异系数：因为工资的变异系数小于受教育年数的变异系数，所以工资的变化程度小于受教育年数的变化程度。第34页，共34页，编辑于2022年，星期一

展开阅读全文