《spss的数据分析案例.pdf》由会员分享,可在线阅读,更多相关《spss的数据分析案例.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选文档2 Gender Frequency Percent Valid Percent Cumulative Percent Valid Female 216 45.6 45.6 45.6 Male 258 54.4 54.4 100.0 Total 474 100.0 100.0 上表说明,在该公司的 474名职工中,有 216名女性, 258名男性,男女比例分别为 45.6%和54.4%,该公司职工男女数量差距不大,男性略多于女性。其次对原有数据中的受教育程度进行频数分析,结果如下表:Gender Educational Level (years) N Valid 474 474 Mis
2、sing 0 0 精选文档3 Educational Level (years) Frequency Percent Valid Percent Cumulative Percent Valid 8 53 11.2 11.2 11.2 12 190 40.1 40.1 51.3 14 6 1.3 1.3 52.5 15 116 24.5 24.5 77.0 16 59 12.4 12.4 89.5 17 11 2.3 2.3 91.8 18 9 1.9 1.9 93.7 19 27 5.7 5.7 99.4 20 2 .4 .4 99.8 21 1 .2 .2 100.0 Total 474
3、100.0 100.0 精选文档4 2 2.52 01 7.5151 2.51 07.5E d u c a tion a l Lev e l ( y e a r s )2 0 01 501 005 00FrequencyMea n = 13.49S td. Dev. = 2.88 5N = 47 4H ist o g r a m上表及其直方图说明,被调查的474名职工中,受过 12年教育的职工是该组频数最高的, 为190人,占总人数的 40.1%,其次为 15年,共有116人,占中人数的 24.5%。且接受过高于 20年的教育的人数只有 1人,比例很低。2、描述统计分析。再通过简单的频数统计分
4、析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。Descriptive Ststistics N Minimum Maximum Mean Std. DeviatSkewness Kurtosis 精选文档5 ion Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Er
5、ror Educational Level (years) 474 8 21 13.49 2.885 -.114 .112 -.265 .224 Current Salary 474 $15,750 $135,000 $34,419.57 $17,075.661 2.125 .112 5.378 .224 Beginning Salary 474 $9,000 $79,980 $17,016.09 $7,870.638 2.853 .112 12.390 .224 Previous Experience 474 0 476 95.86 104.586 1.510 .112 1.696 .224
6、 精选文档6 (months) Months since Hire 474 63 98 81.11 10.061 -.053 .112 -1.153 .224 如表所示,以起始工资为例读取分析结果,474名职工的起始工资最小值为 9000 ,最大值为 79980,平均起始工资为 17016,标准差为 7870.638,偏度系数和峰度系数分别为2.853和12.390。其他数据依此读取,则该表表明474名职工的受教育水平、起始工资、现工资、先前工作经验、现在工作经验的详细分布状况。3、Exploratory data analysis。(1)交叉分析。通过频数分析能够掌握单个变量的数据分布情况,
7、但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。现以现工资与职务等级的列联表分析为例,读取数据(下面数据分析表为截取的一部分):单因素分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。 下面我们把受教育水平和起始工资作为控制变量,现精选文档7 工资为观测变量, 通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。分析结果如下:ANOVACurrent Sa
8、lary1E+01189137063599533.040.0002E+01038441484093.531E+011473Betw een GroupsWithin GroupsTotalSum ofSquaresdfMean SquareFSig.上表是起始工资对现工资的单因素方差分析结果。可以看出:F 统计量的观测值为 33.040,对应的概率 P值近似等于 0,如果显著性水平为 0.05,由于概率值 P小于显著性水平 q,则应拒绝原假设,认为不同的起始工资对现工资产生了显著影响。ANOVACurrent Salary9E+0109985039278592.779.0005E+010464
9、106170173.21E+011473Betw een GroupsWithin GroupsTotalSum ofSquaresdfMean SquareFSig.同理,上表是受教育水平对现工资影响的单因素分析结果,其结果亦为拒绝原假设,所以不同的受教育水平对现工资产生显著影响。4、相关分析。相关分析是分析客观事物之间关系的数量分析法,明确客观事物之间有怎样的关系对理解和运用相关分析是极其重要的。函数关系是指两事物之间的一种一一对应的关系,即当一个变量X取一定值时,另一个变量函数Y可以根据确定的函数取一定的值。另一种普遍存在的关系是统计关系。统计关系是指两事物之间的一种精选文档8 非一一对
10、应的关系, 即当一个变量 X取一定值时, 另一个变量 Y无法根据确定的函数取一定的值。统计关系可分为线性关系和非线性关系。事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接, 但确实普遍存在, 并且有的关系强有的关系弱,程度各有差异。 如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的Correlations1.880*.084-.097*-.144*.000.067.034.002474474474474473.880*1-.020.045-.010.000.668.327.833474474474474473.0
11、84-.0201.003.054.067.668.948.244474474474474473-.097*.045.0031.802*.034.327.948.000474474474474473-.144*-.010.054.802*1.002.833.244.000473473473473473Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson Co
12、rrelationSig. (2-tailed)NCurrent SalaryBeginning SalaryMonths since HirePrevious Experience(months)YearsCurrent SalaryBeginningSalaryMonthssince HirePreviousExperience(months)YearsCorrelation is significant at the 0.01 level (2-tailed).*. Correlation is significant at the 0.05 level (2-tailed).*. 有效
13、工具。上表是对本次分析数据中, 现工资、起始工资、本单位工作时间、以前工作时间、 年龄五个变量间的相关分析, 表中相关系数旁边有两个星号( * )的,表示显著性水平为0.01 时,仍拒绝原假设。一个星号(*)表示显著性水平为0.05 是仍拒绝原假设。先以现工资这一变量与其他变量的相关性为例分析,由上表可知, 现工资与起始工资的相关性最大,相关系数为0.880,而与在本单位的工作时间相关性精选文档9 最小,相关系数为0.084。5、参数检验。首先对现工资的分布做正态性检验,结果如下:$1 4 0 ,0 0 0$ 1 2 0,0 0 0$ 1 0 0 ,00 0$ 8 0 ,00 0$ 6 0 ,
14、0 0 0$ 4 0 ,00 0$ 2 0 ,00 0$ 0Cu r r en tSa lar y1 2 01 0 08 06 04 02 00FrequencyMean = $34 ,4 19.57Std. Dev. = $1 7 ,07 5.66 1N = 47 4H ist o g r a m由上图可知, 现工资的分布可近似看作符合正态分布,现推断现工资变量的平均值是否为 $3,000,0 ,因此可采取单样本t 检验来进行分析。分析如下:One-Sample StatisticsN Mean Std. Deviation Std. Error Mean One-Sample Test T
15、est Value = 30000 t df Sig. Mean 95% Confidence 精选文档10 (2-tailed) Difference Interval of the Difference Lower Upper Current Salary 5.635 473 .000 $4,419.568 $2,878.40 $5,960.73 由 One-Sample Statistics可知, 474 名职工的现工资平均值为¥34,419.57 ,标准差为 $17,075.661 ,均值标准误差为 $784.311。图表 One-Sample Test 中,第二列是 t 统计量的观测
16、值为5.635 ;第三列是自由度为 473(n-1) ;第四列是 t 统计量观测值的双尾概率值;第五列是样本均值和检验值的差; 第六列和第七列是总体均值与原假设值差的95% 的置信区间为( $2,878.40 , 5,960.73) 。该问题的t值等于 5.635 对应的临界置信水平为0,远远小于设置的 0.05,因此拒绝原假设,表明该公司的474 名职工的现工资与 $3,000,0存在显著差异。6、非参数检验。对本数据中的年龄做正态分布检验,结果如下:精选文档10 (2-tailed) Difference Interval of the Difference Lower Upper Cur
17、rent Salary 5.635 473 .000 $4,419.568 $2,878.40 $5,960.73 由 One-Sample Statistics可知, 474 名职工的现工资平均值为¥34,419.57 ,标准差为 $17,075.661 ,均值标准误差为 $784.311。图表 One-Sample Test 中,第二列是 t 统计量的观测值为5.635 ;第三列是自由度为 473(n-1) ;第四列是 t 统计量观测值的双尾概率值;第五列是样本均值和检验值的差; 第六列和第七列是总体均值与原假设值差的95% 的置信区间为( $2,878.40 , 5,960.73) 。该
18、问题的t值等于 5.635 对应的临界置信水平为0,远远小于设置的 0.05,因此拒绝原假设,表明该公司的474 名职工的现工资与 $3,000,0存在显著差异。6、非参数检验。对本数据中的年龄做正态分布检验,结果如下:精选文档10 (2-tailed) Difference Interval of the Difference Lower Upper Current Salary 5.635 473 .000 $4,419.568 $2,878.40 $5,960.73 由 One-Sample Statistics可知, 474 名职工的现工资平均值为¥34,419.57 ,标准差为 $17,075.661 ,均值标准误差为 $784.311。图表 One-Sample Test 中,第二列是 t 统计量的观测值为5.635 ;第三列是自由度为 473(n-1) ;第四列是 t 统计量观测值的双尾概率值;第五列是样本均值和检验值的差; 第六列和第七列是总体均值与原假设值差的95% 的置信区间为( $2,878.40 , 5,960.73) 。该问题的t值等于 5.635 对应的临界置信水平为0,远远小于设置的 0.05,因此拒绝原假设,表明该公司的474 名职工的现工资与 $3,000,0存在显著差异。6、非参数检验。对本数据中的年龄做正态分布检验,结果如下: