《应用多元统计分析实验报告(共53页).docx》由会员分享,可在线阅读,更多相关《应用多元统计分析实验报告(共53页).docx(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上多元统计分析实验报告学院名称 理学院 专业班级 应用统计学14-2 学生姓名 张艳雪 学 号 1 第一章 多元正态分布1.1 从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示:职工编号目前工资(美元)受教育年限(年)初始工资(美元)工作经验(月)12345657000420021450219004500028350151612815827000187501200021000120001443638119013826设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向量和协方差矩阵
2、的最大似然估计。注1:最大似然估计公式为: ,;一SPSS操作步骤:第一步:利用spss建立数据集第二步:分析-描述统计-描述 计算样本均值向量第三步:分析-相关-双变量 计算样本协方差阵与样本相关系数二输出结果:描述性统计量均值标准差N目前工资29650.0018763.4756受教育年限12.333.6156初始工资37125.0046827.2766工作经验152.50129.2106相关性目前工资受教育年限初始工资工作经验目前工资Pearson 相关性1.184-.126.042显著性(双侧).727.812.937平方与叉积的和.00062500.000-.000.000协方差.00
3、012500.000-.000.000N6666受教育年限Pearson 相关性.1841-.510-.077显著性(双侧).727.302.885平方与叉积的和62500.00065.333-.000-179.000协方差12500.00013.067-86250.000-35.800N6666初始工资Pearson 相关性-.126-.5101.114显著性(双侧).812.302.829平方与叉积的和-.000-.000.000.000协方差-.000-86250.000.000.000N6666工作经验Pearson 相关性.042-.077.1141显著性(双侧).937.885.8
4、29平方与叉积的和.000-179.000.00083475.500协方差.000-35.800.00016695.100N6666三实验结果分析:样本均值为 样本的协方差 如此就可以按照极大似然估计方程: ,得出均值向量与协方差向量的最大似然估计结果。第三章 聚类分析3.1 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.9
5、60.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.1
6、60.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样
7、品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。2.K-均值聚类法:K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。二SPSS操作步骤:(一)系统聚类基本操作步骤如下:1.点击分析分类系统聚类,进入系统
8、聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。(二)K-均值法基本操作步骤如下:1. 点击分析分类K-均值聚类,进入K-均值聚类对话
9、框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。3.迭代部分保持默认选项,点击继续按钮;点击保存按钮,选中聚类成员、与聚类中心的距离,点击继续按钮;选项部分中保持默认选项,点击继续。 4.最后点击确定按钮,得K-均值聚类结果。三输出结果:系统聚类法:表1 案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比12100.00.012100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)表2 聚类表
10、阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2169363.2800022261189.69701332121492.5322044243976.32830552107995.87440767149315.36000871213588.43405881728034.8797699111.98980101018.326901111113.8611000K均值法:表3 初始聚类中心聚类123净资产收益率95.7911.1230.22每股净利润-5.20-1.69.16总资产周转率.50.12.40资产负债率252.34132.1487.36流动负债率99.34100.0094.
11、88每股净资产-5.42-.66.53净利润增长率-9816.52-4454.39729.41总资产增长率-46.82-62.75-9.97表4 迭代历史记录a迭代聚类中心内的更改1231.000.000834.1342.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 5184.300。表5最终聚类中心聚类123净资产收益率95.7911.126.48每股净利润-5.20-1.69.08总资产周转率.50.12.39资产负债率252.34132.1471.48流动负债率99.34100.00
12、92.06每股净资产-5.42-.661.90净利润增长率-9816.52-4454.39-103.94总资产增长率-46.82-62.7511.91表6 每个聚类中的案例数聚类11.00021.000313.000有效15.000缺失.000四,实验结果分析:(一)系统聚类法:表2聚类表是对每一阶段聚类结果的反应。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:13号公司单独一类,1-12号公司为一类;如果选择分为3类,分类结果为:13、1、14、2、3、4、5、6、7、8、9、10、11、12、15。由表中数据可以发现,13号
13、公司资产负债率最高,净利润增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。(二)K均值法:表3出始聚类中心,表示最初种类的重心,也就是种子点。表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率高,净利润增长率低,3类各项指标值都比较好。由数据集输出结果知分类结果为:1类13、2类8、3类1、2、3、4、5、6、7、9、10、11、12、14、15。与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。
14、3.2 下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDP(元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例()、在岗职工人均工资额(元)、城乡居民年底储蓄余额(亿元)。试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。城市北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家庄15134131591184310008494169.51230610
15、44太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春18630210456999108924629412.513870831哈尔滨148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513
16、679415.4221901134杭州3266749823213491681515071711.8246671466宁波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876厦门5359093126444130557023838.619024397南昌142219205572844543121011.013913483济南23437226345810143547642913.516027758青岛247053550614666
17、3055312054814.515335908郑州16674140231070978476637312.7135381048武汉212781708311882166108062317.4137301286长沙15446887310609106316043410.016987705广州48220554042975128859275108925.1288053727深圳10989679329187569.6310532199南宁8176339070165893361708.313171451海口1644214553132843304129916.514819284重庆719050765829032
18、45016211876.5124401897成都17914928972793287989078811.9152741494贵阳11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211兰州1445917136220955812120318.013489468西宁706656052788203787610.114629175银川1178711013214621271213421.913497193乌鲁木齐22508171372188
19、127544118026.116509420南宁31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825资料来源:中国统计年鉴2004一、实验原理:系统聚类的基本思想:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据二SPSS操作步骤:1.点击分析分类系统聚类,
20、进入系统聚类对话框。2.将x1、x2、x3、x4、x5、x6、x7、x8、x9,9个变量选入变量框中,将城市选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,聚类方法中有7种方法可供选择,分别进行选择,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近,输出结果见表1、表2,
21、图1、图2。三输出结果:表1 案例处理摘要a案例有效缺失合计N百分比N百分比N百分比37100.0%00.0%37100.0%a. 平方 Euclidean 距离 已使用表2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21237.00000282136.000003231417.08100441425.11830115830.11900862031.1420097532.23400158815.26950139920.270061410621.2800021111433.3064022121213.311001913818.33980161439.409091815
22、534.440702216822.49613018172629.53000241838.610141621191112.6570122920435.73900262136.76218102522514.79215112423719.9460028245261.06322172525351.41921242626341.9582520302727282.425003428272.59412329292114.48628193030236.284292631312169.911300343212310.71920333311019.305320353422720.888312735351242.4
23、7833343636124100.4223500图1 冰状图图2 树状图四实验结果分析:表2聚类表是对每一阶段聚类结果的反应。如第一行表示,第一阶段时第二个样品(天津)与第37个样品(海口)聚为一类,其他以此类推。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:深圳单独一类,其他城市为一类;如果选择分为3类,分类结果为:1类深圳、2类北京、南宁、广州、上海、3类其他城市为一类。由表中数据可以发现,深圳各项经济指标都比较好,且人均GDP远高于其他各城市,所以单独聚为一类,北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之
24、上,故聚为一类。可以从经济发展水平来理解所做的分类,1类是经济最发达的地区,2类是经济比较发达的地区,3类是经济发展水平一般的地区。第四章 判别分析4.1 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据。 根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则; 某客户的如上情况资料为
25、(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号已履行还贷责任123172316.600.341.712341173598.001.812.913422723414.600.94.9443911954813.101.934.36535191345.000.401.30未履行还贷责任6371132415.101.801.827291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36一、实验原理:1.费希尔判别与距离判别对判别变量的
26、分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。2.当k=2时,若,则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。3.当,时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。4.距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是。贝叶斯判别的判别规则是。二者的区别在于阈值点。当时,。二者完全相同。二SPSS操作步骤:判别分析的基本操作步骤如下:1.点击分析分类判别,进入判别分析对话框。2.类别y选入分组变量框中,定义范围,最小值为1,最大值为2,将x1、
27、x2、x3、x4、x5、x6、x7、x8,8个变量选入自变量框中,其它选项保保持默认。3.点击统计量按钮,进入判别分析-统计量对话框,选中均值、组内相关、函数系数部分选中Fisher、为标准化,点击继续按钮;点击分类按钮,进入判别分析-分类对话框,选中摘要表、合并组,其他部分保持默认,点击继续按钮;点击保存按钮,进入判别分析-保存对话框,选中预测组成员,点击继续按钮。4.最后点击确定按钮,得判别分析结果。(1)建立判别函数。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据,用1代表已履行还贷责任,用2代表未履行还贷责任,定义新的变量y类别。三输出结果及结果分析:表1 特征值函数特征值方
28、差的 %累积 %正则相关性17.422a100.0100.0.939a. 分析中使用了前 1 个典型判别式函数。表2 Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1.1198.5238.384表3 标准化的典型判别式函数系数函数1x1-.190x23.344x3.968x4-2.358x5.418x63.869x71.694x8-6.847表4 典型判别式函数系数函数1x1-.032x26.687x3.173x4-.357x5.024x6.710x7.792x8-2.383(常量)-10.794非标准化系数结果分析表1特征值表,反应判别函数的特征根、解释方差
29、的比例和典型相关系数。 表2 Wilks 的 Lambda表,是对两个判别函数的显著性检验。认为第一个判别函数在0.05的显著性水平上没有通过显著性检验。表3标准化的典型判别式函数系数, 表4典型判别式函数系数,分类统计量输出结果:表5 分类处理摘要已处理的10已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中10表6 组的先验概率目前信用好坏先验用于分析的案例未加权的已加权的1.50055.0002.50055.000合计1.0001010.000表7 分类函数系数目前信用好坏12x1.340.184x294.070126.660x31.0331.874x4-4.943-6.681x
30、52.9693.086x613.72317.182x7-10.994-7.133x8-37.504-49.116(常量)-118.693-171.296Fisher 的线性判别式函数表8 分类结果a目前信用好坏预测组成员合计12初始计数15052055%1100.0.0100.02.0100.0100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。结果分析表5分类处理摘要表,概括了分类过程,说明10个观测值都参与分类。表6组的先验概率表,说明各组的先验概率,此处在分类选项中选择所有组的先验概率相等。表7分类函数系数,是每组的分类函数,也称费歇尔线性判别函数。表8分类结果表,可以
31、发现,没有发生误判,判别准确率很高。 某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。将该客户作为11号,将该客户的资料输入数据集数据视图窗口,重复以上操作,进行判别分析,输出结果见表9。表9 判别结果客户序号所属类别判别类别1112113114115116227228229221022111由表9得,11号客户的被判别为1类。4.2 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X1)、蓝色反应()、尿吲哚乙酸和中性硫化物,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本
32、进行回判。类别病人序号 胃癌患者12281342011224513410403200167122741701507851001672014 萎缩性胃炎患者622512571471301006128150117769120133102610160100510 非胃炎患者1118511551912170125641316514253141351082121510011772一实验原理:按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。二SPSS操作步骤:打开SPSS软件,在数据窗口依次定义变量,并输入以上数据,用
33、1代表胃癌患者,用2代表萎缩性胃炎患者,用3代表非胃炎患者,定义新的变量y类别。判别分析的基本操作步骤如下:1.点击分析分类判别,进入判别分析对话框。2.类别y选入分组变量框中,定义范围,最小值为1,最大值为3,将x1、x2、x3、x4,4个变量选入自变量框中,其它选项保保持默认。3.点击统计量按钮,进入判别分析-统计量对话框,选中均值、组内相关、函数系数部分选中Fisher、为标准化,点击继续按钮;点击分类按钮,进入判别分析-分类对话框,选中摘要表、合并组,其他部分保持默认,点击继续按钮;点击保存按钮,进入判别分析-保存对话框,选中预测组成员,点击继续按钮。4.最后点击确定按钮,得判别分析结
34、果。三输出结果及结果分析:表1 特征值函数特征值方差的 %累积 %正则相关性13.044a93.693.6.8682.207a6.4100.0.414a. 分析中使用了前 2 个典型判别式函数。表2 Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1 到 2.20516.6498.0342.8281.9783.577表3 标准化的典型判别式函数系数函数12x1.453-.175x2.596-.811x3.662.600x4.299.608表4 典型判别式函数系数函数12x1.010-.004x2.040-.055x3.176.160x4.031.062(常量)-
35、8.7845.448非标准化系数结果分析表1特征值表,反应判别函数的特征根、解释方差的比例和典型相关系数。 表2 Wilks 的 Lambda表,是对两个判别函数的显著性检验。认为第一个判别函数在0.05的显著性水平上是显著的,第二个判别函数则没有通过显著性检验。表3标准化的典型判别式函数系数,表4典型判别式函数系数,分类统计量输出结果:表5 分类处理摘要已处理的15已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中15表6 组的先验概率y类别先验用于分析的案例未加权的已加权的1.33355.0002.33355.0003.33355.000合计1.0001515.000表7 分类函数
36、系数y类别123x1.164.130.130x2.753.595.637x3.778.317.100x4.073.012-.059(常量)-79.212-46.721-49.598Fisher 的线性判别式函数结果分析表5分类处理摘要表,概括了分类过程,说明15个观测值都参与分类。表6组的先验概率表,说明各组的先验概率,此处在分类选项中选择所有组的先验概率相等。表7分类函数系数,是每组的分类函数,也称费歇尔线性判别函数。图1 合并组图表8 分类结果ay类别预测组成员合计123初始计数140152041530145%180.0.020.0100.02.080.020.0100.03.020.080.0100.0a. 已对初始分组案例中的 80.0% 个进行了正确分类。结果分析图1合并组图,是分类结果图。从