《第三章 多元统计分析(5).doc》由会员分享,可在线阅读,更多相关《第三章 多元统计分析(5).doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、研究生地理数学方法(1) 第三章 多元统计分析(Part 5)第三章 多元统计分析4 作业题1 证明题: 已知,以二变量为例证明: 。中X为标准化原始变量矩阵,A为载荷矩阵,Z为非标准化主成分得分,Z*为标准化因子得分,E为单位化特征向量构成的矩阵,为特征根的平方根的倒数构成的对角阵,为特征根构成的对角阵,对于二变量有,证:已知,对于非标准化主成分得分,均值和协方差为0,方差为原始数据相关系数矩阵的特征根,即有E(Z)=O,Var(Z)=2,这里O为零矩阵。如果命题成立,则必有E(Z*)=O,Var(Z*)=I。这里I为单位矩阵。由于零均值和单位方差是命题成立的充要条件,反过来,只要满足这两个
2、条件,就可认为命题成立。实际上,由于X是标准化数据构成的矩阵,应有,根据已知条件,必有Var(Z*)=I。可用二变量形式对上述命题进行验证,显然两边同乘以得到由于其伴随矩阵为对应的行列式为于是其逆矩阵为因此必有 对于二变量因子模型,我们有试以x1为例证明,这里。证:对于二变量的情形,我们有 。 证毕。2 计算题 现有一组古生物腕足动物贝壳标本的两个变量:长度x1和宽度x2。所测数据见课文。要求: 借助SPSS对上述数据进行主成分分析; 将计算结果与Excel的计算结果进行对比,理解各个表格所给参数的含义; 用本例数据验证证明题的推导结果。 借助SPSS对我国1995年社会经济发展的8项指标进行
3、主成分分析,可以给出标准化主成分得分。原始数据见下表(作业2已经给出):省市GDP居民消费水平固定资产投资职工平均工资 货物周转量消费价格指数商品零售价格指数工业总产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419
4、.39辽宁2793.372397387.9949111371.7116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.251926143559431025.5115.8114.32026.64浙江3524.7922491006.46619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112
5、.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.651451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.88250656.51
6、14111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃
7、553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76要求: 利用算术平均值和样本方差(抽样方差,注意不是总体方差)对原始数据标准化; 借助SPSS求出全部8个主成分的标准化得分; 将因子得分之间两两进行一元线性回归,至少给出6给回归结果,并对其中一个进行解释(回归结果主要包括模型、测定系数或相关系数)。 将标准化原始变量与因子得分之
8、间进行一元线性回归,指数给出6个回归结果,并解释其中一个相关系数。 分别以标准化的GDP、居民消费水平等8个变量为因变量(y),以8个主成分为自变量(用得分表征),进行多元回归,将回归结果建成主成分模型(8个);然后将回归系数列成表格,并解释其数学含义。 计算相关矩阵的对应的特征向量矩阵,并给出其逆矩阵(Excel求逆矩阵的命令是minverse) 将SPSS给出的相关系数矩阵的8个特征根连乘,公式记为然后将相关系数矩阵R拷贝到Excel,利用Excel计算R的行列式det(R),比较det(I)与det(R)的数值关系,并解释其数学含义(附:Excel连乘的命令为product,求矩阵行列式
9、的命令为mdeterm)。 将标准化主成分得分与主成分载荷矩阵的转置矩阵相乘,指出其结果的数学意义。 将标准化原始数据与主成分载荷矩阵转置的逆矩阵(或逆矩阵的转置)相乘,指出其结果的数学意义。 将标准化主成分得分矩阵转置与标准化原始数据矩阵相乘然后除以样本数n,观察结果并指出其数学意义。 已知甲乙二城市(郑州、洛阳某年份)的三个指标如下:城市非农业人口工业总产值建成区面积城市甲(A)16060115城市乙(B)1104393试用Excel计算: 欧式距离及欧式距离平方。 明氏(Minkowski)距离(取q=1)。 B模距离中的精度加权距离。 马氏(Mahalanobis)距离。 兰氏(Canberra)距离。 自己定义一种距离。 夹角余弦。 相似系数。 为将日本的福冈甜桔引种中国,需要选择一个生态条件合适的城市辖区,分析指标和候选对象见课文。为实现上述目标,可用聚类分析进行判断,最先与福冈聚为一类的生态条件可能最接近,但距离和方法必须选择得当。课文中我们讲过基于欧式距离的最短距离法聚类,效果似乎不太理想,请用Excel和Word完成基于欧式距离的最长距离法聚类过程,然后借助SPSS,采用其它的距离,选择另外的一些方法聚类,直到结果与基于模糊数学分析的“相似优先比”给出的结果接近为止。3 分析题列表总结各种距离的优点和缺点。4