《第11章 统计分析.ppt》由会员分享,可在线阅读,更多相关《第11章 统计分析.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第11章章 统计分析统计分析1/5/20231/5/20231数据仓库与数据挖掘数据仓库与数据挖掘11.1 线性回归模型线性回归模型 l11.1.1 线性回归模型的参数估计线性回归模型的参数估计 l11.1.2 线性回归方程的判定系数线性回归方程的判定系数 l11.1.3 线性回归方程的检验线性回归方程的检验 l11.1.4 统计软件中的线性回归分析统计软件中的线性回归分析 l11.1.5 SQL Sever 2005中中的的线线性性回归应用回归应用 1/5/20231/5/20232数据仓库与数据挖掘数据仓库与数据挖掘11.1.1 线性回归模型的参数估计线性回归模型的参数估计l多元线性回归
2、模型多元线性回归模型 l线线性性回回归归分分析析就就是是根根据据因因变变量量Y和和自自变变量量 X对对 模模 型型 中中 的的 回回 归归 系系 数数 j(j=0,1,2,k)进进行行参参数数估估计计,进进而而利用线性回归模型进行预测和分析利用线性回归模型进行预测和分析1/5/20231/5/20233数据仓库与数据挖掘数据仓库与数据挖掘11.1.1 线性回归模型的参数估计线性回归模型的参数估计l回归系数的估计值为回归系数的估计值为 (j=0,1,2,k)可以通过下述方式计算可以通过下述方式计算其中其中1/5/20231/5/20234数据仓库与数据挖掘数据仓库与数据挖掘11.1.2 线性回归
3、方程的判定系数线性回归方程的判定系数l因因变变量量的的真真实实值值与与估估计计值值之之间间的的接接近近程程度通常用判定系数来进行度量。度通常用判定系数来进行度量。l判定系数的定义式为判定系数的定义式为其中其中lyi 是是因因变变量量的的真真实实值值,是是yi的的估估计计值值,的取值为的取值为1/5/20231/5/20235数据仓库与数据挖掘数据仓库与数据挖掘11.1.3 线性回归方程的检验线性回归方程的检验l在在实实际际应应用用中中,只只能能利利用用总总体体中中的的一一部部分进行统计分析。分进行统计分析。l根根据据部部分分数数据据样样本本进进行行统统计计分分析析得得到到的的计计算算结结果果能
4、能否否代代表表总总体体的的真真实实情情况况?这这需要通过假设检验的方法加以判断。需要通过假设检验的方法加以判断。l假设检验通常采用假设检验通常采用t检验和检验和F检验。检验。1/5/20231/5/20236数据仓库与数据挖掘数据仓库与数据挖掘11.1.4 统计软件中的线性回归分析统计软件中的线性回归分析l请参考书本请参考书本P214P215。1/5/20231/5/20237数据仓库与数据挖掘数据仓库与数据挖掘11.1.5 SQL Sever 2005中的线性回归应用中的线性回归应用 l创建创建 Analysis Services 项目项目 l创建数据源创建数据源 l创建数据源视图创建数据源
5、视图 l创建线性回归挖掘结构创建线性回归挖掘结构 l设置线性回归挖掘结构的相关参数设置线性回归挖掘结构的相关参数 l建立线性回归挖掘模型建立线性回归挖掘模型 l查看挖掘结果查看挖掘结果 1/5/20231/5/20238数据仓库与数据挖掘数据仓库与数据挖掘11.2 Logistic回归模型回归模型 l11.2.1 Logistic回归模型的参数估计回归模型的参数估计l11.2.2 统统计计软软件件中中的的Logistic回回归归的的结果分析结果分析l11.2.3 SQL Sever 2005中中的的Logistic回归应用回归应用1/5/20231/5/20239数据仓库与数据挖掘数据仓库与数
6、据挖掘11.2.1 Logistic回归模型的参数估计回归模型的参数估计lLogistic回归模型回归模型lP为因变量为因变量Y取值为取值为1的概率,的概率,P/(1-P)称为发称为发生比生比 lP的估计值可以通过如下的公式计算得出的估计值可以通过如下的公式计算得出1/5/20231/5/202310数据仓库与数据挖掘数据仓库与数据挖掘11.2.2 统计软件中的统计软件中的Logistic回归的回归的结果分析结果分析l请参考书本请参考书本P221P222。1/5/20231/5/202311数据仓库与数据挖掘数据仓库与数据挖掘11.2.3 SQL Sever 2005中的中的Logistic回
7、归应用回归应用l创建创建 Analysis Services 项目项目 l创建数据源创建数据源 l创建数据源视图创建数据源视图 l创建逻辑回归挖掘结构创建逻辑回归挖掘结构 l设置逻辑回归挖掘结构的相关参数设置逻辑回归挖掘结构的相关参数 l建立逻辑回归挖掘模型建立逻辑回归挖掘模型 l查看挖掘结果查看挖掘结果 1/5/20231/5/202312数据仓库与数据挖掘数据仓库与数据挖掘11.3 时间序列模型时间序列模型 l11.3.1 ARIMA模型模型 l11.3.2 建立建立ARIMA模型的步骤模型的步骤 l11.3.3 使用统计软件估计使用统计软件估计ARIMA模型模型 l11.3.4 SQL
8、Sever 2005中中的的时时间间序序列列分析分析 1/5/20231/5/202313数据仓库与数据挖掘数据仓库与数据挖掘11.3.1 ARIMA模型模型l差分自回归移动平均模型差分自回归移动平均模型l产生于产生于20世纪世纪60年代末年代末l根据不同设定可以简化成以下几种模型:根据不同设定可以简化成以下几种模型:AR模型模型MA模型模型ARMA模型模型 1/5/20231/5/202314数据仓库与数据挖掘数据仓库与数据挖掘11.3.1 ARIMA模型模型lAR模型(自回归模型)模型(自回归模型)lMA模型(移动平均模型)模型(移动平均模型)lARMA模型模型 1/5/20231/5/2
9、02315数据仓库与数据挖掘数据仓库与数据挖掘11.3.1 ARIMA模型模型l根据根据Box、Jenkins的建模思想,只有时间的建模思想,只有时间序列满足平稳性和可逆性的要求时上述模序列满足平稳性和可逆性的要求时上述模型才有意义。型才有意义。l对于不平稳的时间序列,必须先转化为平对于不平稳的时间序列,必须先转化为平稳的时间序列以后才能建立稳的时间序列以后才能建立ARMA模型。模型。l差分是最常用的时间序列平稳化手段。就差分是最常用的时间序列平稳化手段。就是用时间序列的当前值减去前面一个观测是用时间序列的当前值减去前面一个观测值。值。1/5/20231/5/202316数据仓库与数据挖掘数据
10、仓库与数据挖掘11.3.1 ARIMA模型模型lARIMA模型模型其中:其中:d:差分次数 B:后移算子1/5/20231/5/202317数据仓库与数据挖掘数据仓库与数据挖掘11.3.2 建立建立ARIMA模型的步骤模型的步骤l根根据据时时间间序序列列的的图图形形或或者者其其他他方方法法对对序序列列的平稳性进行判断的平稳性进行判断 l对对非非平平稳稳序序列列进进行行平平稳稳化化处处理理,一一般般使使用用差分的方法差分的方法 l对对于于差差分分后后的的平平稳稳序序列列,根根据据时时间间序序列列模模型的识别规则建立相应的模型型的识别规则建立相应的模型 l对模型中的参数进行估计对模型中的参数进行估
11、计l对对模模型型中中参参数数的的显显著著性性、拟拟合合效效果果等等进进行行检验和分析检验和分析l通过检验的模型就可以用来进行预测了通过检验的模型就可以用来进行预测了 1/5/20231/5/202318数据仓库与数据挖掘数据仓库与数据挖掘11.3.3 使用统计软件估计使用统计软件估计ARIMA模型模型l请参考书本请参考书本P230P231。1/5/20231/5/202319数据仓库与数据挖掘数据仓库与数据挖掘11.3.4 SQL Sever 2005中的时间中的时间序列分析序列分析 l创建创建 Analysis Services 项目项目 l创建数据源创建数据源 l创建数据源视图创建数据源视图 l创建逻辑回归挖掘结构创建逻辑回归挖掘结构 l设置逻辑回归挖掘结构的相关参数设置逻辑回归挖掘结构的相关参数 l建立逻辑回归挖掘模型建立逻辑回归挖掘模型 l查看挖掘结果查看挖掘结果 1/5/20231/5/202320数据仓库与数据挖掘数据仓库与数据挖掘