2022数据分析方法.docx

上传人:l*** 文档编号:22576731 上传时间:2022-06-25 格式:DOCX 页数:13 大小:34.12KB
返回 下载 相关 举报
2022数据分析方法.docx_第1页
第1页 / 共13页
2022数据分析方法.docx_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《2022数据分析方法.docx》由会员分享,可在线阅读,更多相关《2022数据分析方法.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2022数据分析方法数据分析方法在今日的各类型企业中,数据分析岗位已经基本得到普及和认可,这个岗位的核心任务往往是支撑运营和营销,将企业内部的数据,客户的数据进行分析和总结,形成以往工作状况的量化表现,以及客户的行为趋势或特征等。那数据分析方法有哪些?描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回来法、决策树法。2、正态性检验:许多统计方法都要求数值听从或近似听从正态分布,所以之前须要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。假设检验

2、1、参数检验参数检验是在已知总体分布的条件下(一股要求总体听从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。1)U验 运用条件:当样本含量n较大时,样本值符合正态分布2)T检验 运用条件:当样本含量n较小时,样本值符合正态分布A单样本t检验:推断该样原来自的总体均数与已知的某一总体均数0 (常为理论值或标准值)有无差别;B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相像;C 两独立样本t检验:无法找到在各方面极为相像的两样本作配对比较时运用。2、非参数检验非参数检验则不考虑总体分布是否已知,经常也不是针

3、对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用状况:依次类型的数据资料,这类数据的分布形态一般是未知的。A 虽然是连续数据,但总体分布形态未知或者非正态;B 体分布虽然正态,数据也是连续类型,但样本容量微小,如10以下;主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。信度分析检査测量的可信度,例如调查问卷的真实性。分类:1、外在信度:不同时间测量时量表的一样性程度,常用方法重测信度2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一样性如何,常用方法分半信度。列联表分析用于分析离散变量或定型变量之间是否存

4、在相关。对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为依次变量的相关检验。相关分析探讨现象之间是否存在某种依存关系,对详细有依存关系的现象探讨相关方向及相关程度。1、单相关: 两个因素之间的相关关系叫单相关,即探讨时只涉及一个自变量和一个因变量;2、复相关 :三个或三个以上因素的相关关系叫复相关,即探讨时涉及两个或两个以上的自变量和因变量相关;3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。方差分析运用条件:各样本须是相互独立的随机样本;各样原来自正态分布

5、总体;各总体方差相等。分类1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系2、多因素有交互方差分析:一顼试验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽视影响关系4、协方差分祈:传统的方差分析存在明显的弊端,无法限制分析中存在的某些随机因素,使之影响了分祈结果的精确度。协方差分析主要是在解除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回来与方差分析结合起来的一种分析方法,回来分析分类:1、一元线性回来分析

6、:只有一个自变量X与因变量Y有关,X与Y都必需是连续型变量,因变量y或其残差必需听从正态分布。2、多元线性回来分析运用条件:分析多个自变量与因变量Y的关系,X与Y都必需是连续型变量,因变量y或其残差必需听从正态分布 。1)变呈筛选方式:选择最优回来方程的变里筛选法包括全横型法(CP法)、逐步回来法,向前引入法和向后剔除法2)横型诊断方法:A 残差检验: 观测值与估计值的差值要艰从正态分布B 强影响点推断:找寻方式一般分为标准误差法、Mahalanobis距离法C 共线性诊断:诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例处理方法:增加样本容量或选取

7、另外的回来如主成分回来、岭回来等3、Logistic回来分析线性回来模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回来模型对因变量的分布没有要求,一般用于因变量是离散时的状况分类:Logistic回来模型有条件与非条件之分,条件Logistic回来模型和非条件Logistic回来模型的区分在于参数的估计是否用到了条件概率。4、其他回来方法 非线性回来、有序回来、Probit回来、加权回来等聚类分析样本个体或指标变量按其具有的特性进行分类,找寻合理的度量事物相像性的统计量。1、性质分类:Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 运用距离系数作为统计量

8、衡量相像度,如欧式距离、极端距离、肯定距离等R型聚类分析:对指标进行分类处理,又称指标聚类分析 运用相像系数作为统计量衡量相像度,相关系数、列联系数等2、方法分类:1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类2)逐步聚类法 :适用于大样本的样本聚类3)其他聚类法 :两步聚类、K均值聚类等判别分析1、判别分析:依据已驾驭的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,推断它来自哪个总体2、与聚类分析区分1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本2)聚类分析事先不知道事物的类别,也不知道

9、分几类;而判别分析必需事先知道事物的类别,也知道分几类3)聚类分析不须要分类的历史资料,而干脆对样本进行分类;而判别分析须要分类历史资料去建立判别函数,然后才能对样本进行分类3、进行分类 :1)Fisher判别分析法 :以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于适用于多类判别。2)BAYES判别分析法 :BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多运用;主成分分析将彼此梠关的一组指标变适转化为彼此独立的

10、一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。因子分析一种旨在找寻隐藏在多变量数据中、无法干脆视察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法与主成分分析比较:相同:都能够起到済理多个原始变量内在结构关系的作用不同:主成分分析重在综合原始变适的信息.而因子分析重在说明原始变量间的关系,是比主成分分析更深化的一种多元统计方法用途:1)削减分析变量个数2)通过对变量间相关关系探测,将原始变量进行分类时间序列分析动态数据处理的统计方法,探讨随机数据序列所遵从的统计规律,以用于解决实际

11、问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回来横型、ARCH族模型生存分析用来探讨生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法1、包含内容:1)描述生存过程,即探讨生存时间的分布规律2)比较生存过程,即探讨两组或多组生存时间的分布规律,并进行比较3)分析危急因素,即探讨危急因素对生存过程的影响4)建立数学模型,即将生存时间与相关危急因素的依存关系用一个数学式子表示出来。2、方法:1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计

12、、推断生存时间的图示法,不对所分析的数据作出任何统计推断结论2)非参数检验:检验分组变量各水平所对应的生存曲线是否一样,对生存时间的分布没有要求,并且检验危急因素对生存时间的影响。A 乘主动限法(PL法)B 寿命表法(LT法)3)半参数横型回来分析:在特定的假设之下,建立生存时间随多个危急因素改变的回来方程,这种方法的代表是Cox比例风险回来分析法4)参数模型回来分析:已知生存时间听从特定的参数横型时,拟合相应的参数模型,更精确地分析确定变量之间的改变规律典型相关分析相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术实力指标与5个在校成果表现指标)之间相关性的一种统计

13、分析方法。典型相关分析的基本思想和主成分分析的基本思想相像,它将一组变量与另一组变量之间单变量的多重线性相关性探讨转化为对少数几对综合变量之间的简洁线性相关性的探讨,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。R0C分析R0C曲线是依据一系列不同的二分类方式(分界值或确定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线用途:1、R0C曲线能很简单地査出随意界限值时的对疾病的识别实力用途 ;2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的精确性就越高;3、两种或两种以上不同诊断试验对疾病识别实力的比较,一股用R0C曲线下面积反映诊断系统的精确性。其他分析方法多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!第13页 共13页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页第 13 页 共 13 页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 策划方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁