《最新心理测量中的数据挖掘PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新心理测量中的数据挖掘PPT课件.ppt(110页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、心理测量中的数据挖掘心理测量中的数据挖掘2007.082007.08目录2013.5数据挖掘技数据挖掘技术术概述概述关联规则关联规则2决策树决策树3来华留学生跨文化来华留学生跨文化适应性测量的数据挖掘适应性测量的数据挖掘412007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.08 数据挖掘的任务:数据总结:对数据进行压缩;分类和预测:建立一个分类函数或分类模型;发现关联规则:从数据库中发现那些置信度(Confidence)和支持度(Support)都大于给
2、定值的稳健(Robust)规则;2007.082007.08 聚类分析:使得属于同一个类别的个体之间的距离尽可能小,而使不同类别个体之间的距离尽可能大,把一组个体按照相似性进行归类;以及孤立点分析、演变分析等任务。2007.082007.08 1.2 数据挖掘的方法(1)分类方法:决策树前馈神经网络(BP网络、RBF网络)基于规则的方法(AQ算法、C4.5rule)支持向量机贝叶斯分类粗糙集2007.082007.08 (2)聚类方法划分聚类(k-means算法)层次聚类基于密度的聚类Kohonen聚类(自组织特征映射)2007.082007.08 (3)关联分析频繁项集挖掘算法(Aprior
3、i算法)关联规则生成算法2007.082007.08 1.3 数据挖掘过程(1)数据准备数据选择、数据预处理及数据类型转换其中的数据预处理工作至关重要,也称为数据清洗,目的是消除或减少噪声。2007.082007.08 包括数据清理、合并、离散化等。数据清理主要是删除重复记录的数据,查找错误的属性值,利用均值等方式填补缺失值,识别和删除孤立点,平滑噪声数据(脏数据)。2007.082007.08 数据离散化主要是将连续性质的属性值采用区间的标记来替代实际的数据值,即用区间标记替换连续属性的数值。2007.082007.08 (2)选择算法根据数据挖掘的目的,如数据分类、聚类、关联规则发现等,选
4、择相应的挖掘算法。2007.082007.08 (3)对模式进行评估对于冗余或无关的模式进行剔除;对于不满足实际要求的模式,返回到前面的阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至变换挖掘算法等。2007.082007.082 2、关联规则关联规则为了考察两个变量线性相关的密切程度,通常采用相关系数对变量间关系进行度量。关联规则比相关系数能够得到更多信息,可以量化相互关系中两者的出现概率,以及前者出现对后者出现的影响率。2007.082007.08 即一个事件的出现时,另一事件出现的概率有多大,如果概率较大,则前后两者的关系接近因果关系,因此比相关分析的结果更有意义。2007
5、.082007.08 相关系数的缺点:作为线性关联的度量,不便于描述非线性关系,且非线性关系与变量分布有关,计算方法也不同。2007.082007.08 对于不同类型的数据,需要采用不同的相关系数。等距变量:Pearson相关系数;两个等级变量:Spearman相关系数多个等级变量:Kendall和谐系数。采用不同方法得到的相关系数无法比较,关联规则可以在一定程度上解决该问题。2007.082007.08 2.1 2.1 关联规则方法的基本概念关联规则方法的基本概念关联规则是由Agrawal(1993)提出,最初提出的动机是针对购物篮分析问题,目的是从交易数据库中发现顾客购物的行为规则。200
6、7.082007.08 关联是指两个或多个变量的取值之间存在某种规律性,关联规则是描述两个或多个变量之间某种潜在关系的规则。2007.082007.08 实例:超市每周的交易记录称为事务,每一条事务都记录了一次交易中所销售的商品(称为项目)。因此管理者可了解本周各项目的销售量,还可发现哪些项目经常被顾客同时购买。2007.082007.08表1 样本数据D2007.082007.08 定义:项目全集 I=i1,i2,im ,是本周销售的所有项目的集合,在本例中,I=啤酒,果冻,面包,奶油,花生酱。2007.082007.08 定义:事务t是某个客户在一次交易中所购项目的集合,并且t I,在本例
7、中,t1=面包,果冻,花生酱。对应每一个事务有唯一的标识,记作tid。2007.082007.08 定义:事务集(事务数据库)D=t1,t2,tn是一系列的事务组成。定义:项目集是包含若干个项目的集合。定义:项目集维数是一个项目集中包含的项目的个数,也称为项目集长度。对于长度为k的项目集,称为k-项目集。2007.082007.08 支持度(support):设X是I中的一个项目集(即X I),D是一个事务集,那么称D中包含项目集X的事务个数与D中总的事务个数之比称为X在D中的支持度,记做support(X),support(X)=2007.082007.08 支持度用于发现频率出现较大的项目
8、集,即“某个项目集相对总事务所占的比重”。在本例中,假设项目集X=面包,花生酱,则在D中包含X的事务有t1,t2和t3,因为D中总的事务个数为5,故X在D中的支持度为60%。2007.082007.08 定义:最小支持度(minsup):由用户定义的可以接受的支持度的阈值。定义:对于项目集X,如果它的支持度不小于最小支持度,则称X为频繁项目集。2007.082007.08 只有从频繁项目集得到的关联规则才是有价值的。在本例中,假设minsup=40%,项目集X=面包,花生酱在D中的支持度为60%,因此X是频繁项目集。2007.082007.08 置信度(confidence):对于关联规则XY
9、,其中X和Y都是项目集,定义该规则的置信度为事务集合D中既包含X也包含Y的事务个数与D中包含X的事务个数之比,即项目集XY的支持度与X的支持度之比。2007.082007.08 置信度应用于在频繁项目集中发现频率较大的规则。2007.082007.08 在本例中,项目集X=面包,花生酱是频繁项目集,因此可以在其中寻找关联规则“面包花生酱”和“花生酱面包”。2007.082007.08 对于规则“面包花生酱”,Support(XY)=3/5=60%,Support(X)=4/5=80%,于是Confidence(XY)=60%/80%=6/8=3/4=0.75%,它表示这条规则的可信度,即“买面
10、包的顾客中有75%同时也买了花生酱”。2007.082007.08 对于规则“花生酱面包”,Support(XY)=3/5=60%,Support(X)=3/5=60%,Confidence(XY)=60%/60%=100%,它表示这条规则的可信度,即“买花生酱的顾客中100%同时也买了面包”。2007.082007.08 最小置信度:用户定义的一个置信度阈值,表示对于规则可以接受的最低可靠性。2007.082007.08 给定一个事务集D,挖掘关联规则就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则。支持度用于衡量关联规则在整个数据集中的统计重要性,置信度用于衡量关联
11、规则的可信度。2007.082007.08 2.2 关联规则挖掘过程(1)挖掘频繁项目集依据用户给定的最小支持度,寻找所有的频繁项目集。2007.082007.08 (2)生成关联规则使用频繁项目集生成置信度大于等于最小置信度的关联规则。上述步骤(2)比较简单,而步骤(1)是一个NP问题,当项目数量较大时,要穷尽地搜索每一个频繁子集,是非常困难的问题,因此提出了许多算法。2007.082007.08 2.3 2.3 频繁项集挖掘算法频繁项集挖掘算法 Apriori算法:Agrawal(1994)提出,它使用宽度优先的迭代搜索方法。2007.082007.08 首先是统计所有含一个元素的项集出现
12、的频率,找出频繁1-项集集合F1,再用F1找频繁2-项集集合F2,再用F2找F3,依次循环,直到不能找到频繁k-项集为止。2007.082007.08 算法的核心部分是apriori_gen(Fk-1)函数,该函数的输入参数为(k-1)-项集集合Fk-1,输出结果为候选k-项集集合Ck。扫描数据库并计算Ck中候选k-项集的支持度。2007.082007.083 3、决策树决策树3.1 3.1 数据分类数据分类数据分类是从过去已分类的数据经验中学习各个类别的区别,建立模型,或者对未知类别的数据进行分类。决策树是一种重要的分类方法。2007.082007.08 3.2.1 3.2.1 决策树的概念
13、决策树的概念决策树是以实例为基础的归纳学习算法,采用自顶而下的递归方式,从根结点的每一条路径就是一条合取规则,整个决策树就是一组析取表达式规则。2007.082007.08 决策树由决策结点、分支和叶子组成,以树型结构(二叉树或多分支树)表示最终分类结果,生成If-Then形式的规则。其中叶结点是类名,中间结点是带有分支的属性,该分支对应该属性的某一可能值。2007.082007.08 多分支树 二叉树2007.082007.08表2 顾客购买计算机的数据库2007.082007.08 决策树的核心思想是根据对象的属性值将其进行划分,那么选择哪一个属性进行划分?接着再选择哪一个属性进行划分?因
14、为任何一个属性都可以用来对数据集进行划分,但最后形成的决策树差异很大,有的非常简洁,有的却很臃肿。因此要寻找最优的属性选择方法。2007.082007.08 3.2.2 3.2.2 分类回归树(分类回归树(CARTCART)的构造)的构造CART(Classification and Regression Tree)是一种有监督的学习算法,在使用CART 进行预测之前,必须先提供一个学习样本集对CART进行建构和评估,然后才能使用。2007.082007.08 样本集结构如下:L:=X1,X2,Xm,Y X1:=(x11,x 12,x 1t),(xm1,xm2,xmt)Y:=(y1,y2,yk
15、)其中,X1 Xm 称为属性向量,Y 称为标签向量,属性可以是连续的也可以是离散的。X1 Xm 代表心理测量中的自变量,Y 代表因变量。2007.082007.08 根据给定的样本集L 构建分类决策树Tmax,使得Tmax中每一个叶节点要么很小;要么是纯节点(节点内部样本的Y 属于同一个类);要么只有唯一属性向量作为分支选择。2007.082007.08 该算法的核心是确定决策树的分支准则:如何从众多的输入变量中选择一个最佳的分组变量;如何从分组变量的众多取值中找到一个最佳的分割阈值。2007.082007.08 该算法引入了差异系数的概念,即采用Gini系数计算从相同的总体中随机选择的两个样
16、本来自于不同类别的概率,它反映了信息的纯度。2007.082007.08 式中:c 是数据集/子集Dj 中决策类的个数,pi 是第 i 个决策类在 D 中的比例。2007.082007.08 在本例中,对于数据集D,它的Gini系数为:2007.082007.08 对于任意一个属性,如果将数据集划分成多个数据子集,把未进行划分时的数据集的Gini系数与划分后数据子集的Gini系数加权和的差称为信息增益G(A):2007.082007.08 其中,A是候选属性,k是该属性的分支数;D是未使用A进行划分时的数据集,Gini(D)是数据集D的Gini系数,Dj是由A划分而成的子数据集。在所有属性中信
17、息增益G(A)为最大的属性就选为当前进行划分的结点。2007.082007.08 在本例中,如果根据年龄来划分,可以分为3个子集,它们的Gini系数分别为2007.082007.08 2007.082007.08 于是可计算属性“年龄”的信息增益为:2007.082007.08 采用类似的方法,可以计算属性“学生”的信息增益为:2007.082007.08 采用类似的方法,还可以计算属性“收入”、“信用等级”的信息增益,然后从所有属性中找到信息增益最大的属性,将它作为划分的对象。2007.082007.08 3.2.43.2.4决策树的剪枝决策树的剪枝如果建立的决策树的构造过于复杂,则对应的知
18、识规则将是难以理解和应用的,因此对于决策树的建立,不仅需要考虑分类的正确性,还要考虑决策树的复杂程度,即在保证一定的分类正确率条件下,决策树越简单越好。2007.082007.08 最常用的决策树简化方法就是剪枝,包括预剪枝与后剪枝。预剪枝是预先设定某一相关阈值,决策树达到该阈值后就停止树的生长。该方法比较简单,但预先指定阈值相当困难。2007.082007.08 后剪枝是对已经建立的决策树以一定的标准进行剪枝,使决策树得以简化,但仍具有一定的分类正确率。CART算法采用后剪枝法。2007.082007.08 具体方法为:针对未经剪枝的决策树T,运用算法将其某一个或几个子树删除,得到新的决策树
19、 j,然后对于多种不同剪枝的结果 j进行比较,找出最好的剪枝形式。2007.082007.08 剪枝过程中删除的子树将用叶结点代替,这个叶结点所属的类用这棵子树中大多数训练实例所属的类来代替。2007.082007.08 2007.082007.084 4、来华留学生跨文化适应性测量的数据挖掘来华留学生跨文化适应性测量的数据挖掘 我们通过问卷调查得到学校环境影响因素、社会文化影响因素、个性心理特征与适应性水平的数据。2007.082007.08 适应性和影响因素的关系:关联规则方法;根据适应性对留学生分类:决策树方法。2007.082007.08 4.14.1关联规则提取关联规则提取 4.1.
20、14.1.1数据准备与参数设定数据准备与参数设定对于来华留学生跨文化适应性的影响因素包括四方面21项:2007.082007.08 人口统计学因素:(1)按文化圈分类的留学生国籍(2)按GDP分类的留学生国籍(3)所在地(4)性别(5)年龄(6)汉语水平(7)学生类别(8)所学专业(9)已来华时间(10)来华前已学汉语的时间(11)留学生来华前对华了解(12)来华经费;2007.082007.08 学校环境影响因素:(1)教师形象(2)教学管理(3)食堂环境(4)学习条件;社会文化影响因素:(1)服务模式(2)公德意识;个性心理特征:(1)外向性(2)灵活性(3)独立性。2007.082007
21、.08 适应性水平则包括三个维度:社会文化适应、心理适应、校园适应。参与数据挖掘的有效被试数目是651人。2007.082007.08 首先进行数据预处理,将被试在各道题目上的分数离散化。在问卷中,学校环境影响因素、社会文化影响因素、个性心理特征以及适应性水平各维度都是由多道题目进行测量,而后各自获得总分。2007.082007.08 计算每个影响因素的均分,将被试分数大于等于均分的项目设置为1,表示留学生认同题目所描述的情形;小于均分的项目设置为2,表示留学生不认同题目所描述的情形。在适应性水平上也做同样设置,1和2分别表示适应和不适应。2007.082007.08 运用软件WEKA实现频繁
22、多项集的挖掘,设置最小支持度“minsup”不低于0.1,最小置信度“minconf”不低于0.6。2007.082007.08 4.1.24.1.2频繁频繁2-2-项集规则提取与解释项集规则提取与解释研究的维度:学校环境影响因素、社会文化影响、个性心理特征、适应性水平,人口统计学因素,共计有21个变量。2007.082007.08 由于各个变量又分为不同水平,总计有96个水平,如果两两组合,96*95=9120个关系,可以得到9120条关联规则。2007.082007.08 我们设置了不同的支持度和置信度,进行了13次实验,共获得524个频繁2-项集规则,还不到9120条规则的6%。2007
23、.082007.08表3 频繁2-项集挖掘的Apriori算法实现2007.082007.08 2007.082007.08 决策变量:总适应性社会文化适应、心理适应、校园适应。按照CART的二叉树构建原理,根节点包含所有样本,然后分割为两个子节点,这个过程在子节点上重复进行。2007.082007.08 在实现分类回归树算法时,将Gini系数的最小变化值设置为0.0001。采用“最小代价复杂度”方法剪枝。将复杂度参数设置为1,并采用10层交叉验证模型识别正确分类数与正确率。2007.082007.08 4.2.2 CART4.2.2 CART模型建立模型建立对留学生总体适应性、社会文化适应、
24、心理适应和校园适应分别建立CART模型,经决策树的建立和剪枝得到四个分类树。2007.082007.08 图2 总适应水平决策树2007.082007.08 图3 社会文化适应水平决策树2007.082007.08 图4 心理适应水平决策树2007.082007.08 图5 校园适应水平决策树2007.082007.08 4.2.3 4.2.3 分类规则提取与解释分类规则提取与解释决策树得出的分类规则用 If-Then 的形式表述,从根结点到每个叶子结点的一条路径就是一条分类规则。2007.082007.08 从决策树的根结点开始沿着一条路径所形成的属性与属性值的合取项就构成了If 部分,叶子
25、结点所标记的类别就构成了规则的 Then 部分,即规则的结论。2007.082007.08 本研究产生了29个叶子结点,即29条分类规则。以适应性总分为例,列举其产生的八条规则。2007.082007.08 规则1:IF 留学生对服务模式的态度=“认同”AND 留学生性格外向=“是”AND 对教学管理的态度=“不认同”THEN 总适应(60.0%)=“适应”。2007.082007.08 规则2:IF 留学生对服务模式的态度=“认同”AND 留学生性格外向=“是”AND 对教学管理的态度=“认同”AND 对公德意识的态度=“认同”THEN 总适应(86.3%)=“适应”。2007.082007
26、.08 规则3:IF 留学生对服务模式的态度=“认同”AND 留学生性格外向=“是”AND 对教学管理的态度=“认同”AND 对公德意识的态度=“不认同”THEN 总适应(66.2%)=“适应”。2007.082007.08 规则4:IF 留学生对服务模式的态度=“认同”AND 留学生性格外向=“否”THEN 总适应(50.5%)=“不适应”。2007.082007.08 规则5:IF 留学生对服务模式的态度=“不认同”AND 留学生性格外向=“是”AND 对食堂环境的态度=“认同”THEN 总适应(63.3%)=“适应”。2007.082007.08 规则6:IF 留学生对服务模式的态度=“
27、不认同”AND 留学生性格外向=“是”AND 对食堂环境的态度=“不认同”THEN 总适应(69.7%)=“不适应”。2007.082007.08 规则7:IF 留学生对服务模式的态度=“不认同”AND 留学生性格外向=“否”AND 对教师形象的态度=“认同”THEN 总适应(74.5%)=“不适应”。2007.082007.08 规则8:IF 留学生对服务模式的态度=“不认同”AND 留学生性格外向=“否”AND 对教师形象的态度=“不认同”THEN 总适应(93.8%)=“不适应”。2007.082007.08 从总适应性模型可以看出,服务模式是其最佳预测变量。八条规则结果显示,如果留学生
28、对服务模式认同,虽然还受到其他因素的影响,仍然普遍表现为适应;2007.082007.08 如果留学生对服务模式不认同,则虽也受到其他因素的影响,基本都会表现出不适应。2007.082007.08 外向性是其第二个较重要的影响因素,教学管理、教师形象、公德意识和食堂环境也都对留学生的总适应性产生不同程度的影响。2007.082007.08 由此可见决策树不仅能获得影响因素间的关系,并且能够获得影响因素与适应性水平之间的强因果关系。而且它也类似于关联规则方法,能够得出因素在各个水平上的预测概率,并对因变量进行分类。2007.082007.08 数据挖掘的方法很多很多,这里只是介绍了关联规则和决策树的方法,它们可以看作是心理统计的补充,从心理测量数据获得更多信息。2007.082007.08 谢 谢!