《管理信息学 第6章(1).ppt》由会员分享,可在线阅读,更多相关《管理信息学 第6章(1).ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、管理信息学 杨善林 胡笑旋编著 第6章 信息处理第第6 6章章 信息处理信息处理u6.16.1信息处理过程信息处理过程u 6.26.2信息预处理信息预处理u 6.36.3信息处理的统计学方法信息处理的统计学方法u 6.46.4信息处理的机器学习方法信息处理的机器学习方法u 6.56.5不确定信息的处理方法不确定信息的处理方法管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理信息处理(目的目的)人们获取和存储信息的最终目的是要利用信息解决实际问题。决策就是利用信息解决问题的一个重要方面,没有信息不可能作出正确决策,但有了信息也并不一定就能作出正确决策。信息技术的广泛应用,人们获取和存储信息
2、的方式变得更加快捷和廉价,信息以空前的速度急剧增长,如果不能对信息进行恰当的处理,也难以作出有效的决策。从拥有信息到作出正确的决策,其中有一个如何对信息进行科学加工处理从拥有信息到作出正确的决策,其中有一个如何对信息进行科学加工处理的问题。的问题。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理(含义)信息处理(含义)信信息息处处理理概概念念:广广义义地地,一一切切为为了了更更好好地地利利用用信信息息而而对对信信息息本本身身所所施施加加的的操操作作过过程程,都都可可统统称称为为信信息息处处理理。从信息处理的目标来看,信息处理包括:便于对信息进行操作;实现信息快速流通;保存信息;实现信息
3、共享;便于信息检索;提高信息使用效率;提高信息的抗干扰性;提高信息纯度;提高信息的安全性;提高信息的可用度。本章所讨论的信息处理技术主要是为了提提高高信信息息的的使使用用效效率率和和可可用用度度,主要内容包括信息处理过程、信息预处理、信息处理的统计学方法和机器学习方法等。管理信息学 杨善林 胡笑旋编著 第6章 信息处理案例一:网上书店关联销售案例一:网上书店关联销售为了促进销售量的增长,网上书店采取了各种促进销售的方式,其中包括关联销售分析。这种方法就是在客户购买了一种书籍之后,推荐给客户其他的相关书籍。这种技术的运用可以带来更多的销售量。信息处理(案例)信息处理(案例)推荐的相关书籍管理信息
4、学 杨善林 胡笑旋编著 第6章 信息处理信息处理(案例)信息处理(案例)案例二:案例二:利用利用TwitterTwitter预测股票市场预测股票市场(http:/ 杨善林 胡笑旋编著 第6章 信息处理信息处理(案例)信息处理(案例)案例三:案例三:GoogleGoogle流感趋势预测流感趋势预测(http:/ 杨善林 胡笑旋编著 第6章 信息处理6.16.1信息处理过程信息处理过程u6.1.16.1.1信息处理的多阶段模型信息处理的多阶段模型u 6.1.26.1.2信息处理过程中各阶段任务信息处理过程中各阶段任务管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.1.1信息处理的多阶段模型信息
5、处理的多阶段模型从信息中提炼出能对决策起指导作用的知识,往往需要经过“信息选信息选择、预处理、约简与变换、分析与处理、处理结果解释与评价择、预处理、约简与变换、分析与处理、处理结果解释与评价”这样一个过程,该过程有时是复杂的、艰难的、循环重复的。信息选择信息选择预处理预处理分析与处理分析与处理解释解释/评价评价信息中心信息中心样本集样本集预处理结果预处理结果变换结果变换结果处理结果处理结果知识知识任务描述任务描述变换变换信息处理的多阶段模型管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.1.2 6.1.2 信息处理过程中各阶段任务信息处理过程中各阶段任务1.1.信息选择信息选择 从从已已有
6、有数数据据资资源源中中选选择择相相关关数数据据,创建一个目标数据集。需考虑的问题:(1)属性选择的客观性;(2)数据的同构性;(3)数据的动态性;(4)样本数目。从从领领域域专专家家处处获获取取相相关关背背景景知知识识,并检查背景知识与目标数据集的相容性。领域知识的作用:(1)使信息中的知识更明显;(2)约束信息处理算法的搜集空间。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(预处理)信息处理过程(预处理)2.2.预处理阶段预处理阶段 目标数据集可能存在许多不确定内容:字字段段值值标标记记错错误误、有有特特殊殊语语义义的数据值、空值。的数据值、空值。字段值标记错误往往是操作员在
7、数据录入时的输入错误而导致的,这些错误数据常称为“噪音”。特殊语义数据是指与期望模式不同的数据。有些数据由于“不重要”、“不知道”或“不愿意”而没有获得,引起某些属性值未知,称此类值为空值。数据预处理还包括数据的完整性和一致性检查、连续属性离散化、属性泛化等操作。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(数据约简和变换)信息处理过程(数据约简和变换)3.数据约简和变换数据约简是通过某种方法降低算法的搜索空间。约简常分为垂直约简垂直约简和水平约简。和水平约简。垂直约简是使用降维或变换方法减少变量(属性)数目;水平约简是通过对对象的分析(包括离散化、泛化等),合具有相同属性值的
8、对象,减少对象数目。数据变换是对数据进行编码,使其成为分析和处理方法所要求的格式。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(信息分析与处理)信息处理过程(信息分析与处理)4.4.信息分析与处理信息分析与处理信息分析与处理是应用相关算法从预处理过的数据中寻找数据中隐含的对信息利用如预测、决策等有价值的模式。需要考虑的问题:(1)信息处理类型的确定;(2)处理方法的选择;(3)运行效率分析。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(评估与维护)信息处理过程(评估与维护)5.5.评估与维护评估与维护(1 1)结果筛选:)结果筛选:过滤(移去)不感兴趣的或显而易
9、见的模式。利用描述规则特征的数值如信度、支持度或兴趣度等,定义某个阈值,对规则进行筛选;指定语义约束,规则的前件或后件只包含感兴趣的属性,或者指定属性间的依赖性约束;完全依靠用户对处理结果进行筛选。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(评估与维护)信息处理过程(评估与维护)支持度支持度(Support):Support(A-B)=P(A U B)。支持度揭示了A 与 B 同时出现的概率。如果 A 与 B 同时出现的概率小,说明 A 与 B 的关系不大;如果A与B同时出现的非常频繁,则说明 A 与 B 总是相关的。信度信度(Confidence):Confidence(A
10、-B)=P(B|A)。信度揭示了A 出现时,B 是否也会出现或有多大概率出现。如果信度度为100%,则A和B可以捆绑销售了。如果信度太低,则说明 A 的出现与 B 是否出现关系不大。例如例如:某销售手机的商场中,70%的手机销售中包含充电器的销售,而在所有交易中56%的销售同时包含手机和充电器。则在此例中,支持度为56%,信度为70%。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(评估与维护)信息处理过程(评估与维护)(2 2)结果评价:)结果评价:确定所发现模式的可信程度。基本方法是将样本数据集分成二部分,一部分是训练集用来发现模式,另一部分是测试集,分析结果的可信程度。(3
11、 3)处理结果维护。)处理结果维护。信息处理所涉及的样本数据集常常是动态变化的,因此需要对所处理的结果进行维护以保证结果与数据的变化相一致。维护可以对数据变化引起的特殊问题重新应用所建立的处理方法,或者应用某种增量处理算法。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息处理过程(过程改进与处理结果的整合)信息处理过程(过程改进与处理结果的整合)6.6.过程改进与处理结果的整合过程改进与处理结果的整合过程的改进反映了信息处理是一个反复进行的复杂过程。改进信息处过程的改进反映了信息处理是一个反复进行的复杂过程。改进信息处理过程一般从三个方面考虑:理过程一般从三个方面考虑:(1)重新定义数据集
12、;(2)改进信息处理方法;(3)重新定义约束或算法参数。信息处理结果的整合内容包括:信息处理结果的整合内容包括:(1)结果输出。把处理结果以文件、报表或其它形式呈现给用户;(2)一致性检查。确信处理结果不与以前处理结果或领域知识相抵触。管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.26.2信息预处理信息预处理u 6.2.16.2.1连续属性集离散化分析连续属性集离散化分析u6.2.26.2.2概念泛化分析概念泛化分析u6.2.36.2.3空值估算空值估算管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.2 6.2 信息预处理信息预处理由于在信息收集过程中存在诸多因素的影响,如初期收集信
13、息时对信息处理的任务了解不完全或考虑较少,或者信息收集者的习惯不同,描述不完全一致,或者存储方式不同等,不能对收集到的信息直接处理,通常需要经过预处理后才能使用。管理信息学 杨善林 胡笑旋编著 第6章 信息处理信息预处理(预处理任务信息预处理(预处理任务)预处理任务需完成的主要任务:预处理任务需完成的主要任务:(1 1)数据校验。)数据校验。消除不确定内容:字段值标记错误、有特殊语义的数据值、空值(缺失值);(2 2)离散化与泛化。)离散化与泛化。受信息处理方法的限制,对于值域是连续的或很大的属性需做离散化或泛化处理;(3 3)数据转换。)数据转换。对数据进行编码,使其成为信息处理方法所要求的
14、格式。管理信息学 杨善林 胡笑旋编著 第6章 信息处理不到不到18岁岁1824岁岁 2530岁岁 3135岁岁 3640岁岁 40岁以上岁以上北京北京3.4%31.4%34.0%13.0%9.6%8.6%上海上海2.8%35.0%29.5%13.7%9.8%9.1%广州广州3.9%35.7%30.4%17.1%8.1%4.7%其他城其他城市市3.4%41.4%29.5%12.9%7.2%5.5%不同城市网购网民年龄结构不同城市网购网民年龄结构20082008年中国网络购物调查研究报告年中国网络购物调查研究报告6.2.1连续属性集离散化分析连续属性集离散化分析管理信息学 杨善林 胡笑旋编著 第6
15、章 信息处理不到不到18岁岁1824岁岁2530岁岁3135岁岁3640岁岁40岁以上岁以上淘宝网淘宝网2.8%39.8%32.5%13.3%6.7%4.8%拍拍网拍拍网11.1%57.1%24.6%4.0%1.6%1.6%当当网当当网3.8%27.4%29.6%16.3%13.9%9.0%易易趣网趣网3.0%30.5%34.5%14.7%11.2%6.1%卓越亚马逊卓越亚马逊2.9%42.3%27.1%12.9%7.1%7.7%不同购物网站用户年龄结构不同购物网站用户年龄结构6.2.1连续属性集离散化分析连续属性集离散化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.2.1连续属性集
16、离散化分析连续属性集离散化分析问题描述问题描述u设设为一样本数据集,为一样本数据集,为非空有限集为非空有限集合,合,C是条件属性集,是条件属性集,D是决策属性集。是决策属性集。u假设对于任意假设对于任意有有,则,则为连续属性。为连续属性。u设设是是上的分割点集合,记为上的分割点集合,记为,其中,其中,为一整数,表示离散化程度,可以看作按属性将论域中的对为一整数,表示离散化程度,可以看作按属性将论域中的对象分成象分成类。类。3kik ki i-121管理信息学 杨善林 胡笑旋编著 第6章 信息处理问题描述问题描述对于需要离散化的连续属性集对于需要离散化的连续属性集,其分割点集合记为,其分割点集合
17、记为将将ci属性的连续取值映射到离散空间,即对于任意属性的连续取值映射到离散空间,即对于任意若其属性若其属性ci的取值在区间的取值在区间内,则将属内,则将属性值重新标记为性值重新标记为j。这样就把原来含有连续属性的样本数据集。这样就把原来含有连续属性的样本数据集A转换成离散化的数据集转换成离散化的数据集。因此。因此离散化问题本质上可归结离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。为利用选取的分割点对属性的值域空间进行划分的问题。管理信息学 杨善林 胡笑旋编著 第6章 信息处理离散化方法离散化方法u离散化方法离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法
18、、典型的有等区间方法、等信息量方法、基于信息熵的方法、Holte的的1R离散化方法、统计试验方法、超平面搜索方法以及用户离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。自定义区间等。(1)等区间离散化方法)等区间离散化方法等区间分割是将连续属性的值域等分成 k 个区间,一般由用户确定。假设某属性的最大属性值为 xmax,最小属性值为xmin,用户给定的分割点参数为 k,则分割点间隔为 =(xmax-xmin)/k,所得到的属性分割点为 xmin+i,i=1,2,k。管理信息学 杨善林 胡笑旋编著 第6章 信息处理(2)等信息量离散化方法)等信息量离散化方法等信息量分割首先将测量值
19、进行排序,然后将属性值域分成 k 个区间,每个区间包含相同数量的测量值。假设某个属性的最大属性值为 xmax,最小属性值为 xmin,用户给定的分割点参数为 k,样本集中的对象个数为 n,则需要将样本集中的对象按该属性的取值从小到大排列,然后按对象数平均划分为 k 段即得到分割点集,每两个相邻分割点之间的对象数均为 n/k。离散化方法离散化方法管理信息学 杨善林 胡笑旋编著 第6章 信息处理离散化方法离散化方法管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.2.2概念泛化分析概念泛化分析信息处理的任务是从这些具体的信息中概括出一般的规则信息处理的任务是从这些具体的信息中概括出一般的规则(知
20、知识识)。对于一些名词型属性,涉及的概念过细,无法产生规则。对于一些名词型属性,涉及的概念过细,无法产生规则。泛化是用来扩展一假设的语义信息,使其能够包含更多的实例。泛化是用来扩展一假设的语义信息,使其能够包含更多的实例。例如可将麻雀、燕子、老鹰等较细化的动物概念泛化为例如可将麻雀、燕子、老鹰等较细化的动物概念泛化为“飞飞禽禽”,而把老虎、豹子、狮子等较细化的动物概念泛化为,而把老虎、豹子、狮子等较细化的动物概念泛化为“走兽走兽”。泛化也是约简信息处理空间的一种有效方法。泛化也是约简信息处理空间的一种有效方法。管理信息学 杨善林 胡笑旋编著 第6章 信息处理性别性别男男女女男男政治面貌政治面貌
21、党员党员群众群众党员党员第一学历第一学历硕士硕士博士博士博士博士毕业学校毕业学校合工大合工大清华大学清华大学复旦大学复旦大学现聘职称现聘职称讲师讲师副研究员副研究员教授教授评定年龄评定年龄303041415353专业专业管理科学管理科学自动化自动化产业经济产业经济6.2.2概念泛化分析概念泛化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理性别1-男,2女政治面貌分为四个等级:1-党员、2-共青团员、3-群众、4民主党派第一学历分为四个等级:1-博士、2-硕士、3-本科、4-本科以下毕业学校泛化为三个等级:1-国外高校、2-重点高校、3-普通高校现聘职称泛化为四个等级:1-正高、2-副高、
22、3-中级、4-初级评定年龄离散化为:1-31,35、2-36,40、3-41,45、4-46,50、5-大于50专业泛化为两类:1理科、2文科6.2.2概念泛化分析概念泛化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理概念泛化分析概念泛化分析泛化分析方法泛化分析方法(1)将常量转为变量规则)将常量转为变量规则对于概念对于概念F(v),如果,如果v 的某些取值的某些取值a,b,使使F(v)成立,则成立,则这些概念可被泛化为:对于这些概念可被泛化为:对于v 的所有值,的所有值,F(v)均成立:均成立:(2)消除条件规则)消除条件规则一个合取条件可看作是对满足此概念的可能实例集的一个一个合取条
23、件可看作是对满足此概念的可能实例集的一个约束。消除一个条件,则该概念被泛化。约束。消除一个条件,则该概念被泛化。管理信息学 杨善林 胡笑旋编著 第6章 信息处理(3)添加选项)添加选项通过添加更多条件,使得有更多的实例满足概念而使该概通过添加更多条件,使得有更多的实例满足概念而使该概念泛化。该规则特别有用的方式是通过扩展某个特定概念的念泛化。该规则特别有用的方式是通过扩展某个特定概念的取值范围而增加选项。取值范围而增加选项。(4)将合取转为析取规则)将合取转为析取规则(5)爬升概念树规则)爬升概念树规则概念泛化分析概念泛化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理定义定义6.1概念树
24、概念树T是一个偏序集是一个偏序集,U是一个有限概念是一个有限概念集,对于任意概念集,对于任意概念,当且仅当当且仅当si 是是sj 的子概念。的子概念。定义定义6.2若概念树若概念树T中存在一概念中存在一概念s0,对于,对于任意任意,均有,均有,则称,则称s0 为最大概念,为最大概念,si 为其第为其第i 层子概念。层子概念。通过爬升概念树,低层概念被较高层概念替代。通过爬升概念树,低层概念被较高层概念替代。概念泛化分析概念泛化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理动物世界概念树动物世界概念树动物动物哺乳类哺乳类鸟类鸟类企鹅企鹅食肉类食肉类蹄类蹄类飞禽类飞禽类走禽类走禽类虎虎印度豹
25、印度豹长颈鹿长颈鹿斑马斑马信天翁信天翁鹰鹰驼鸟驼鸟第第1层层第第2层层第第3层层第第4层层管理信息学 杨善林 胡笑旋编著 第6章 信息处理(6)闭区间规则闭区间规则此规则表示如果同一概念的两个描述此规则表示如果同一概念的两个描述(两个规则前提两个规则前提)仅仅仅仅是一个线性描述符是一个线性描述符(L)的值不同的值不同(a,b),则两个描述可被一个描,则两个描述可被一个描述代替,描述符的引用为连接这两个值的闭区间述代替,描述符的引用为连接这两个值的闭区间a,b。概念泛化分析概念泛化分析管理信息学 杨善林 胡笑旋编著 第6章 信息处理6.2.3空值估算空值估算空值是指属性值未知且不可用、与其它任何
26、值都不相同的符号。空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现空值出现的主要原因有:的主要原因有:(1 1)在信息收集时忽略了一些认为不重要的数据或信息,)在信息收集时忽略了一些认为不重要的数据或信息,而这些数据对以后的信息处理可能是有用的;而这些数据对以后的信息处理可能是有用的;(2 2)某些属性值未知或暂时无法获取;)某些属性值未知或暂时无法获取;(3 3)数据模型的限制。)数据模型的限制。(4 4)获取这些信息的代价太大)获取这些信息的代价太大 (5 5)系统对实时性要
27、求较高)系统对实时性要求较高管理信息学 杨善林 胡笑旋编著 第6章 信息处理空值估算空值估算a1 a2a3a4p134p2346p3534p4446p5436p6434p75347管理信息学 杨善林 胡笑旋编著 第6章 信息处理空值估算空值估算空值处理的常用方法:空值处理的常用方法:(1)从集合中移去含未知值的实例(删除数据);)从集合中移去含未知值的实例(删除数据);(2)数据填补(用某个最可能的值进行替换):)数据填补(用某个最可能的值进行替换):人工填写人工填写特殊值填充特殊值填充平均值填充平均值填充就近补齐就近补齐使用所有可能的值填充使用所有可能的值填充回归等方法回归等方法(3)不处理)不处理