《数据挖掘技术在个人信用评估中的应用与实现.pdf》由会员分享,可在线阅读,更多相关《数据挖掘技术在个人信用评估中的应用与实现.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、焦匆热焦黔应 用技 术年月一日第期娜教据挖掘技术在个人信用评估 中的应用与实现西南财经大学刘利红韦薇一、数据挖掘定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的潜在有用的信息 和知识的过程。在商业上,特指按照既定的业务目标对大量的企业数据进行探索,揭示其中的规律性并进一步将之模型化的先进、有效的方法。功能数据挖掘集中了数据库、人工智能和数理统计等方面的知识,实现了以下功能数据分类通过采用决策树、神经网络、遗传算法、沙集等方法发现数据与既定类别间 的函数映像的过程。回归分析二发现变量和属性间的依赖关系。聚类根据对象之间 的差异性将对象分类。概括对数据
2、集合进行描述。构造依赖模式将变量间 函数依赖关系或相关关系模型化。偏差检测检测数据的现状与历史及标准之间的差别,例如结果与期望的偏离、反常实例等。二、数据挖掘技术在国外银行业的应用数据挖掘技术在西方国家早已受到青睐,并已广泛地应用于金融领域它能帮助实现数据库营销、客户群体划分、背景分析、交叉销售,一等市场分析行为,以及客户流失性分析盯、客户信用记分找、欺诈发现等商业行为。在美国的银行金融领域,数据挖掘技术更是大显身手。通过对大量金融数据进行分析,发现其数据模式及特征,科学地细分客户群,随时观察金融市场的变化趋势,进而规避银行信贷风险,实现利润最大化。美国银行使用数据挖掘技术对零售信贷客户进行信
3、用评估,并将其细分为低、中、高危险者,继而对每一类客户量身定做金融产品,实现留住可获利的优质客户并争取有潜力的新客户,并将市场定位于这些用户,做到以客户为中口,口应用技 术之朴年月日第期耘企触吮杰,自。三、我国银行个人信用管理现状随着我国加 人以及经济全球化的发展,我国银行的 电子化、信息化建设取得了质的飞跃。随着银行“数据大集中”的实现,业务处理系统逐步从分散走向集中,信贷评估也从主观逐步走向客观。其中,各大商业银行都纷纷引进个人信用评分系统,并对之进行试点。但是,在取得成绩的同时,也应看到我国商业银行仍然面临许多挑战。一方面是国 内个人信用市场发展方兴未艾,个人信用消费需求量很大。随着居民
4、资产的增长,人们单一的储蓄化倾向逐步弱化,消费、投资及理财等需求日益增强,私金客户 的需求呈现层次化和多样化趋势。市场和需求的多元化为银行创利提供了机遇。另一方面,银行不能准确、客观、科学地挑选出优质客户,挖掘出潜在客户。这致使银行丧失了许多创利的机会,导致了现阶段“惜贷”现象的出现,即大量的钱放在银行贷不出去,出现“瓶颈”。再有,目前我国的数据库系统虽然可以高效地实现数据的录人、查询、统计等功能,但却无法发现数据中存在的关系 和规则,无法根据现有的数据预测未来的发展趋势。在银行实现“数据大集中”的今天,银行数据空前庞大,相应提供的信息量构成了银行一笔巨大的财富。它能为银行在放款决策中提供真实
5、可靠的信息 源,但是这些数据却没有被利用起来,大量的历史数据被闲置,个人信用资源利用率较低,不能为银行挑选优良客户提供有用决策信息,从而造成信息 资源的 闲置和浪费,导致了“数据爆炸但知识贫乏”的现象。四、数据挖掘技术在个人信用管理系统中的应用数据挖掘使数据库技术进人了一个更高级的阶段,它集数据库、人工智能和数理统计于一体,不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。它已经成为一种成熟、稳定,且易于理解和操作的技术。公司开发的数据挖掘 产品卜是最先的也是仅有的能涵盖整个 数据挖掘过程的软件包。它结合了数据仓库及联机分析处理 技术,集成了数据获取、抽
6、样、筛选、变量转换工具、多种回归工具、建立决策树工具、人工神经元网络、数据挖掘的评价工具等它将这一整套的知识创新创造成交互的、终端对终端的解决方案,实现在堆积如“山”的数据中,通过友好的界面来挖掘出隐藏在其中的规律性,从而帮助我们实现对数据的探索、清洗、调整、建模和模型评价工作。的过程即为抽样,探索,调整,建模,评价,具体实现如图所示。用户数据挖掘掘抽抽样盆分类浏览器洞察、罗,耀毅一醚一盟匹三亘途亘噩监噩亚份匕一一丽忐一、一、应些红一报告图本系统采用了软件包,通过建立模型和决策树模型,实现了银行客户信用评分和客户细分。州回归模型如 果令因变量为二值定性变量,其值为,分别表示取两个不同的状态若的
7、概率为,则二的概率为。影响一的因素有,则有坳,困粉沙酬一州川山叫剐翩酬酬酬酬剑洲 绷洲刻洲训圳闹细训到荆酬圳钊荆溺剧别洲训朋照服翻划别湘阳圳翻训别洲仙朋翻翻别划骊阳翻防叫明国洲州州刻侧洲州翻创翻篷生丝竹释一一一一一一丽鬓瞻森厂这种与子变量,、之间 的回归关系就是回归。回归模型可以处理十分广泛的一类问题。在银行客户信用风险管理方面,我们可以用表示客户违约,表示客户不违约,当利用模型计算得到的值接近时,则认为该客户信用评级较差,应谨慎发放贷款在银行客户细分方面,我们可以用表示客户是优秀客户,表示 客户是一般客户。在回归模型中,我们并不要求,均为连续变量,它们可以是定量变量,可以是一些数值化的定性变
8、量,也可以是一些数值化的定性变量中的一些,甚至全部可以是只取几个值的变量,如回归模型中,性别、职业个分别用,图工人农民教师注此图为概念一的判定树,预测客户什么时候可能购买计算机。每个内部非树叶节点表示一个属性上的测试,每个树叶节点代表一个类或一二。在金融领域也常用决策 树来分析数据并作出结论。例如,银行在个贷业务中,可先对客户贷款风险的高低进行评估,下面简单地构造一棵决策树来进行判断,如图所示。来将他们量化,作为一一,男,女模型的自变量。本系统采用了回归模型来对客户信用 等级进行评分。通过回归结果分析,发现影响个人信贷风险大小的因素主要有家庭收人、年龄、受教育程度、职业类别、居住习惯、健康状况
9、、职称,再对这七个因素进行交互性综合分析,最后可以通过软件区分出各个影响因素对区分“淘汰客户”、“优良客户”、“一般客户”的影响权重,从而进一步得出模型。决策树是数据挖掘中常用到的技术。它主要用来找出能描述、区分数据类的模型,以便对类标记未知的对象类进行预测。决策树是一个类似于流程图 的树结构,一般自上 而下的生成,像一棵倒着生长的树。决策树构造出来的可以是一棵二 叉树或多叉树。二叉树的 内部节点 非 叶子节点 一般为一个逻辑判断,如形式为二的逻辑判断代表属性,是该属性的某 个属性值树的边是逻辑判断的分支结果。多叉树的内部节点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶子节点
10、都是类别标记,如图所示。月月收入入高高贷款工作年限图注该图为概念少的决策树,判断客户贷款的风险性。每个内部非树叶 节点表示一个属性上的测试,每个树叶节 点 表 示一 个 类少,或少。决策树把数据分割成更小的片断,即终节点或叶子,也就是指标变量。片断的切分是根据输人变量来定义的,由此预测出输人变量和指标变量间 的关系。只有当用用户定义的停止标准来判断这种切分不能再继续时,切分才会停止。而通过细分群体,可以对每一组的个体未来的行为作更加肯定的预狈。本系统正是 采用了决策树的方法来进行客户细分,使银行能够在大量客户中作出区分与鉴别,同时建立客户价值评价模型,使银行从众多的客户群中筛选出最具价值的客户
11、。五、系统结构如图所示口,四应用技 术年月日第期口李触、客客户交易记录录数据挖掘两两盆俞一一下橇赫一数据挖掘掘掘压压弃豁蔽甲瘫凛华亚亚亚亚亚亚亚闰归归归决策树树树客客客户信用 评分模型型型客户细分模型型型客户信用管崖重平百遍益匾通信用管理平台台台个个个人信用贷款款款信用卡卡卡助学贷款款款图六、模块的具体实现开发采用的技术模式本系统采用了。模式浏览器服务器模式,该模式是由传统的两层结构发 展 而 来的三层结构在上的应用。体系结构克服了模式客户端软件过于庞大、维护难、客户端应用模式依赖于其应用平台等弊端,把结构中的事务处理逻辑模块从客户机的任务中分离出来,由服务器来承担,大大减轻了客户机的压力。尤
12、其是随着网络的普及,解决方案成为了网络时代 一种更加 经济的解决方案。它无需不断升级客户机的硬件设备,简化了客户端的安装、配置,显著降低了系统开发的费用。这样一方面降低了成本,另一方面则提高了系统的可扩展性,大 大减 少了维护人员 的工作量。结构的基本模型如图所示。的不同。完全基于模块与组件,具有更好的可扩展性与可定制性,可提供稳定的性能和优秀的升级性。它远远超越了,同时也给开发人员提供更好的灵活性,有效缩短了应用程序的开 发 周 期,并 且 提 高了程 序的运行效 率。与,、的完美组合,为中小型乃至企业级的商业模型提供了一个更为稳定、高效、安全的运行环境、七、结束语本系统是在借鉴某商业银行已
13、有的信用评 分体系的基础上做出的补充和改善它使用了真实的原始数据,采用了当今较为先进的统计分析工具进行分析 和建模,以及采用最为流行的开发工具进行开发。但是,在建模过程中,发现银行客户信息仍然存在一些盲点,以往记录的大量数据中有价值的数据并不多,使模型在某些点上存在一定的偏差,故今后银行应把好数据关,注意收集存储真正有分析价值的客户数据。因此,完整、科学、优化的信用评分模型还有待进一步深人研究。皿口参考文献加,数据挖掘概念与技术范明等译机械工业出版社朱爱群客户 关 系管理与数据挖掘【北京中国财政经济出版社,朱明数据挖掘合肥中国科学技术大学出版社,甲于秀林等,二碳纂铆器豁门多元 统计分析中国统计出版”,图模式的三层分布结构采用的开发平台本系统采用了的开发平台。是微软推出的新一代,是微软发展的新的体系结构的一部分。它是的下一代版本,但两者有着本质公司网站桂思强与数据库程序设计北京中国铁道出版社,金雪 云高级开发技术与范例北 京电子工业出版社,作者来稿日期年月日,曰