数据挖掘技术在税务系统数据分析上的应用.pdf

上传人:qwe****56 文档编号:69622264 上传时间:2023-01-07 格式:PDF 页数:4 大小:150.45KB
返回 下载 相关 举报
数据挖掘技术在税务系统数据分析上的应用.pdf_第1页
第1页 / 共4页
数据挖掘技术在税务系统数据分析上的应用.pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《数据挖掘技术在税务系统数据分析上的应用.pdf》由会员分享,可在线阅读,更多相关《数据挖掘技术在税务系统数据分析上的应用.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2010年第12卷第6期巢湖学院学报No6,Vol122010总第105期Journal of Chaohu CollegeGeneral Serial No1051引言巢湖市地税局税务系统管理中心以税务处理系统为基础,开发了一系列的增值业务。随着税务系统的运行,纳税企业税单越来越多,系统累积的各种数据规模越来越大,累积的数据中包含着丰富的有价值信息,能够帮助巢湖市地税局更好的处理税务的征收,与税务的稽查。因此,在管理中心的日常业务中,对税务系统中各种数据的各种分析需求已经逐渐显露出来。目前解决分析需求的办法是,需要有专门的技术人员对最底层的核心数据库进行手工操作,用手工导出大量的相关的用户数

2、据,税务记录数据,然后通过相应的工具软件制作相应的报表。这样是能找出大量的数据,但是无法对取得的数据进行全面深入的分析,很难在海量的数据中找到潜在的有价值的信息,同时操作复杂繁琐,数据间的相关性很难找到,响应时间长,报表制作周期长,容易出错,而且由于直接对底层数据库进行操作,对于数据的安全性和系统的安全性是一种潜在的威胁。怎样解决目前的问题呢?方法是税务系统的基础上,构建一个能提供多种对数据深入分析方法,扩展当前系统使之具有灵活简单的报表定制功能,同时为系统平台的安全性提供完整的解决方案,为数据建立综合的税务分析平台。找出相关的数据的逻辑性,与关联性,为税务的核查,提供相应的帮助,本文主要从总

3、体设计、数据仓库建模、ETL、系统功能等方面来论述,将系统建设重点放在内层数据仓库建设,并在数据仓库分离分析和业务环境的基础上,建立一个基于Web的B/S架构的企业级数据分析框架,满足本税务征收和税务稽查等部门的工作业务分析需求。2总体设计2.1体系结构税务系统综合数据分析平台采用了基于浏览器的三层结构(B/S架构),体系结构如图1所数据挖掘技术在税务系统数据分析上的应用曹骞1,2许磊3(1巢湖学院计算机系,安徽 巢湖,238000)(2中国科技大学计算机学院,安徽 合肥,230000)(3巢湖学院物理系,安徽 巢湖,238000)摘要:本文主要介绍了巢湖市地税局税务系统的系统结构和关键技术。

4、该系统主要运用数据仓库、ETL、数据挖掘等关键技术。关键字:数据分析系统;数据仓库;ETL中图分类号:TP311文献标识码:A文章编号:16722868(2010)06001704收稿日期:201008-20基金项目:巢湖学院自然科学研究资助项目(XLY-201012)作者简介:曹骞(1981-),男,安徽安庆人。巢湖学院计算机系教师,研究方向:数据挖掘。17示。系统需要定期(每周/月/季度/年)从业务系统(税务系统、税务部门网站服务器、系统日志等)里抽取分析平台所需要的分析数据,增量式地更新税务系统综合数据仓库SMMAIL-DW,这部分抽取工作对底层的原始数据的视图进行操作。保护了原始数据的

5、安全性。SMMAIL-DW存储了以客户为中心的特征数据和行为数据,以网页为中心的web访问数据等,应用服务器定期(每周/日/年)对这些数据进行处理(汇总、聚合、统计、分类等),同时应用服务器提供还提供相应的查询和分析的接口,对分析结果数据提供基于WEB的展示的接口,最后应用服务器定期(每周/日/年)生成各类数据分析报表。WEB服务器端通过ASP.Net程序调用应用服务器的各种功能,用户通过浏览器直接访问本系统。2.2系统组成根据上述体系结构,的整个系统组成如下所示:1)ETL:包括原始数据ETL、参数设置、系统检错等功能;2)业务逻辑:包括数据处理、查询分析、数据挖掘建模、结果显示等功能;3)

6、前端应用:包括纳税企业分析、税务分析、Web分析、系统运行分析、系统管理等功能。3关键技术3.1数据仓库设计数据仓库总体结构如图2:原始税务业务数据视图通过ETL程序自动导入到数据仓库中的事实表中。除了事实表,数据仓库中还包括了企业信息、税单信息,账单信息等维表。在数据仓库的基础上,为了满足各种数据分析需求,再为不同的分析主题中建立相应的数据集市。原始数据数据仓库数据集市Detail按周月季度年汇总数据集市WEB应用前端应用原始数据纳税企业税务分析WEB分析系统运行分析系统管理ETL数据仓库业务逻辑RDBLogOthers税 务 系 统综 合 数 据仓库系统运行分析纳税企业分析税务分析Web分

7、析用户订阅帐单日志图2图118对于数据仓库中的按月汇总的明细事实数据,由于其数据量会非常大,可以按照保持一个时间周期(比如一年)之后自动按上一级时间粒度汇总的策略来保存历史数据,这样在明细表中就可以始终保持一个时间周期的细节数据。如图3所示:4ETL设计4.1 ETL高层设计ETL高层设计是指将数据仓库中的数据模型与其涉及到的OLTP系统中的相关数据表建立起对应关系,设计表级数据的初始导入及增量导入规则,将订纳税企业信息、税单的处理、企业的地理信息、系统日志、网站内容访问数据等以视图的方式导入。4.2聚合策略设计聚合是指在某一周期(如一个月,一年等)对事实表中的数据做按照一定规则的汇总,以减小

8、数据量,提高绝大部分查询的速度;同时将历史数据中最能体现信息,最有保存价值的数据做保留,提高数据库的使用效率。在聚合维度的选取上我们要遵循的原则:维度频度频繁访问原则:只有那些被经常需要使用到的维度,才有做聚合的意义;可选度小原则:指维度中可选用的值较少,只有这样,聚合后才可能大规模的减小数据量。具体实施中,我们将用软件对各个事实表的数据量进行一个大致的计数,然后根据以上原则自动调用事先写好的聚合的相应具体算法策略。4.3 ETL异常处理机制当ETL执行过程中发生异常时,ETL程序要记录发生异常的详细错误信息,发生错误的文件,错误的SQL语句,错误数据所在的行和列和发生错误的时间,同时根据数据

9、的类型,根据提前指定的软件纠错机制,程序自动执行相应的操作,保证系统的运行,对于没有预测到的错误,系统会将错误记录分别归类成异常数据文件,异常数据文件按照不同的数据类别进行分类存放。这样用户就可以快速的定位到有错误的数据,同时制定相应的解决方案,使之方便对异常数据文件进行集中处理。在定位到错误位置并找出错误原因以后,通过修改源数据,增加纠错程序方案,再次通过ETL程序增量导入到数据仓库中。4.4 ETL流程设计ETL流程包括初始化导入和增量导入。初始化导入包括手工维护维度装载、缓慢变化维表数据装载、事实表数据装载。增量导入包括缓慢变化维表数据装载、事实表数据装载阶段、数据汇总和聚合以及异常情况

10、处理。5系统功能5.1纳税企业分析首先要提供一个统一的纳税企业数据视图,通过这个视图,可以对一个那纳税企业的多个层次信息同时进行反映,包括基本信息、企业相关的各种账务报表信息。在统一的纳税企业数据视图基础上,平台能够提供多种可视化查询和多维分析手段,对纳税企业数据进行查询、切片、旋转、钻取等操作,从多个不同的角度查看数据。在查询和多位分析的基础上,平台提供更深周汇总月汇总季度汇总年度汇总保持一定时间后汇总保持一定时间后汇总保持一定时间后汇总保持一定时间后汇总企业维表时间维表网站访问维表Detail保持一定时间后汇总税单维表图319责任编辑:陈 侃参考文献:1王志海等译.数据仓库M北京:机械工业

11、出版社,2000.2 Jiawei Han,Micheline Kamber著,Data Mining Concepts and TechniquesM北京:机械工业出版社,20063 Kim JIterated grid search on unimodal criteriaD.PhD dissertation,Department of Statistics,Virginia Tech,19974 Keogh E,Chakrabarti K,Pazzani M&MehrotraDimenslonality reduction for fast similarity search in la

12、rge time series databasesJJournal of Knowledge and Information Systems,2000:263-286THE APPLICATION OF DATA MINING ON THE INFORMATION ANALYSIS OF CHAOHUBUREAU IN THE TAX SYSTEMCAO Qian1,2XU Lei3(1 Department of Computer,Chaohu University,Anhui Chaohu 238000)(2 School of Computer,University of Science

13、 and Technology of China,Anhui Hefei 230000)(3 Department of Physics,Chaohu University,Anhui Chaohu 238000)Abstract:This article mainly introduced the system of tax bureau chaohu system structure and key technology of this system ismainly used.Data warehouse and data mining,the ETL key technology.Ke

14、y words:Data Analysis System;Data Warehouse;ETL入的数据挖掘技术对纳税企业进行深入分析,包括根据企业基本信息和税单信息进行企业细分,需要稽查的潜在企业分析,根据企业财务报表信息进行企业分析。有分析数据作出企业大致的经营情况为税务的稽查,提供一定的范围的帮助。所有统计、查询和数据挖掘分析的结果都能够生成基于Web的报表,包括固定格式报表和用户自定义报表两种形式。5.2权限管理本平台的用户基本分为三个层次:税务管理层面;税务和稽查局长;技术部工程师,不同层次的用户具有不同的操作权限。因此系统要提供完整的“操作许可(Permission)角色(Role)

15、用户(User)机构(Group)”的四层权限模型。首先提供用户管理功能,可以增加、删除、修改用户信息;其次建立所有的操作许可;然后在操作许可上建立不同的角色,一个角色可以有多个不同的操作许可;最后将角色分配给用户。保障系统原始数据的安全与保密性。5.3系统监控从实时系统运行日志和网络设备日志数据中采集标志性数据,从而反映整个系统运行的情况,比如所有纳税企业、当前以纳税企业,需要纳税企业,减税企业等等。系统提供用户可定制的基于Web的系统监控报表;在系统运行数据采集和查询的基础上,需要进一步对系统运行状态进行预测分析,即根据采集到的系统日志、网络设备日志等数据,对系统的运行状态建立预测模型,从而在检查系统运行状态的同时,能够对系统下一步可能出现的情况进行预测分析。对于所有的预测模型,平台能够自动定时的根据采集的日志数据进行重新训练和优化,从而不断提升模型精度。6小结巢湖市地税局税务分析系统根据上述系统框架,基于数据挖掘等关键技术开发而成。数据仓库设计采用PowerDesigner 6.0,构件技术采用基于COM的标准,数据分析采用了复旦德门DMiner智 能 分 析 平 台 提 供 的 二 次 开 发 函 数DMiner SDK,开发语言采用ASP.Net1.1。目前该系统已经在巢湖市地税局正式上线运行,运行状态良好,税务工作人员通过该信息分析平台获得很多有用的信息。20

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁