《大厂矿田中央资源数据库管理与数据挖掘的初步研究.pdf》由会员分享,可在线阅读,更多相关《大厂矿田中央资源数据库管理与数据挖掘的初步研究.pdf(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中南大学硕士学位论文大厂矿田中央资源数据库管理与数据挖掘的初步研究姓名:谢国富申请学位级别:硕士专业:矿产普查与勘探指导教师:毛先成20030101摘要随着信息时代的来临,信息量呈着几何级数的增长,然而用于对这些数据进行分析处理的工具却很少,人们拥有了海量的数据的同时却苦于信息的缺乏。从9 0 年代初开始,代表知识发现和数据挖掘的技术已经在市场、金融投资、欺骗识别、生产和制造以及电子商务、网络管理、生物、医学、天文、地理等众多领域里开始得到应用,尤其在市场、电信、银行和金融领域现在已经应用的相当普及。并且有人认为到在这个世纪初,知识发现和数据挖掘技术的继续发展将成为能满足不断发展的应用需求的主
2、要技术因素。数据挖掘使用复杂的统计分析和建模技术来揭示企业数据库中隐藏的模式与关系丽这些模式是有可能被普通的方法所忽略的。数据挖掘主要是从数据的分析入手、帮助决策,能从数据中寻找有价值的规律的技术。同时它也代表一个分析过程,我们具体化为方法学。在一般意义下,数据挖掘与知识发现的概念一致。它除要求提供一般的数据分析处理要求以外,还包括关联序贯分析、聚类分析、分类分析、回归分析等主要功能。本文结合广西2 1 5 地质队的重点科技攻关项目“广西大厂矿田地质矿产数据库的建立与开发”选题,以数据挖掘方法学这一理论为指导,以高级语言V i s u a lB a s i c6 O 等为开发工具,开发出了基于
3、w i n d o w sN T 2 0 0 0 操作系统平台“广西大厂中央资源数据库管理应用系统G D B M D M s 系统”。该系统由G D B M 系统和D M s 系统组成,它除了实现了数据库管理信息系统全部功能以外,还以实际挖掘任务的特点,按照数据挖掘方法学的特点而组织设计,其功能覆盖了数据挖掘的全过程。完全符合地学领域对数据挖掘的要求,并且在市场、电信、银行和金融该系统等领域具有较强的实用意义。作者运用该系统建立了岩浆掩体几何模型,描述及预测了大厂矿田长坡区s n 岩浆岩体的分布,挖掘出隐含的长坡区岩浆岩分布规律,为充分合理利用矿产资源,减少资源浪费和环境污染提供了科学依据。该
4、系统同其他国内外同类的软件相比,具有中文界面、操作简单、易学易用和易于推广的特点,该系统的开发,对数据挖掘方法学在我国的推广应用,对运用数据挖掘技术、系统指导矿山生产有着十分重要的理论及现实意义。关键词:数据库管理信息系统,G D B M D M S 系统,数据挖掘,数据仓库,岩浆岩体几何模型,大厂长坡A B S T R A C TW i t ht h ec o m i n 2o fi n f o r m a t i o na g e s,t h ea m o u mo fi n f o n】舱t i o ni si n c r e a s i n gv e r yf a s t H o w
5、e v e rm e r ea r ef e wm e t l l o d sl op r o c e s st h e s ed a t a A sw eh a v e 锄o u n t so fd a t a,w el a c ke n o u g hi n f o m l a t i o n S i n c e1 9 9 0,t h et h e o f i e so fl Da n dd a t am i n i n gh a v en o wb e e n 印p l i e dt om a r k e ta n a l y s i s,f i n a n d“i n v e s t
6、m e n t,d e c e i v i n gi d e n t i c a t i o n,p r o d u c ta n dm a n u f a c t u r e,e l e c t r o n i cc o m m e r c e n e tm a n a g c m e n t,b l o l o g y,m e d i d n e、a s t r o n o m y、g e o g f a p h y,e s p e d a l l yp o p u l a r l yi nm a r k e ta n a l y s i s,t e l e c o m、b a n k i
7、 n ga n df i n a n c i a li n v e s t m e n t S o r n ep e o p l ee v e nt h i n kt h a ta tt h eb e g i n n i n go ft h en e wc e n t u r y t h et e c l I l i q u e sa n dt h e o r i e so fl Da n dd a t am i n i n gw i l lc o n t i n u ed e v e l o p i n gi no r d e rt om e e tt h eg m w i n gn e e
8、 di nf u t u r e D a t am i I l i n ga p p l i e sc o m p l i c a t e ds t a t i s t i ca n a l y z i n ga n dt e c h n i q u e so fm o d e l i n gt oi l l u s t r a t et h ei n s i d en 1 0 d ea n dr e l a t i o n w h i c ha l w a y sc a nb en e g l e c t e di nc o m m o nm e t h o d s D a t am i n
9、 i n gm a i n l yu s e sd a C aa n a l y s i st oh e l Du st om a k es o m ed e c i s i o n S,a n da l s ot of i n ds o m ev a l u a b l er u l e s M e a n w h i l ei ta l s om e a n sal【i n do fa n a l v z i n gp r o c e s s;h e r ew ei d e n t i f yi ta sm e t h o d o I o g y I ng e n e r a l,t h
10、ec o n c e p to fd a t ar I l i n i n gi st h es a m ea st h a to fK D D B e s i d e sm ec o m m o nr e q u i r e m e n to fd a t aa n a l y s i s,i ta l s oi n d u d e sc o n i u n c t i o n s e q u e n c ea I l a l y s i s、d u s t e r i n ga n a l y s i s、d a s s i f i e da n a l y s i s、r e 孕e s
11、s i o na I l a l y s i se t c T h i se s s a yi sb a s e do nt h ek e yp r o j e c t“t 王l ed a t a b a s es e t u po fg e o l o g ya n dm i n i n go fh u g em i n e si nG u a n 星洋i”W bu s ed a t am i n i n ga so u rt h e o r e t i cg l l i d e,a d v a I l c e dc o m p u t e r I a n g t l a g e s u a
12、 lB a s i c _ a so u rt 0 0 1,w ed e s i g n“c e n t r a ld a t a b a s em a n a g e m e n ta n da p p l i c a t i o ns y s t e mo f h u g em i n e si nG u a n 球i G D B M D M S”I ti sm a d eu po ft W op a r t s:G D B Ms v s t e ma n dD Ms V s t e m I tc a ne a s i l Vf e a l i z ea l lt h ef 吼c t i
13、O n so fd a t a b a s em a n a g e m e n ti n f o r m a t i o ns V s t e m B e s i d e s;i tw a sd e s i g n e da c c o r d i n gt ot h ec h a r a c t e f i s t i co fl I l i l l i n gt a s k sa n dd a t a|I l i I l i n 2,w h o s ef L m c t i o n sc o v e rt h ew h 0 1 ec o u r s eo fd a t aI I l i
14、m n g I tt O t a l l Vm e e tt h en e e do fd a t am i n i n gi ng e o l o g y,i na d d i t i o n,i tc a na l s ob e 印p l i e di nm a r k e ta n a l y s i s、t e l e c o m、b a n k i n g、f i n a n c i a li n v e s t m e n t,e t c H e r et h ea u t h o rs e tu pt h eg e o m e t r ym o d ew i t ht h i s
15、s y s t e m,d e s c r i b i n ga n dp r e d i c t i n gt h ed i s t r i b u t i n go fS nm a g m ab o d i e so fh u g er n j n e s,t r y i n gt 0f i n do u tt h em l e sO ft l l e m,w l l i c hw i l lb r i n gu sal o to fs c i e n c eg i s to fh o wt om a k et h eb e s to fm i n e sa n dr e d u c ee
16、 x p e n s e sa n dD 0 1 l u t i o n s C o m 口a r e dw i t ht h eo t h e rs y s C e m so ft h es a m ek i n d,i th a sC h i n e s ei n t e r f a c e、e a s i I yt ou s e,1 e a ma n dp o p u I a r i z e I t sa p p l i c a t i o nw i l Ih e l pu st op o p u l a r i z em ed a t am i n i n gm e t h o d o
17、 l o g y,a n da l s ow i l lh a V eg r e a ti n n u e n c eo nt h ea p p l i c a t i o no fd a t am i n i n ga n ds y s t e m i cd i r e c t i o ni nm i n i n gp r o d u c e K E YW o R D S:D a t a b a s eM a n a g e m e n tI n f o r m a t i o nS y s t e m,G D B M&D M S,D a t aM i n i n g,D a t aW j
18、r e h o u s e,D a c h a n gC h a n g P o原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。作者签名玲国毒日期:生生年月互日关于学位论文使用授权说明本人了解中甫大学有关保留、使用学位论文的规定,即:学校虿权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其
19、它手段保存学位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名:逮因盔导师签名蕉碰期:盟年月生目中南人学硕f 学位论文第1 章文献综述1 1 数据挖掘技术研究现状1 1 1 概述随着信息时代的来临,信息量呈着几何级数的增长,然而用于对这些数掘进行分析处理的工具却很少,人们拥有了海量数据的同时却苦于信息的缺乏。从9 0 年代初玎始,代表知识发现和数据挖掘的技术已经在市场、金融投资、欺骗识别、生产和制造以及电子商务、网络管理、生物、医学、天文、地理等众多领域罩丌始得到应用,尤其在市场、电信、银行和金融领域的应用现在已经相当普及。有人认为到在这个世纪初,知识发现和数据挖掘技术的继续发展
20、将成为能满足不断增长的应用需求的主要技术因素。数据挖掘使用复杂的统计分析和建模技术来揭示企业数据库中隐藏的模式与关系而这些模式是有可能被普通的方法所忽略的。数据挖掘主要是从数据的分析入手、帮助决策,能从数据中寻找有价值的规律的技术。在一般意义下,数据挖掘与知识发现的概念一致。它除要求提供一般的数据分析处理要求以外,还包括关联序贯分析、聚类分析、分类分析、回归分析等主要功能。在数据挖掘中有两种主要模型:预测模型和描述模型。一个经典数据挖掘的例子就是超市从以前的数据中挖掘出的啤酒与尿布规律:很多成年人在周四同时购买啤酒与尿布;于是超市经理根据这个规则把尿布放在啤酒附近,方便了购物,并因此扩大了销售
21、。这是一个多次被人引用的例子,它同时涉及了数据挖掘两种模型中的一种:描述模型(模型可以得到具有规则性的结果)。此外不少人声称已把数据挖掘实现到经济领域,如:预测交易所指数,并获得成功。这里就利用了数据挖掘的另外一种模型:预测模型,来估计经济指数。数据挖掘应用的特点是数据量大和计算复杂。数据挖掘广泛应用在解决欺诈识别、网络入侵检测、连带销售分析、客户关系管理(C R M)等商业领域问题。1 1 2 研究现状近年来随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。条形码技术在商业上的普遍使用使得很多行业每天都积累了大量数据,如超级市场上的Pos 系
22、统每天都要存储上万笔的顾客购买数据。先进的现代科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图像数据就达5 0giga(千兆)字节。Internet 的迅猛发展使得网络上的各种资源信息异常丰富,在其第1 章文献综述中进行信息的查找真如大海捞针。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析T 具很难对数据进行深层次的处理,使得人们只能望“数”兴口义。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘从火量数据中提取
23、出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果。下面详细介绍数据挖掘在各个领域应用的研究现状。l、金融金融事务需要收集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括:1)数据清理、金融市场分析和预测财经分析依赖各种来源的数据,这些数据可能包含错误信息或丢失信息,有时还表达相互矛盾的信息。因此,对数据进行清理或联机验证十分重要。Lockheed 的Recon 曾用于清理一个有2 2 0 0 个墨西哥和英国政府债券及欧洲债券的数据库,以辅助投资决
24、策并进行预测。2)账户分类、银行担保和信用评估金融业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估。TheLeeds 就使用xpe rtRuleAnalyzer 进行分析并建立模型,预测该组织内5 0万贷款账户的欠款情况,并分析可能欠款的账户的关键特征。2、国防军事追求质量优势成为当代军事角逐中的世界性潮流。未来的战争是高技术战争,要走中国特色的精兵之路,必须加大科技含量。美国加州理工学院开发成功了自适应识别工具系统,用来识别火星上的小火山,其数据来自围绕火星飞行的Magellon 号航空器。Kansas 大学开发的基于Rough 集理论
25、的学习系统LERS,被美国NAsA 的Johnson 空间中心作为专家系统丌发工具用于医学及全球气候变化分析并取得了积极成果;数据挖掘可用于指挥自动化与辅助决策,信息管理与分析,战争风险预测等各个方面。现代战争是以信息为主的战争,谁掌握了信息谁就掌握了战争的主动权。因此,各个国家都十分重视信息的收集与分析。尤其是在战场上,战地情况瞬息万变,军情信息_ 1分庞大,从天空、陆地到海洋,每时每刻都在散发出信息,作战指挥中心的战情数掘库真可谓是海量信息库。要在极短的时间内分析庞大的敌我战情数据,以便做出F 确的军事决策,这个过程J 下是数据挖掘发挥优势的地方。数据挖掘可以对通过各种采集系统搜集到的敌方
26、数据进行挖掘分析,可以找到敌方若干可能的作战意图,以帮助我方指战员做出相应的制敌之策。此外,在较复杂的军事装备中南人学颂1 j 学位论文一p,如从导弹中嵌入一些有用的发现算法,使导弹在飞行过程中通过对所采集到数据进彳r 分析后,不断地修正其航线,提高其命中率。3、医疗保健医疗保健行业有大量数据需要处理。但这个行业的数据由不同的信息系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖拥关键的任务是进行数据清理,预测医疗保健费用。例如,GTE 实验室,I:发了KEFIR,从大型时变数据库中发现并解释关键信息。这个系统能进行多维分析,用以分析GTE 的医疗保健数据,对比数据
27、和预测数据,在定量范围内解释偏差,生成超文本报表。4、市场业市场业应用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。例如,DickinsonDirect 是个市场分析公司,他们主要为AT T、IBM、Pwersoft 这样的客户工作。DickinsonDirect 使用InformationHarvester 的规则归纳、模糊推理及统计能力对客户的历史数据进行分析,得出产品的购买趋势。5、零售业零售业是最早应用数据挖掘技术的行业,目前主要应用于销售预测、库存需求、零售点选择和价格分析。例如,Automatedwage ring公司使用AdvancedsoftwareApplicati
28、ons的ModelMax 预测模型,结合地理信息分析开发了Lot teryMa chinesitesele ction,以决定在佛罗里达州安装彩票机的最佳地点。6、制造业制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。7、司法数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析,可以给司法工作带来巨大收益。例如,美国财政部使用NetMap 开发了一个叫FAIs 的系统。这个系统对各类金融事务进行监测,识别洗钱、诈骗等。该系统从1 9 9 3 年3 月开始运行,每周处理大约20 万个事务,针对超过1 亿美元并可能是沈钱的事务产生了4 0 0 多个调查报告。8、工程与
29、科学数据挖掘技术可应用于各种工程与科学数据分析。例如,JetPropulsion 实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。这个系统还帮助发现了lO 个新的类星体。第1 章文献综述9、其它数据挖掘还可应用于以卜的各个领域:1)经纪业和安全交易:预测债券价格的变化,预报股票价格升降,决定交易的最佳时刻;2)计算机硬件和软件:检测磁盘驱动的故障。估计潜在的安全漏洞;3)政府和防卫:估计军备转移的成本,预测资源的消耗,评估军事战略;4)电信:电话公司评估哪一类客户会在短期内转向别的公司或别的项目,从血限制对这部分客户的广告投入:5)公司经营管理:评价客户信誉,评估部分业绩,评
30、价员工业绩,检测予公司或部门财务舞弊行为:等等。可以说,数据挖掘技术作为一门新兴的技术,J 下悄无声息地影响、改变着社会的各个方面。1 2 数据挖掘技术在地学中的应用1 2 1 概述数据挖掘技术在地学中的应用具有很大的潜力,尤其是对地学信息的二二次丌发利用具有重要意义。它是一个极具创新性的研究领域,大力开展这方面的研究将会有助于地学中新理论、新规律的发现。人们耗费了大量的人力和物力获得了大量地学数据,这些数据大多以数据库的形式存储在计算机中,在过去这些数据给人们的研究做出了很大的贡献。然而随着人类社会的进步,对能源的需求日益增加,如何充分利用以前所积累的宝贵资料更好地为社会服务是人们所面对的紧
31、迫任务。20 世纪9 0 年代以来,以美国为主的发达国家积极开展数据挖掘技术和空间信息处理技术的基础理论和应用研究。进入9 0 年代中期以后,更进一步强调了空间数据挖掘的研究。目前,IB MAlmenden 实验室、北美和德国的一些大学的实验室在这个领域的研究中处于领先位置。我国在数据挖掘研究的技术方法、软件等方面的研究尚处于起步阶段,在地学数据挖掘方面更是鲜有人触及,这与我国丰富的地学信息资源是极不相称的。因此,我们迫切需要大力开展该领域的研究,争取在某些突破点上达到国际先进水平,为推动我国地学信息的开发和应用,充分了解并可持续利用我国矿产资源做出应有的贡献。1 22 数据挖掘技术在地学中的
32、应用归纳起来,数据挖掘技术在地学中的应用表现在以下几个方面l、空间数据的深层挖掘中南人学钡L 学位论文地学巾的数据与其它方面昀数据不同之处在于它具有空间属性,这些数据除了具有明显的含义之外,还有丰富的隐含意义,需要通过分析或挖掘才能冠示。例如:存广西大厂锡多会属矿刚的勘探开发中,人们试图查明锡等主要矿物元素聚集的位置和规律,而这些矿床的形成和余属元素的聚集是受构造、地层、岩体等凶素综合控制的。为了确定锡多余属的聚集规律,人们通过重磁、地震等地球物理方法获得了地层(岩石)的空间分布信息,通过钻孔、坑道编录等方法获得了地卜I 岩石的组成,岩石化学,岩石物理等方面的信息,在这些信息中隐含着锡等金属元
33、素聚集的信息,通过对勘探中所获得大量地质、地球物理和地球化学等信息进行深层挖掘爿能发现其内在规律。2、地学数据的关联分析有些空间数据的隐含知识需要通过关联分析后才能获得。即它不可能从单个类型通过挖掘而获得,而是需要通过若干个不同类型的物体的组合关系,经关联分析后才能获得隐含的知识。典型相关分析作为关联分析的重要方法在地学中可用于判断诸如矿体和围岩的关系,两个地层间的关系,古生物群和生活环境间的关系等等。其流程如下:输入数据一对数据进行中心化处理一计算各变量的协方差矩阵及相关矩阵一求典型相关系数一对典型相关系数作显著性检验一计算典型相关变量一据典型相关变量的组合系数进行变量间关系判断。3、地学数
34、据的聚类分析聚类分析在地学中常用于地层的划分,古生物分群及含矿异常的评价等。其流程如下:原始数据的预处理一分类统计量一谱系聚类法及离差平方和法一聚类分析。谱系聚类法与离差平方和法之间最根本的区别在于前者利用各类别问的最火相似性进行分类,而后者利用各类间最小离差平方和增量进行分类。一般而占,前者侧重于R 型聚类分析,后者侧重于Q 型聚类分析。4、地学数据的分类算法在遥感影像的模式识别或自动分类中使用的算法,包括最小距离分类、相似分类、线性判别分析;最大自然比分类、比较识别分类及集群分析等算法都可以认为是知识挖掘。其中,前馈神经网络中的最小距离分类是分类算法中十分有效的工具,其流程如下:数据空间一
35、传感器一特征抽取器一分类器一类别。在模式中,最主要的是分类器,在分类器中使用的工具是最小距离分类器。最小距离分类器计算从未知类的输入模式x 到各类中心点的距离,将最近的或最小距离的类别号赋予这个未知模式,其判别函数为:gI(x)=xTIx O 5 xTIxI=wTIX+wI,n+1,其中,xI 是任一类中心点向量坐标,wI=XI,wI,n+1=一0 5 XTIXI。5、地学数据的时间序列分析用数据序列分析的方法是研究某些地质现象如沉积速率,沉积相,生物组合,地层的岩性,地层的厚度等随时间的变化特征。而空间上某一地质特征随某一特第】章文献综述定方向上的变化特征也可用时间序列分析方法去研究,其流程
36、如图卜1 所示。趋势成分主要研究某一地质现象整体的发展趋势,周期性成分则研究地质现象中具有刷期特性的如沉积旋回,构造旋回,岩浆活动旋回等。自相关是指同一条曲线上的两个相似部分进行比较,使得一部分与另一部分进行拟合,根据拟合指标给出最佳拟合位置;互相关是对两条曲线进行拟合,它可用于地层对比中;互关联弥补了互相关方法的某些局限性,它1 i 需求出地质现象的各种参数,只需将各种属性如岩性进行数字化,然后进行匹配与比较运算,最后,用K 2 检验其显著性。6、地学数据的回归分析州归分析在地学中有广泛的应用,它包括一元回归分析,多元回归分析,逐步回归分析以及组合变量的全部回归分析等。一元回归分析主要对两个
37、要素如x与y 之间的关系作定量分析;多元回归分析弥补了元回归分析中只有革变量的缺陷,它分析了多个因素对某一要素的影响;逐步回归分析则通过剔除变量的方法避免了不必要的因素对因要素的影响;组合变量的全部回归分析则在逐步倒图卜l时间序列分析示意图图卜2 组合变量的全部回归分析的途径示意图中南人学硕小学位论文归分析的基础上对回归方程进行最优化选择,从而使辨别的效果更佳。图卜2 足建立组合变量的全部回归分析的途径。回归方程的优化标准:1)最佳片程的复相关系数R 大于某一临界限R O。2)在R R o 的条件下,具有最小的自变量数目。3)在满足卜述(1),(2)条件下当R 达到最大的那个方根。7、地学数据
38、的联机集成挖掘在webGIs、com GIs 环境与openGIs 规范的支持下,对分布式的数据库与信息系统进行集成挖掘。一种是webGIs、com GIs F常运行过程中的知识挖掘,另一种是为了进行空间数据的知识挖掘而进行的,卡要从分布数据库或信息系统中进行提取所需的数据进行关联分析、聚类分析和各种分类算法,以达到知识挖掘的目的。数掘挖掘模拟了人的智能活动,通过数据挖掘技术可以更有效地利用现有的宝贵资料从更深层次研究地学中的问题。它是一种资料二次开发利用的有力工具,它在地学中的应用具有重大的科学意义,并会带来巨大的经济效益。目前,对某地质问题的判别过程主观因素较多,造成随机性较大,易产生误差
39、。通过数据挖掘,可以发现新的控制因素,如在石油勘探中,时间的因素很少有人考虑,人们只关心有机质的数量,成熟度,生烃能力及石油的运移,聚集成藏。通过数据挖掘中的时间序列模式,可以对有机质将来的生油能力进行预测,为以后的油气勘探的决策及油阳的二次开发提供理论依据;通过数据挖掘可以发现几个因素问联系,如煤成气的问题,可以通过数据挖掘中的关联分析发现当形成煤的时候天然气形成的概率,确定有机质形成煤与形成天然气的条件,从而,为矿产开采提供可靠的保证;通过数据挖掘中的各种模式可对地质问题进行数字化,减少人为的因素,为地学问题的客观化奠定基础。1 3 选题依据及论文思路1 31 选题依据大厂矿罔是全国重要的
40、锡多余属产地,已探明锡储量的9 0 赋存在大厂矿区。大厂矿区以长坡一铜坑、巴力、龙头山三个矿体为主体,在中深部存在数量众多的锡石一硫化物型矿体。大厂矿田四十多年的地质找矿工作,积累了丰富的地质、物化探等基础资料。大厂矿阳由于开采速度快,矿产资源日渐枯竭的问题越来越突出,进行大厂矿区深部和边部隐伏矿体探测,对已有再次开发,运用新技术找矿是扩大找矿成果的一条重要途径,将为华锡集团的持续、稳定发展提供足够的后备矿源,调整矿I j 生产经营模式,改进选矿工艺,具有巨大的社会经济效益。为解决大厂矿田资源日渐枯竭的问题,实现多年地质矿产工作积累起来的大第1 章史献综述量地质资料的信息化管理、地质资料的升值
41、与共享和多方位多层面的充分利用,立项进行“火厂矿田地质矿产数据库的建立与丌发”的课题研究,要求采用大型关系数据库技术、网络技术等现代技术,建立大厂矿 =地质矿产中央资源数据库,丌发地质矿产中央资源数掘库管理信息系统,并以地质矿产数据库为资源平台,丌展隐伏矿体预测的尝试性研究,力争实现隐伏矿体的定质、定位和定量预测,人幅度地加快隐伏矿体找矿工作的进程,提高找矿勘探精度,降低找矿勘探胍险和成本。13 2 研究目的及意义本文研究的目的,就是要在大厂矿田多年来找矿效果良好的基础上,运用新技术、新理论,通过建立地质矿产原始资料数据库和矿床模型,丌展隐伏矿床预测,进行钻探验证,继续以较低勘探成本,探获大量
42、的矿产资源,并带动大厂外围找矿的新突破。通过该研究,建立了巨型的大厂矿田地质矿产中央资源数据库,开发了资源数据库管理信息系统,建立了大厂锡多金属矿床的矿床数学模型,实现了深边部隐伏矿体的立体定位定量预测。该研究及其成果具有重大的现实意义、理论意义和社会经济效益意义,主要表现在:1、地质矿产中央资源数据库和管理信息系统的建立,实现了传统纸介质保存的地质矿产资料的数字化资料仓库版本,具有原始资料可永久安全保存的意义,具有永不磨损、占用空间小、利用方便、保密安全、资料快速检索、数据充分共享、避免了资料重复录入整理、管理计算机化的优点;地质矿产中央资源数据库可为地质勘探、矿山生产经营、专题研究提供数据
43、共享,为今后各项研究、找矿勘探、生产和信息化工作的开展提供了一个统一的、标准化的数据资源平台,为今后地质勘探、矿床丌采、选矿冶炼、生产管理全过程数字化及矿山生产企业和集团企业信息化奠定了坚实的基础,也为今后资料拥有单位或企业提供有赏数据服务奠定了基础。2、通过数据挖掘系统所建立的岩浆岩体数学模型,不仅使前人关于大厂锡多金属矿床的地质控矿规律和成矿模式的定性认识得到了定量的表述,而且还揭示了以前未发现的隐含的地质控矿规律,从定量化角度深化了大厂锡矿田成矿规律的认识和总结,为今后找矿勘探和成矿理论的发展提供了定量类比的理论基础。3、本研究提供的立体定量预测成果与传统预测相比,具有空间真三维、结果全
44、定量化、数掘精确度高、预测深度大的优点,可精确地指导在三维空问中圈定找矿靶位,真正提高找矿勘探精度,降低找矿勘探风险和成本。4、本研究实现了地质矿产资料、资料管理、地质体、地质作用、矿床对象的数字化,积累了数字化和信息化方面的研究成果与实践经验,为今后矿山企业、集团公司等实现数字矿山和数字集团具有实践上的参考意义。5、本研究在地质矿产数据库领域已处于国内领先水平;在岩浆岩体数学模中南人学硕j 学位论文犁方面,取得了一定的理论成果。1 33 论文思路论文共分七章。全文以数掘挖掘理论为基础,以大厂矿用中央数据库管理应用系统为核心,以“概述一理论和方法一系统实现一应用实例一总结”为主线,层层深入地对
45、主要研究内容进行了详尽的论述。下面介绍一下本论文撰写思路及章节安排:第一章文献综述。该章简要介绍了数据挖掘技术研究现状以及国内外该技术在各个领域应用的基本情况。针对本论文所挂靠的课题是地学领域,本章还着重介绍了数据挖掘技术在地学中应用及研究现状。对论文的选题依据、论文思路和主要内容进行了说明。第二章数据仓库和数据挖掘的基本理论。该章论述了数据仓库和数据挖掘的基本理论,并在此基础上介绍了及基于数据仓库的数据挖掘系统的原型结构。为整篇提供了理论环境和基础。第三章G D B M D M S 系统的设计与实现。本章主要介绍了广西大厂矿田中央资源数掘库管理应用系统的开发环境,论述了广西大厂矿田中央资源数
46、据库的设计与建立,简单介绍了广西大厂中央资源数据库管理应用系统f G D B M D M S)的设计与实现,包括系统的需求分析、开发的总体目标、系统的结构设计、系统的功能设计、系统友好界面的实现以及系统的总体特征等。第四章G D B M D M S 系统各功能模块的实现。本章详细介绍了G D B M D M S 系统各模块的功能,并附有一定的各功能模块界面图。第五章G D B M D M s 系统应用实例研究。本章讨论了G D B M D M S 系统在长坡区的应用实例,并且运用D M S 子应用系统建立了长坡区岩浆岩体数学模型,最后对模型进行了解释和运用。第六章结论与展望。本章主要讨论了论文
47、所取得理论成果,并且对该领域提出了一些建议和展望。本章小结数据挖掘的出现只有短短的几年时间,如今方兴未艾。数据挖掘技术所表现出的广阔应用前景吸引了众多的研究人员和商业公司。一批数据挖掘系统被开发出来,并在商业、经济、金融、管理等领域都取得了应用性成果。采用的方法综合了机器学习、模式识别、统计学、知识发现、数据库和数据分析等领域的研究成果。但总的说来,这些系统基本上还停留在实验阶段,在适应性、系统效率方面还不尽人意,尤其在地学方面,数据挖掘还没有引起普遍的关注,基于此本文选择数据挖掘技术在地学中的研究作为论文的方向,并按“概述一理论一系统实践”的思路组织论文。第2 章数据仓库和数据挖掘的基奉理论
48、第2 章数据仓库和数据挖掘的基本理论2 1 数据仓库2 11 数据库系统的演化数据库技术从2 0 世纪6 0 年代中期产生到今天仅仅几十年的历史。其发展速度之快,使用范围之广是其他技术所远不能及的。按照数据模型的发展,数据库系统已从第代的网状、层次数据库系统,第二代的关系数据库系统,发展到第三代以面向对象模型为主要特征的数据库系统。数据库技术的诞生是以1 9 6 9 年I B M 公司推出的层次型D B M S 的代表数据库管理系统I M s(I n f o 硼a t i o nM a I l a g c m e n ts y s t e m),以及2 0 世纪6 0 年代末7 0 年代初美国
49、数据库系统语言协商会C O D A S Y U C o n f c r e n c e0 nD a t aS v s t e mL a n g l l a g e)下属的数据库任务组D B T G(D a t aB a s eT a s kG r o u p)提出的D B T G 报告为标志。D B T G 报告确定并建立了数据库系统的许多概念、方法和技术。在D B T G报告方法和思想的指引下数据库系统不断成熟,开发了许多基于网状或层次模型的商品化的数据库管理系统。第一代数据库系统有以下特点:1、支持三级模式的体系结构三级模式通常指外模式、模式、内模式。模式之间具有转换功能,第一代数据库系统
50、通过外模式与模式、模式与内模式之间的映像,保证了数据库系统的具有数据与程序的物理独立性和一定的逻辑独立性。2、用存取路径来表示数据之间的联系这是数据库系统与文件系统的主要区另0 之一。数据库系统不仅存取数据,而且存取数据之间的联系,在层次和网状数据库系统中是用存取路径来表示和实现的。3、独立的数据定义语言。第一代数据库系统有独立的数据定义语言,用以描述数据库的外模式、模式、内模式以及相互映像。诸模式一经定义,就很难修改。这就要求数据库设计人员在建立数据库应用系统时,不仅要充分考虑用户的当前需求,还要充分了解需求可能的变化和发展,所以对数据库设计的要求比较高。4、导航的数据操作语言层次和网状数据