基于聚类分析的数据格式转换模型的改进.pdf

上传人:qwe****56 文档编号:69622187 上传时间:2023-01-07 格式:PDF 页数:4 大小:519.57KB
返回 下载 相关 举报
基于聚类分析的数据格式转换模型的改进.pdf_第1页
第1页 / 共4页
基于聚类分析的数据格式转换模型的改进.pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《基于聚类分析的数据格式转换模型的改进.pdf》由会员分享,可在线阅读,更多相关《基于聚类分析的数据格式转换模型的改进.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第29卷第2期2009年3月海 洋 测 绘HYDROGRA PH IC SURV EYING AND CHARTINGV ol129,N o12M ar.,2009收稿日期:2008203231;修回日期:2008212230作者简介:陈 科(19832),男,四川仁寿人,硕士研究生,主要从事数字摄影测量、遥感图像处理的研究。基于聚类分析的数据格式转换模型的改进陈 科1,张保明1,谢明霞1,2(1.解放军信息工程大学 测绘学院,河南 郑州 450052;2.75719部队,湖北 武汉 430074)摘要:在深入细致分析各数据格式的相似性及差异性的基础上,针对传统数据格式转换模型一对一的转换方式

2、,提出了分类通用数据格式转换模型 根据聚类分析对数据格式进行分类,归纳总结每类数据的通用数据格式,实现分类通用数据格式的相互转换,从而实现各数据格式的相互转换。关键词:数据格式转换;数据融合;GIS;分类通用数据格式转换;聚类分析;相似性;差异性中图分类号:P208 文献标识码:B 文章编号:167123044(2009)02200592041 引 言数据格式转换模型是目前GIS系统数据融合的主要办法,它能快速获取系统所需数据,实现不同系统之间的数据融合,进一步挖掘现有数据的潜在价值,从而有效改善了目前出现的大量数据却少之又少的信息、知识的局面。文章提出了对各GIS软件的数据格式利用聚类分析进

3、行分类的思想,重点考虑每类数据的公共信息,对每类数据概括其通用数据格式,进行通用数据格式间的相互转换,这样有效地避免了原始的一对一的数据转换模型,由于考虑了数据间的相似性和差异性,在每类数据间相互转换时,信息的丢失量较少。在类与类的数据间进行相互转换时,将其差异性进行直接保留,对相似部分进行转换。2 数据格式转换模型的基本概念2.1 数据格式转换的定义数据格式转换是用一种系统的数据格式读出所需数据,再按另一系统的文件格式将数据写入文件。但从根本上讲,系统之间的数据格式转换是系统数据模型之间的转换。2.2 数据格式转换的条件两系统能否进行数据转换以及转换的效果如何,从根本上说取决于两模型之间的关

4、系。若模型之间差别很大,在转换过程中则必然会导致信息的丢失,在这种情况下,系统之间可以对其相似部分进行转换,对其差异性较大部分进行直接保留。2.3 分类通用数据格式转换的模型定义分类通用数据格式转换模型 将各GIS软件的数据格式根据聚类分析进行分类,设计各类数据的通用数据格式,实现分类通用数据格式的转换,即在分类通用数据格式的基础上实现各数据相互转换的目的。3 分类通用数据格式转换模型实现3.1 数据格式的分析以下是对Map Info数据格式、15万新建编码数据格式(该格式是对常用的GIS软件公有信息的总结)、ArcInfo的E00数据格式以及AutoCAD的DXF数据格式的具体说明。3.1.

5、1Map Info系统数据格式分析Map Info系统数据包括两种数据文件:3.M IF和 3.M I D。(1)3.M IF文件数据格式分析:其后是对图形类型(Point、Pline、Region)、构成图形的点数和各点的坐标数据的描述。(2)3.M I D文件格式分析3.M I D文件中所描述的信息是不定的,它随所对应的 3.M IF文件头的描述信息的变化而变化。海 洋 测 绘第29卷3.1.215万新建编码数据格式(自定义)分析该数 据 格 式 包 括 三 种 数 据 文 件:3.bin、3.ind、3.NDM。其中,3.bin文件是对记录号、图元类型、主码、识别码、地名指针、坐标个数、

6、描述码以及参数码的描述。3.NDM文件是对地名信息的描述,其具体格式结构为:struct CNOTELEMENTlong iDmRecordI D;/序号long nDmType;/类别码charMasterDm25;/地名char SecondDm25;/副名long iHeight;/海拔高度char PassesInfo10;/通行情况double dbl AnchorPtX;/定位点Xdouble dbl AnchorPtY;/定位点Ydouble dbl DirectionPtX;/定向点Xdouble dbl DirectionPtY;/定向点YlongDistrictCode10

7、;/行政区划代码long iNotePtNumber;/注记点数CArray m_CoordArray;31113ArcInfo的E00数据格式分析ArcInfo的E00数据格式侧重于描述空间对象的关系(如拓扑关系)而忽略了其图形表达能力,其具体格式为:struct E00DATASTRUCTCstring strLayer;/图层long PointAttribute;/点属性long PlineAttribute;/线属性long RegionAttribute;/面属性CArray m_CoordArray;/坐标数据struct RELATI ON;/拓扑关系;3.1.4AutoCAD

8、的DXF数据格式分析AutoCAD的DXF数据格式着重描述空间对象的图形表达(如颜色、线型等),而忽略了属性数据和空间对象之间的拓扑关系,其具体格式结构为:structDXFDATASTRUCTCstring strLayer;/图层long PointAttribute;/点属性long PlineAttribute;/线属性long RegionAttribute;/面属性CArray m_CoordArray;/坐标数据struct RELATI ON;/拓扑关系Cstring strPointSymbol;/点符Cstring strPlineSymbol;/线符Cstring str

9、RegionSymbol;/面符COLORREF Color;/颜色;3.2 数据格式聚类分析3.2.1 聚类分析的概念及其数学模型聚类分析主要是根据实体特征对其进行聚类,用数学的方法研究和处理给定对象的分类。其数学模型由于文章篇幅所限,在此不详细介绍,具体见文献5。3.2.2 数据格式聚类分析的实现根据Map Info数据格式、15万新建编码数据格式、ArcInfo的E00数据格式以及AutoCAD的DXF数据格式的属性并集=序号,主码,识别码,描述码,参数码,地名识别码,海拔高度,图元类型,图层,地名,副名,通行情况,坐标个数,各点坐标,地名定位点坐标,地名定向点坐标,点属性,线属性,面属

10、性,拓扑关系,点符,线符,面符,颜色,得出各数据格式的向量:P(x15万)=(1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0);P(xMapinfo)=(1,1,1,0,0,0,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0);P(xE00)=(0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0);P(xDXF)=(0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1)。根据向量间的欧式距离公式计算各数据格式间的距离矩阵,如表1所示。

11、表1各数据格式间的距离Map Info15万E00DXFMap Info02.833.463.4615万2.8304.724.72E003.464.7202.83DXF3.464.722.830根据距离远近将其分类。这里我们将其分为两类,即X1=P(xMap Info),P(x15万)X2=P(xE00),P(xDXF)。06第2期陈 科,等 基于聚类分析的数据格式转换模型的改进313 分类通用数据格式的归纳对上节所述的分类Xi的通用数据格式与差异数据格式进行归纳总结如下。(1)类X1的通用数据格式归纳总结为:struct GENERALSTRUCTlong I D;/序号long GeoTy

12、pe;/图元类型long nMasterCode;/主码long nIdentifyCode;/识别码long nAddress;/地名指针long iPtNumber;/坐标个数long nDescribeCode6;/描述码double dbParamCode6;/参数码DOUBLEPO I NT3Pt Array;/坐标15万新建编码数据格式(自定义)与Map Info最大的区别在于有专门的对元数据和地名信息描述的文件,因此为了在相互转换过程中减少信息的流失量,需要对15万新建编码数据格式(自定义)中的 3.NDM和 3.ind数据进行转换。类X1的差异数据格式归纳总结如图1所示。图1

13、类X1的差异数据转换格式(2)由于ArcInfo的E00数据格式与AutoCAD的DXF数据格式描述的侧重点不同,如果直接进行数据的转换必然存在大量的数据信息丢失现象。因此,可考虑将两者相似部分和差异部分进行分离,将相似部分数据进行转换,而将差异部分的数据转换成另一系统的数据格式进行保留。类X2的通用数据格式与差异数据格式归纳总结如图2所示。图2 类X2的通用数据格式与差异数据格式314 分类通用数据格式转换模型的设计分析31411分类通用数据格式转换模型设计(1)定义一数据格式类(父类),对各种GIS软件的数据模型进行描述。(2)对所有数据格式根据聚类分析进行分类,归纳每类数据格式的通用数据

14、格式,实现各类中各数据格式与通用模型数据格式的相互转换。(3)实现个通用模型数据格式的相互转换。图3 通用数据转换模型实现过程3.4.2 分类通用数据格式转换模型关键技术(1)聚类分析只有在充分了解GIS软件数据格式的基础上,16海 洋 测 绘第29卷才能更好的通过聚类分析对所有数据格式进行分类。(2)分类通用数据格式的建立分类通用数据格式建立分两部分 类内各数据模型相似性的描述 类内相似性的通用数据格式建立是以各数据模型的公共信息为基础,是对其公共信息的提取、概括和进一步描述。类与类间数据模型差异性的描述 类间差异性的数据格式建立是对各类数据模型的差别进行描述,在转换过程中对其差别(信息丢失

15、的根源所在)进行保留,其目的是减少信息量在转换过程中的丢失。4 结 论文章分别对Map Info系统M IF/M I D数据格式、15万新建编码数据格式(自定义)、ArcInfo的E00数据格式及AutoCAD中DXF数据格式进行了深入细致的分析,通过分析对Map Info系统M IF/M I D数据格式与15万新建编码数据格式、ArcInfo的E00数据格式与AutoCAD中DXF数据格式的相似性和差异性进行了分析提取,并对其通用数据格式和差异数据格式进行了定义,其后对通用数据格式转换模式的设计过程进行了说明。一方面,通用数据格式转换模型通过对各种数据相似性和差异性的分析,对数据模型进行分类

16、,从中提取出类内的相似性和类间的差异性,实现类内各数据模型与根据相似性定义的通用数据模型的转换,避免了各数据模型之间的相互转换,从而很大程度的减轻了数据转换的任务量;另一方面,由于对各数据格式的差异性进行了分析,在各类数据格式差别的基础上定义类间用于描述差异性的数据格式,将各类间的差别进行存储保留。在相互转换时可以有效的减少数据信息的流失量。通用数据格式转换的研究在整个数据格式转换的过程中其可行性和实用性是值得我们考虑的。参考文献:1 闾国年,张书亮,龚敏霞.地理信息系统集成原理与方法M.北京:科学出版社,2003.2 吴信才.地理信息系统原理与方法M.北京:电子工业出版社,2002.3李 滨

17、,龙 明.ARC/IN FO与GeoInfo之间的数据转换 EB/OL.维普资讯-中文科技期刊数据库,2002.4 焦李成,刘 芳,缑水平,等.智能数据挖掘与知识发现M.西安:西安电子科技大学出版社,2006.5 王学民.应用多元统计分析M.上海:上海财经大学出版社,2004.The Improvem ent of Data Form at Conversion M odel Based on Clustering AnalysisCHEN Ke1,ZHANG B ao2m ing1,X IE M ing2xia1,2(1.Institute of Surveying and M apping

18、,Inform ation Engineering University,Zhengzhou,Henan,450052;2.75719Troops,W uhan,Hubei,430074)Abstract:On the basis of analyzing the sim ilarity and dissim ilarity of data form ats,the model of theclassified general data form ats conversion that classifying data formats on the basis of clustering an

19、alysis andconcluding the general data format of each data class in order to achieve the conversion of general data form atsand also the conversion of all data classes was presented ow ing to the one2to2one conversion method oftraditional data format conversion model.Key words:the data format conversion;the data fusion;GIS;the classified general data form atsconversion;clustering analysis;sim ilarity;dissim ilarity26

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁