第一篇:浅析GIS多源数据集成模式论文
[摘要] 地理信息系统的迅速发展和广泛应用导致了空间数据多源性的产生,为数据综合利用和数据共享带来不便。本文探讨空间数据多源性的产生和表现,指出多数据格式是多源空间数据集成的瓶颈;分析和评价了多源空间数据集成的三种模式,并展望了多源数据集成的发展方向。
一、多数据格式是多源空间数据集成的瓶颈
1、空间数据多源性的产生和表现
空间数据多源性的产生和表现主要可以概括为以下几个层次:
(1)多语义性
地理信息指的是地理系统中各种信息,由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。对于同一个地理信息单元(feature),在现实世界中其几何特征是一致的,但是却对应着多种语义,如地理位置、海拔高度、气候、地貌、土壤等自然地理特征;同时也包括经济社会信息,如行政区界限、人口、产量等。一个GIS研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。
(2)多时空性和多尺度
GIS数据具有很强的时空特性。一个GIS系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。不仅如此,GIS会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。GIS数据集成包括不同时空和不同尺度数据源的集成。
(3)获取手段多源性
获取地理空间的数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。这些不同手段获得的数据其存储格式及提取和处理手段都各不相同。
(4)存储格式多源性
GIS数据不仅表达空间实体(真实体或者虚拟实体)的位置和几何形状,同时也记录空间实体对应的属性,这就决定了GIS数据源包含有图形数据(又称空间数据)和属性数据两部分。图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。
2、多源空间数据集成的迫切性
随着Internet网络的飞速发展和普及,信息共享已经成为一种必然的要求。地理信息也不例外,随着信息技术以及GIS自身的发展,GIS已经从纯粹地学技术系统的圈子跳了出来,正和IT行业完全融合,人们对空间信息的需求也越来越多。GIS要进一步发展,必须完全融入大型MIS(管理信息系统)中。1998年美国副总统戈尔提出数字地球的概念,更是将地理信息技术推到了最前沿。然而地理信息要真正实现共享,必须解决地理信息数据多格式、多数据库集成等瓶颈问题。随着技术发展,GIS已经逐步走向完全以纯关系数据存储和管理空间数据的发展道路,这为GIS完全和MIS无缝集成迈出了重要的一步。但因为GIS处理的数据对象是空间对象,有很强的时空特性,获取数据的手段也复杂多样,这就形成多种格式的原始数据,再加上GIS应用系统很长一段时间处于以具体项目为中心孤立发展状态中,很多GIS软件都有自己的数据格式,这使得GIS的数据共享问题变得尤为突出。
空间数据作为数据类型的一种,同普通数据一样需要走过从分散到统一的过程。在计算机的发展过程中,先是数据去适应系统,每一个系统都为倾向于拥有自己的数据格式;随着数据量的增多,数据库系统应运而生;随着时代的发展,信息共享的需求越来越多,不同数据库之间的数据交换成了瓶颈;SQL(标准结构化查询语言)以及ODBC的出现为这一难题提供了比较满意的解决方案。但是空间数据如何引进这种思想,或者说将空间数据也纳进标准组织和标准协议进行规范和管理,从而使空间数据共享成为现实。
二、GIS多源数据集成模式比较
由于地理信息系统的图形数据格式各异,给信息共享带来了极大的不便,解决多格式数据源集成一直是近年来GIS应用系统开发中需要解决的重要问题。目前,实现多源数据集成的方式大致有三种,即:数据格式转换模式、数据互操作模式、直接数据访问模式。、数据格式转换模式
格式转换模式是传统GIS 数据集成方法(图1)。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。这是目前GIS系统数据集成的主要办法。目前得到公认的几种重要的空间数据格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。数据转换模式主要存在的问题是:
(1)由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。
(2)这种模式需要将数据统一起来,违背了数据分布和独立性的原则;如果数据来源是多个代理或企业单位,这种方法需要所有权的转让等问题。美国国家空间数据协会(NSDI)确定制定了统一的空间数据格式规范SDTS(Spatial Data Transformation Standard),包括几何坐标、投影、拓扑关系、属性数据、数据字典,也包括栅格格式和矢量格式等不同的空间数据格式的转换标准。许多软件利用SDTS提供了标准的空间数据交换格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模块,Intergraph公司在MGE产品系列中也支持SDTS矢量格式。SDTS在一定程度上解决了不同数据格式之间缺乏统一的空间对象描述基础的问题。但SDTS目前还很不完善,还不能完全概括空间对象的不同描述方法,并且还不能统一为各个层次以及从不同应用领域为空间数据转换提供统一的标准;并且SDTS没有为数据的集中和分布式处理提供解决方案,所有的数据仍需要经过格式转换复制到系统中,不能自动同步更新。、数据互操作模式
数据互操作模式是OpenGIS consortium(OGC)制定的规范。OGC是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利组织。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能读取任意数据服务器提供的空间数据。OGC规范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC规范正得到OMG和ISO的承认,从而逐渐成为一种国际标准,将被越来越多的GIS软件以及研究者所接受和采纳。目前,还没有商业化GIS软件完全支持这一规范。数据互操作为多源数据集成提供了崭新的思路和规范。它将GIS带入了开放式的时代,从而为空间数据集中式管理和分布存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上。但是OGC标准更多考虑到采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些历史存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。而从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据的主体。
数据互操作规范为多源数据集成带来了新的模式,但这一模式在应用中存在一定局限性:首先,为真正实现各种格式数据之间的互操作,需要每个每种格式的宿主软件都按照着统一的规范实现数据访问接口,在一定时期内还不现实;其次,一个软
件访问其他软件的数据格式时是通过数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也就是说,用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。
3、直接数据访问模式
顾名思义,直接数据访问指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。直接数据访问不仅避免了繁的数据转换,而且在一个GIS软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据集成模式。
目前使用直接数据访问模式实现多源数据集成的GIS软件主要有两个,即: Intergraph 推出的GeoMedia系列软件和中国科学院地理信息产业发展中心研制的SuperMap。GeoMedia实现了对大多数GIS/CAD软件数据格式的直接访问,包括:MGE、Arc/Info、Frame、Oracle Spatial、SQL Server、Access MDB等(图2)。SuperMap 2.0则提供了存取SQL Server、Oracle Spatial、ESRI SDE、Access MDB、SuperMap SDB文件等的能力,在以后的版本中将逐步支持对Arc/Info Coverage、AutoCAD DWG、MicroStation DGN、ArcView等数据格式的直接访问。
三、多源空间数据格式集成的展望、文件方式和数据库方式
传统的空间数据往往采用文件方式,随着技术的进步,逐渐将属性数据移植到数据库平台上;随着技术发展,图形数据也可以和属性数据一起存放在关系数据库中。文件方式对数据管理安全性较差,存在着属性和图形分开管理的问题,不适合网络共享发展的需要;数据库方式则实现了空间数据和属性数据一体化存储和管理,便于开发两层、三层甚至多层网络应用系统。从发展趋势来看,纯关系数据库方案取代文件方案是发展的必然趋势,这也是IT发展的主流趋势。随着对信息量需求的增大以及信息需求种类增多,数据仓库的建立,将是GIS文件系统向数据库系统发展的主流。、OpenGIS、SDTS与DLG/F
OpenGIS是目前的主流标准,但SDTS并不会停滞不前,相反笔者认为SDTS将会与OpenGIS走向一体化。SDTS 可以为OpenGIS提供一个转换和存取空间数据的标准,该标准是不依赖任何一种特定GIS软件格式的,该标准中利用头文件描述格式的方式使得数据服务者不必专门提供格式说明,而数据客户也不必专门学习该格式,只需读取SDTS头文件就可获得数据服务者提供的数据格式。笔者认为利用SDTS做数据标准,利用OGC作数据互操作的标准(例如空间SQL标准),简单地说就是如果说SDTS提供了数据格式的头文件,而OGC标准则提供了读写这个头文件的标准方法。如果再采用数据库作后台,利用空间数据引擎,空间数据引擎按照SDTS存取空间数据,按照OGC标准对客户软件提供操作接口,这将是空间数据集成的理想解决方案。USGS还提供了一种称作DLG/F的标准,该标准设计了空间数据在数据库中的动态存储结构,利用该结构可以将拓扑关系动态记录下来,同时可以让用户添加自定义的空间数据类型。怎样利用DLG/F完善SDTS和OpenGIS也将是OpenGIS以及SDTS发展的方向。、统一空间实体编码
多源空间数据据格式集成还有一个很重要的方面就是如何处理不同数据库对空间实体采用的编码方式不同的问题。从理论上来说,一个系统对同一空间实体的编码应该是唯一的,实际上由于不同领域从不同视角对同一空间实体编码并不一样,甚至会出现不同空间实体具有相同编码的情况,这些编码放在同一系统中,就会出现空间实体标识的严重问题。从目前来看,OpenGIS和SDTS都是基于地理特征(Feature)定义空间实体的,但都还不能真正提供一个通用的空间实体编码体系。
参考文献
1.On spatial database integration, Thomas Devogele ,Geographical Information Science, 1998,12(4)
2.Issues and prospects for the next generation of the spatial data transfer standard(SDTS), DAVID ARCTUR, DAVID HAIR,GEORGE TIMSON, etc, Geographical Information Science, 1998,12(4)
3.Towards integrated geographic information processing,DAVID J.ABEL, BENG CHIN COOI, KIAN-LEE TAN etc, Geographical Information Science, 1998,12(4)
4.A framework for the integration of geographical information systems and modelbase management , DAVID A.BENNETT, Geographical Information Science, 1997,11(4)
5.Overcoming the semantic and other barriers to GIS interoperability , YASER BISHR, Geographical Information Science, 1998,12(4)
第二篇:多源异构气象区域站数据集成技术研究
多源异构气象区域站数据集成技术研究
摘要:针对大量多源异构气象区域自动站数据在集成、监控方面的困难,结合区域自动站数据特征,建立数据映射关系、基于Wabacus开源框架、Java、数据库等技术,开发了一套“多源异构气象区域站数据集成系统”。实现了多源异构区域站数据在监控平台上的无缝集成,为多源异构区域站数据集成方法提供了新的思路,有效解决了多源异构数据难以在同一平台上进行统一监控的问题。该项技术研究成果应用于“福建省气象区域站数据集中监控系统”中,取得了较好的效果。
关键词:气象区域站;多源异构;数据集成;Wabacus
中图分类号:P208;TP338.6 文献标识码:A 文章编号:1007-9416(2017)04-0064-03
前言
随着现代气象综合观测业务的快速发展,全省综合观测种类众多。存在每个观测项目均使用独立的中心站软件收集数据的问题。由于引进的设备厂商和仪器型号参差不齐,因而获取到的区域自动站数据结构也各不相同,又都部署在不同的服务器上,所采用的数据库也不统一[1],导致各个中心站的数据相互独立,难以兼容,这些多源异构的数据构成一个复杂而且庞大的数据源,监控人员只能在每个中心站软件中进行实时的监控[2,3],无法在同一个平台中对区域站数据进行统一的监控和管理,很大程度上增加了数据监控压力。因为中心站软件都部署在省级信息中心,给市县级台站信息保障人员日常维护管理也造成了不小的困扰,市县级信保人员无法及时掌握区域站在线状态和数据要素是否异常等状态,特别在现场维修时需要多次通过电话询问省级值班员,降低了工作效率,也增加了省级值班员工作压力。因此,多源异构气象区域站数据如何实时、快速有效的集成成为一个急需解决的问题。区域站数据特征分析
福建省区域自动站目前总共部署了2000多个站,每个区域站都上传整点数据和分钟数据,从宏观上看,区域站数据具有“多源”、“异构”、“量大”等特征[4]。
2.1 多源
多源,指的是多个数据源。福建省区域站设备型号很多(如ZQZ_A、ZQZ_B、WUSH-RG、DZZ4、CAWS600、HYA-M等),参差不齐,多由不同的厂商提供,使用的中心站软件也不同,因而得到的数据都分散在不同的数据库中[5],而且数据库类型也不一样(如MySQL,SqlServer,Oracle),这就导致了区域站数据的多源性。想要集成这些数据,必须对各类型的数据库开发相应的访问接口。
2.2 异构
异构,指的是数据库结构不统一。由于缺乏行业数据规范,数据库结构多由各个厂商自行定义,加上软件开发人员的水平和对气象监测领域的不熟悉,使得设计出来的数据库库表结构、数据类型都不一样,给数据集成带来了很大的困难。系统关键技术
3.1 Web网页监控
Web网页监控利用Wabacus开源框架、Jsp网页和Java技?g。Wabacus框架是一个JAVA开发框架,而不是纯客户端框架,可以完成SSH框架的功能,它可以与任意框架(比如SSH框架)在同一项目中共存,采用面向声明的编程思想,极少编辑就可以实现复杂的数据展示、数据编辑、表单等功能。它支持热部署,高灵活性,高扩展性,支持IE、Firefox、Chrome、Opera等多种浏览器。
3.2 多数据库支持
Wabacus框架支持Oracle、SqlServer、MySql、DB2数据库多个类型的数据库。通过标签,可配置多个数据源,每个数据源配置一个子标签。
3.3 异构数据处理
对于异构数据的集成,需要把不同数据库(或者相同数据库)中不同表结构的数据提取出来,再插入到新建的总表中。由于存在表列名定义和列数量不同,为此,我们需要建立一个数据映射关系来统一数据结构。结合气象区域站数据的特征,在监控服务器上建立了一个总表,总表由所有区域站数据要素来定义。这个插入过程由系统后台服务定时完成。
3.4 定时采集服务
在后台设计JAVA定时器,定时收集多个中心站数据库里的区域自动站数据。区域自动站仪器不断上传采集到的数据,要求入库系统必须稳定运行,一旦停止运行或者出现故障,肯定会导致监控数据的延迟、丢失,出现误告警的情况。因此,我们对这个服务进行“升级”,即使服务挂掉,也能通过网页告警方式通知值班员,处理方式也很简单,启动服务就可以自动补调丢失的数据。系统实现
4.1 总体架构
多源异构气象区域站数据集成系统是基于面向服务的架构体系,使用Wabacus开源框架,Java技术,JSP网页技术,结合多种数据库开发技术开发完成的。采用MVC三层架构、数据映射、转换等技术设计开发中间件,不需要更改原始的数据格式或者存储,只需要修改相应的配置文件就可以实现数据集成。
4.2 系统设计流程
多源异构气象区域站数据集成系统设计流程如图1所示,通过Java定时任务对多个数据源数据进行提取,得到的数据经过中间件进行数据的映射转换操作,得到统一的数据格式的结果集,最后由入库程序进行入库操作。
系统的核心部分是中间件的设计,中间件的作用是起到统一数据格式的作用。向上为多源数据库提供数据标准和接口,向下为集成平台数据库提供统一格式的数据,从而完成多源异构数据的集成。各数据源独立运行,互不干扰,中间件只负责数据格式的转换。
中间件从定时采集程序获得原始数据,并不能直接进行入库操作,必须对数据格式进行转换。如果源数据表和目标表结构相同,则中间件不处理,直接转到结果集;如果源数据表和目标表的字段名不同,则需要对字段名进行映射,映射的方法是利用SQL语句对结果集进行字段的映射。
Web网页监控利用Wabacus开源框架、Jsp网页和Java技术,实现全省区域站数据监控,网页具有定时刷新,报表导出,收报率统计,声音告警等各种功能。由于区域站要素的不同,不可能用一张XML网页模版去显示每个站的要素,因此需要配置站点对应的XML网页[6]。
数据库端设计遵循SQL语言规范,利用SQL语句优化技术(比如建立存储过程和数据库表索引等),快速查询各中心站数据库信息。
4.3 系统功能
该项技术研究成果应用于福建省气象区域站数据集中监控系统,系统首页如图2所示。首页是将福建省全省的区域站按照分地市监控起来了,页面定时2分钟自动刷新,当某个地市的区域站在线率小于85%(阈值可根据需要设置)时,页面就会通过声音、滚屏等方式对故障地区进行告警,省一级值班人员就可以快速响应处理,从而提升数据的时效性。
以福州地区为例,市级监控首页如图3所示。市级关心的是本市区域站的运行情况,因此这里把该地区所有的区域站都集中在一个页面上监控,页面也是定时2分钟自动刷新。当有站点故障没数据时,系统会对故障点进行滚屏和声音告警,提醒市级值班员处理。要是某些站点的确故障了,一时恢复不过来,可以将站点监控状态设为故障,这样系统就不会对故障站点进行报警了。结语
随着现代气象综合观测业务的快速发展,全省综合观测种类越来越多,必须对多个数据源的数据进行无缝集成,实现数据监控统一化。福建省区域站数据集中监控系统已投入运行半年多时间,运行稳定,为业?展芾砣嗽薄⑹屑缎疟V行囊约疤ㄕ救嗽碧峁┦凳比?省区域自动站数据监控,包括站点的在线状态、最新到报时间、在线率和收报率统计等,并具备监控报警功能,不但可以做到快速响应,进而提升站点数据时效性,也很大程度上减轻了值班员的监控压力。
通过该系统,可快捷查询全省区域自动站整体的运行情况,业务保障人员通过该系统发出的站点离线告警,可以做到及时响应、排查、处理;通过系统的统计分析报表功能,对管理部门今后判断自动站的运行状态也具有一定的参考价值。
参考文献
[1]陈巍,刘艺雯.异构数据库数据迁移测试软件的研究与实现[J].安徽工程科技学院学报,2010,25(4):35-39.[2]李军怀,周明全,耿国华,等.XML在异构数据集成中的应用研究[J].计算机应用,2002,22(9):10-12.[3]陈骞,罗智佳,毛宗源.基于C/S和B/S混合结构的数据采集与整合系统[J].计算机应用研究,2006,(7):188-190.[4]张峰.基于多源异构勘察数据的工程勘察信息系统的设计与实现[J].测绘通报,2013,(1):87-89.[5]何朝阳,巨能攀,黄健.基于Web-GIS的公路边坡安全管理系统研究[J].地质灾害与环境保护,2012,23(1):91-95.[6]王智军.基于XML的异构数据集成研究[J].赤峰学院学报:自然科学版,2010,26(3):19-21.
第三篇:数据集成整体解决方案
数据集成整体解决方案
继系统集成、应用集成、业务集成之后,最头痛的数据集成(Data Integration)已渐被各大企业纷纷触及。目前国内大多数企业还仅停留在服务于单个系统的多对一架构数据集成应用,这种架构常见于数据仓库系统领域,服务于企业的商务智能。早期那些数据集成大家大都是从ETL启蒙开始的,当时ETL自然也就成了数据集成的代名词,只是忽然一夜春风来,各厂商相继推出DI新概念后,我们不得不再次接受新一轮的DI洗脑,首推的有SAS DI、Business Objects DI、Informatica DI、Oracle DI(ODI)等厂商。
数据集成,主要是指基于企业分散的信息系统的业务数据进行再集中、再统一管理的过程,是一个渐进的过程,只要有新的、不同的数据产生,就不断有数据集成的步聚执行。企业有了五年、八年的信息化发展,凌乱、重复、歧义的数据接踵而至,数据集成的空间与需求日渐迫切,企业需要一个主数据管理(Master Data Manager)系统来统一企业的产品信息、客户信息;企业需要一个数据仓库(Data Warehouse)系统来提高领导层的决策意识,加快市场战略调整行动;企业需要一个数据中心(Data Center)系统来集中交换、分发、调度、管理企业基础数据。
数据集成的必要性、迫切性不言而喻,不断被推至企业信息化战略规划的首要位置。要实现企业数据集成的应用,不光要考虑企业急需集成的数据范围,还要从长远发展考虑数据集成的架构、能力和技术等方面内容。从数据集成应用的系统部署、业务范围、实施成熟性看主要可分三种架构。一种是单个系统数据集成架构、一种是企业统一数据集成架构、一种是机构之间数据集成架构。
单个系统数据集成架构,是国内目前大兴土木所采用的架构,主要是以数据仓库系统为代表提供服务而兴建的数据集成平台,面向企业内部如ERP、财务、OA等多各业务操作系统,集成企业所有基础明细数据,转换成统一标准,按星型结构存储,面向市场经营分析、客户行为分析等多个特有主题进行商务智能体现。这种单个系统数据集成应用架构的主要特点是多对一的架构、复杂的转换条件、TB级的数据量处理与加载,数据存储结构特殊,星型结构、多维立方体并存,数据加载层级清晰。
企业统一数据集成架构,组织结构较复杂的大型企业、政府机构尤为偏爱这种数据集成的架构,因此类单位具有业务结构相对独立、数据权力尤为敏感、数据接口复杂繁多等特征,更需要多个部门一起协商来建立一个统一的数据中心平台,来解决部门之间频繁的数据交换的需求。如金融机构、电信企业,公安、税务等政府机构,业务独立、层级管理的组织结构决定了内部数据交互的复杂性。概括来说此类应用属于多对多的架构、数据交换频繁、要有独立的数据交换存储池、数据接口与数据类型繁多等特点。
对于企业管理性、决策性较强的信息系统如主数据管理系统、财务会计管理系统、数据仓库系统等数据可直接来源于数据中心,摆脱了没有企业数据中心前的一对多交叉的困扰,避免了业务系统对应多种管理系统时需要数据重复传送,如CRM系统中新增一条客户信息数据后,直接发送到企业数据中心,由企业数据中心面向风险管理系统、数据仓库系统、主数据管理系统进行分发即可。
机构之间数据集成架构,这种架构多是应用于跨企业、跨机构、多个单位围绕某项或几项业务进行的业务活动,或由一个
以上三种数据集成架构,一种是对应于某一个应用系统的多对一架构,一种是完成企业内部众多系统之间数据交换的多对多架构,一种是为多个跨企业、单位机构实现某一项或几项业务活动而建立的多对多架构,数据集成的应用差不多都是基于这三种架构,每种架构可能会对应于多种数据集成的应用。国内企业常见的数据集成应用有数据仓库、数据同步、数据交换,随着企业并购、新旧系统升级、分布系统向数据大集中看齐、电子商务的发展、多个企业单位协同作业等等众多业务需求的诞生,数据集成的应用开始纷繁异景起来。
目前大部分数据集成软件厂商都是围绕数据仓库(Data Warehousing)、数据迁移(Data Migration)、数据合并(Data Consolidation)、数据同步(Data Synchronization)、数据交换(Data Hubs或者叫主数据管理:Master Data Management)这5种常见的企业应用形式来发展各自的产品技术。
数据仓库(Data Warehousing)应用:
数据仓库的发展在国内差不多有近10个年头,数据仓库中的数据集成应用主要是围绕ETL的功能来实现,一般来说其主要功能是将多个业务系统不同种数据类型的数据抽取到数据仓库的ODS(Operational Data Store)层,经过转换,加载存储到星型结构的DW(Data
Warehouse)层,为满足不同主题的展现应用,再向关系型数据库或多维数据库进一步汇总加载,其ETL功能可由手工编程或专业工具软件这两种类型来实现。
尤显重要。如航空公司与航空机场之间的数据同步应用、证券交易所与证券公司之间的股票信息同步、金融业的汇率信息同步等等,影响数据同步的实时性与可靠性的因素会有网络的连通性、传输效率、数据接口、数据格式等,这些诸多因素都属于数据集成中的数据同步要解决的问题。
数据交换(Data Hubs)应用:
或者叫主数据管理(Master Data Management)应用,这种数据集成的应用越来越受企业的重视。一般构成企业主要的基础数据分别是客户数据、产品数据、员工信息数据、供应商数据,要从企业多个系统中快速、可靠地建立唯
一、完整的企业主数据视图这就是主数据管理。要实现企业主数据管理应用的数据集成平台,必须具备有良好的数据连通性、良好的数据质量探查与分析、良好的数据转换能力等特点。文中上述提到跨多个企业、单位机构的架构就是一个典型的主数据管理应用,如公安局、工商局、税务局、人事局、劳动社保局等这些众多政府机构主要是围绕2个基本主体进行各项事务活动,一个主体是个人,另外一个主体是企业单位,而众多政府机构对这2个主体的信息数据要求重点不同、数据处理顺序有先后,数据变更有各异,数据交换复杂、频繁,而最理想的境界是这2个主体数据能做到最大程度的同步,这就是主数据管理的思想。
以上五种数据集成应用解决方案在国内最常见的首当其冲的是数据仓库的应用,最复杂的应用应该是数据交换了,不管是简单还是复杂的应用都以ETL技术为基础,ETL技术成为了数据集成的核心技术,伴随ETL技术的还有数据连通、数据质量、数据清洗、数据联邦、Real-Time、数据探查等技术,为了提高数据集成的安全性、高效性、可扩展能力,还有SOA、HA、GRID等相关技术作为支撑。
ETL(Extract、Transform、Load):数据集成视数据抽取、转换和加载为最基础、最核心的三项技术,这三个执行步骤可根据系统环境特点进行调整顺序,典型的应用有ELT的顺序。如源与目标为同种数据库、或共用一个数据库时,可将数据从源直接抽取到目标然后再进行转换,效率会大有提高,专注此类特点的产品以Oracle的ODI为代表。
数据连通(Data Connective):良好的数据连通性是数据集成的能力体现,一般通用的关系型数据库、ODBC、XML等数据连通类型为常见类型,还有一些就是大中型企业常用
的ERP、CRM、BPM、OA等应用软件为封闭式的系统,如SAP、Seibel、Lotus等系统的连通,因此良好的数据集成平台需要提供来自更多企业的数据连通接口,抽取源与装载目标的范围也就更广阔。
数据质量(Data Quality):数据质量越来越被企业重视,数据质量的技术范围也越发宽广,开始慢慢被剥离出数据集成的范畴。企业不能根据标准不统一、歧义、不正确的数据快速做出决策,只有站在高质量的数据基础之上做出的决策才不会发生方向偏倚。通常实现企业数据质量管理会包括源数据的探查、数据质量的评估、数据集成、数据的完整和数据的监控这五个步骤。数据的完整一般是指根据现有基础数据作其它数据项的扩展和丰富,如根据客户的联系方式来丰富客户的所属地区数据项、根据客户身份证号码来丰富客户的所属地区、年龄、性别等信息。
数据实时(Real-Time):对于实时数据仓库系统、数据同步等应用都会用到数据实时技术,一个系统的数据发生变化后,能即刻将变化的动作同步到另一个系统这就是数据实时技术的主旨。关系型数据库、AS400、MQ Series、ADABAS等系统都有自身的实时数据策略,如Oracle数据库的实时可以通过Trigger或Log Miner分析归档日志方式来实现。
诸如以上ETL、数据连通、数据质量、数据实时等技术,还有数据联邦、数据清洗、HA、Grid、Partition、SOA技术,这些都是保证数据集成平台的可扩展性、安全性、高效性、简便性的通用技术。
神州数码公司面向各行业提供有多家数据集成整体解决方案的经验,整体解决方案包括有企业数据集成业务咨询、企业数据集成平台产品、各厂商数据集成底层软件共三大块。
数据集成咨询
神州数码的业务咨询具体指对企业各个层次的数据对象进行调研,给出企业数据管
理现状分析报告,为企业的数据管理进行数据标准定义,根据企业特点提出更优的核心数据管理机制建议,设计适合企业长远发展的数据管理机构体系和工作管理流程,并对组织结构进行岗位职能设置。 数据集成平台
神州数码的数据集成平台是企业数据管理部门的工作手段,须依赖于一套严谨的数据管理规范。数据集成平台是以企业数据统一存储模型作为依托,提供完备的数据存取、清洗、转换等处理功能,为企业各业务部门提供准确、单一的数据服务,并对数据服务各环节进行审批、监控、分析和管理。 数据集成产品
神州数码公司专注为中国重要行业提供全方位IT服务,集合全球资源,立足国内市场,提供基于客户需求的,以应用软件为核心的IT服务。神州数码是世界一流的数据集成产品厂商的总代理,其中包括有IBM、Oracle、Informatica等厂商的数据集成软件产品。精通各厂商的数据集成产品工技术专家达数百名,为金融、电信、政府等多个行业客户提供有多个数据集成成功案例。
第四篇:国土测绘与国土GIS一体化集成探析
国土测绘与国土GIS一体化集成探析
摘 要:国土测绘是国土资源信息数据采集的基本手段。原有的CAD类平台存在数据源过多,数据使用繁琐的缺陷,实现数据测绘与GIS系统集成是当前国土资源信息管理工作中的重要任务。文章围绕国土测绘与国土GIS一体化集成有关问题进行探讨,分析了现有的测绘生产和GIS应用模式的优点和不足,重点介绍了面向测绘生产的GIS一体化集成模式的技术特点。
关键词:国土测绘;地理信息系统(GIS);集成引言
土地是最基本的生产资料和资源形式。要实施科学、高效的国土资源管理与使用,必须要对国土资源情况有一个全面清晰的掌握与了解。国土测绘是国家国土管理机关和各级政府收集国土资源信息数据的重要手段。随着经济发展水平的提高和社会活动规模的持续扩大,国土资源信息的需求不断增强,给国土测绘工作提出了越来越高的要求。由于历史原因,我国国土测绘领域中多种作业平台长期共存,其中CAD类平台占据着主要位置。不同的数据作业平台形成了不同的国土信息数据来源,复杂的数据来源影响了数据的使用与管理效率,提高了数据的应用难度。同时,随着计算机技术、网络技术等信息领域的高速发展,地理信息系统(GIS)的理论研究和实践应用都获得了巨大的进步,凭借其强大的信息收集与处理功能,以GIS为基础的国土空间数据管理与应用已经成为我国国土资源信息化建设的一个基础载体和主流发展方向。以CAD为代表的国土资源信息数据来源与以GIS为基础的信A息应用平台间的巨大冲突,给我国国土资源信息化建设的健康发展带来了严重负面影响。为保障我国国土资源信息利用管理对国家经济建设、国防安全、科学研究等社会活动方面的持续、充分的服务与支持,必须改变目前的尴尬局势。国土测绘与国土资源空间数据库和国土资源信息系统的集成是现阶段解决上述问题的有力手段。三者的集成不仅会改变国土资源数据库现势性,对于国土资源信息化应用的具体效果也有着十分显著的影响。但由于实施主体主观认识上的不足,国土资源信息数据和GIS应用数据现势性需求间脱节较为严重,导致国土资源信息系统GIS无法充分发挥应有效能,因此,必须深入推进国土资源信息测绘生产与GIS应用一体化集成工作,以实现国土资源信息的及时更新与GIS间的有机融合。当前国土资源数据测绘生产和GIS应用间的集成模式分析
国土资源数据测绘生产和GIS应用集成是针对当前国土资源信息管理中数据更新迟缓,应用效率低下的问题所开发制定出来的重要技术。目前主要有CAD与GIS混合集成和单一GIS集成两种集成模式。
1.1 CAD与GIS混合集成模式
该方法以采用通用数据格式和明码交换格式的数据为媒介,通过数据交换或转换的方法实现信息共享,从而达到CAD与GIS间的集成。该集成模式是将CAD作为仅有的国土资源数据采集生产方式,将CAD产生的数据信息按照通用数据格式或明码交换格式进行编制,经由数据交换或转换,传送到GIS系统内的业务单元,较为妥善的解决了国土资源信息数据来源繁多的问题。同时,通过使用GIS相关组件的的嵌入功能,还可以实现对国土资源空间数据进行浏览与查询。该集成模式的缺点是使用数据交换、转换作为系统集成的媒介,信息测绘生产和GIS管理两部分仍然彼此孤立存在,尽管测绘作业产生的数据通过转换或交换进入GIS系统,但后续信息处理与数据使用工作依然较为繁琐。同时,经由测绘生产出来的图形与GIS图形之间出地理空间、形状一致以外没有其他联系,此外,数据转换和交换过程中信息中的属性部分和图形部分发生分离,需要在后续工作中专门进行管理才能继续使用,增加了工作量,使得整个作业更加复杂、繁琐。
1.2 单一GIS集成模式
该模式摒弃了使用CAD作为国土资源信息采集方式,取而代之使用GIS系统全面负责信息的采集、管理和处理作业。由于整套系统采用一个规范标准,数据在使用、管理、传输过程中不必进行不必须有的转换,提高了数据的整体性和完整性。在CAD与GIS混合集成模式中由于使用CAD测绘生产数据导致的图形和属性联系不紧密,生产数据和管理数据不统一的问题得以有效解决。和采用GIS平台的国土资源管理业务子系统天然上就具有极高水平的相容性。数据入库顺畅无碍。通过GIS的嵌入组件的功能,可以直接对国土资源管理业务子系统中数据进行图形编辑、更新与出图作业,集成水平很高。
从上面讨论可以看到,作为实现测绘生产和GIS应用一体化集成的方式,单一GIS集成模式无疑更具有竞争力。但由于目前已有的测绘数据中,使用CAD技术进行采集的占据很大一部分。这部分数据依然面临更新和入库的需要。同时,CAD技术经过多年的使用和改进,技术发展较为成熟,特别是在数据采集、整理和制图方面,CAD类平台更富有竞争力。所以基于整个作业成本的原因,目前使用CAD类平台的生产单位在总体中所占据的比例更大,尤其是在大比例尺数据生产方面,CAD类平台占据着绝对优势。另外,单一GIS集成系统目前仅适用于为同一GIS平台上开发完整的测绘子系统并与业务系统的集成,不同GIS平台间的业务系统数据共享还是只能采用数据交换或数据转换的方式实现。面向测绘生产的GIS一体化集成模式
基于上面两种集成模式所具有的优势和不足,为更好地实现数据生产和国土资源信息管理系统间的集成,一种在符合当前数据生产实际情况的同时,很好地适应GIS空间数据管理应用的新型集成模式,以GIS为核心的面向测绘的一体化集成技术形成了。该模式通过测绘数据和GIS数据一体化,以GIS为平台进行数据的管理和控制,测绘数据和GIS数据的更新则有测绘平台负责实现,从而实现数据采集、内业处理、质量检查、版本控制、入库更新、应用和编辑更新等作业的规范化和流程化。该模式具有以下几方面的技术特性:
2.1 规范化的空间数据组织结构及数据更新机制
空间要素编码、数据分层和存储组织构成了空间数据组织;而描述GIS数据和测绘数据间的对应关系,包括存储映射描述和分层组织描述的功能则由数据映射关系组织予以实现。该组织中对数据更新过程中数据库服务器的访问方式,位置,存储方式进行了明确说明。
2.2 数据更新模式呈现出多层次特性
该系统在数据更新方面存在多个层次的系统模式:一是参考引用模式,该模式主要应用于标示空间数据,没有编辑数据功能。二是定期更新模式,该模式采用文件级更新力度,通过导入文件进行更新。主要用于现势性较弱、更新频率较小和对具体业务涉及不大的空间数据。三是实时更新模式,该模式是系统数据更新的关键部分。针对涉及具体业务、现势性较强的空间数据进行更新。在该模式下,数据更新引擎对测绘平台更新的空间数据进行实时入库更新。每次更新都需依照数据管理规范进行,避免随意性。结束语
具有上述优势技术的面向测绘生产的多引擎驱动GIS一体化更新系统,在实际工作中较为充分地实现了测绘生产和GIS应用间的无缝集成,该集成模式通过数据冗余技术,构建了以GIS为核心的存储体系,而对象粒度级的测绘数据和GIS数据的空间关联工作,则交由商业测绘单位通过二次开发实现。同时,该系统通过开放式的GIS引擎接口更新技术实现不同GIS平台数据库间的信息实时同步更新,证明了数据测绘生产和GIS一体化集成理论的可行性与可靠性。
参考文献
[1]邓美容,王晓娟,等.房产测绘GIS的研究与应用[J].电脑知识与技术,2009,5(11):2873-2874.
第五篇:企业数据论文
企业管理离不开大数据的应用,以下是小编收集的相关论文,仅供大家阅读参考!
一、培养大数据高端人才
大数据管理与大数据应用都离不开大数据技术,但更离不开大数据人才。没有人才,再先进的设备只能是“豪华摆设”;没有人才,再先进的技术也只能是“纸上谈兵”。因此,推进大数据管理,除了需要培养一大批优秀的IT人才外,还迫切需要培养一大批大数据人才———数据管理师、数据分析师,造就一批数据科学家等高端人才。因为只有他们才能驾轻就熟处理海量的信息,并从中挖掘出“数据财富”。此外,面对全体员工传播大数据知识,普及大数据技术,培训大数据技能,奠定推进大数据管理的群众基础和技术基础,同样也是一项长期而艰巨的任务。
二、构筑大数据管理“一站式”工程,建设“大数据管理智库”新平台
1.加强内、外部数据的“一站式”管理。对企业来说,数据无处不在,无时不有,究其来源,无非企业内部和外部两个渠道。内部数据的活水源头是各单位、各部门、各专业的统计报表提供的数据;外部数据一方面是国家管理部门、行业管理部门、权威机构等发布的统计数据,另一方面是来自互联网、移动互联网、各种传感器等信息感知和采集终端采集的数据。这些数据,日积月累,最终“百川归海”,汇成大数据的海洋。大数据时代,企业通过建立“大数据管理智库”,打破渠道的边界,把不同来源的数据整合在一起,实施一站式管理,让数据时时刻刻为企业提供服务。
2.注重数据挖掘环节的“一站式”管理。企业数据挖掘过程也是数据发现和梳理的过程,其有4个重要环节:采集、存储、分析、预测。企业建立了“大数据管理智库”,对这4个环节实施一站式管理,可以大大“提纯”数据价值。首先是尽可能采集异源甚至是异构的数据,去伪存真,多角度验证数据的全面性和可信性。其次是要用到冗余配置、分布化和云计算技术,分类、过滤和去重,减少存储量,同时加入便于检索的标签。第三是将高维数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,导出可理解的内容。第四是将数据分析后预测出的结论应用到企业中去。
3.突出价值链上数据的“一站式”管理。企业价值链可以分为基本增值活动和辅助性增值活动两大部分。基本增值活动,即一般意义上的“生产经营环节”,如材料供应、成品开发、生产运行、成品储运、市场营销和售后服务。这些活动都与商品实体的加工流转直接相关;辅助性增值活动,包括组织建设、人事管理、技术开发和采购管理。价值链的每一个环节都有相伴而生的数据。过去这些数据处在分散状态。大数据时代,企业通过“大数据管理智库”平台,对这些数据实施一站式管理,有利于每一个环节的价值再创造和价值链的增值。
三、构筑大数据管理“一体化”工程,打造“大数据管理融合”新生态
1.大数据与云计算技术融合。大数据作为非结构化和电子化的海量数据,数量之大、类型之多、变化之快,前所未有。以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,从而构建起了一个与物质世界相平行的数字世界。国有企业推进大数据管理,就必须建立和完善自己的云计算系统,否则,就是“巧妇难为无米之炊”。
2.大数据与市场调研的融合。大数据时代,没有数据是不能的,但数据也不是万能的。比如:数据不懂社交、不知道背景;数据不能反映客户的心理;数据分析擅长的是“量”而非“质”等。因此,国有企业在推进大数据管理时,如果将传统的市场调研智慧与大数据的巨大威力相结合,可能会在定性分析和定量分析方面产生巨大的优势。尤其在背景分析、心理分析方面,可以弥补大数据的短板。大数据时代,没有调查研究、没有大数据,就没有发言权,就没有决策权。
3.大数据与信息化建设融合。大数据发轫于信息化建设,伴随着信息化建设的进程同步成长,但同时又遵循自身发展的规律,自成一体。改革开放以来,国有企业在信息化建设方面迈出了坚实的步伐,这为推进大数据管理奠定了扎实的基础和一个高的起点。大数据时代,可以真正实现大数据管理与信息化“一体化建设”,相互促进,共同发展。
4.大数据与电子商务的融合。大数据与电子商务是“前店后厂”的关系。电子商务在前台直接面对客户,大数据则在后台充当“幕后英雄”,默默无闻为前台提供强大支撑和优质服务。电子商务作为一个新的商业模式从真正的兴起、发展,也仅仅只有短短十多年的时间。实践证明,电子商务相较传统的钢铁贸易交易,能够极大节约时间、人力、资金和渠道成本,能够更快速、更深入、更广泛的开发消费市场,同时,也能够密切联系供应商、采购商、服务商等产业链上的各个环节,不断拓展企业的发展空间。当前,由于制约钢铁企业电子商务发展的因素还很多,因此,钢铁企业电子商务发展非常缓慢,这显然落后于时代前进的步伐。相信在大数据时代,电子商务将焕发出勃勃生机,成为钢铁企业独领风骚的新的商业模式。