第一篇:关于数据仓库建设的发言稿
尊敬的各位专家、各位领导:很荣幸能有这个发言机会,我的发言包括3部分内容即“充分利用数据库与中间件技术构建健壮与可伸缩性的系统”、“按照科学的原则构建数据仓库模型”、“关于数据仓库建设的一些思考”,其中前2个问题在我的项目介绍与应用创新已经有所描述,由于时间的限制下面仅对第3点进行一下介绍。
1、充分利用数据库与中间件技术构建健壮与可伸缩性的系统:
就软件工程的发展来看,大致经历了从过程-面向对象-面向服务(群体)的阶段,虽然需求分析以及软件开发过程的质量控制对项目的结果的重要性不言而喻,但就本人多年的经验看客户的需求是时刻处于变化中的,这里有客户与开发者当时认识上的问题而更重要的的市场变化的要求,因此我们开发的系统要具有很强的伸缩性与高扩展性就显的尤其重要,而构建一个应用的基础架构则是降低应用开发难度、提高开发效率、缩短开发周期、快速适应市场与客户需求变化的基石,那麽它有是怎样保证上述目标的呢?本人在此总结如下2点:
1)通过在基础层对通讯、认证、加密、数据库与业务处理的封装实现
系统逻辑与业务逻辑的分离,使业务人员与应用工程师只注重业务
逻辑的实现而不必关心具体的技术细节,这种专业化的分工能很好的保证系统的质量,它使系统更健壮。
2)通过业务处理模块的构件化提高系统的灵活性,我们将实现某个业
务逻辑的最小单元称之为“业务构件”,而这些业务构件是通过基础
架构平台管理与调度来完成具体的应用,因此当以后业务发生变化
或出现新的需求,我们只需编写新的业务构件并部署到基础框架中
就OK了。
2、按照科学的原则构建数据仓库模型
构建数据库仓库模型是数据仓库建设中的非常重要的一环,而数据模型的建立当然依赖于设计人员的经验与对业务与相关技术的掌握,但按一套科学的原则来指导则会起到事半功倍的目的,通过我们对华夏基金管理公司数据中心建设,从中摸索了一些经验供同仁参考:
1)从业务角度出发,而不是从技术角度出发
数据中心是一个为领导层和业务部门提供数据分析的平台,其最终用户是业务部门,而不是开发系统的技术人员,所以毫无疑问主题的划分要从业务工作流程的角度出发,比如分为基金投资人、基金管理人、基金销售人等,这样才能真正方便业务人员的理解和使用,因此我们的模型的建立是从业务分析建立业务模型开始。
2)主题相互独立,关联度达到最低
主题划分也就是分类的原则,很重要的一点就是分出的类别要独立性好,自耦合性高,相互之间关联度低。
3)能多地涵盖公司的业务
本项目的目标是为全司构建一个完整的数据仓库平台,为了达到这个目标,在需求分析时要尽可能多地涵盖公司业务,制订出具有前瞻性的需求分析报告。在此基础上设计出的模型,才是一个完整的数据仓库模型。
4)数据仓库与数据集市采用不同的建模方式:
关于数据仓库建模方式的争论好象从来没有停止过,一派为E-R模型的代表者,而另一派则主张FD(纬度事实/纬度指标)的建模方式,而我本人以为这两者
各有各的优点,一般说来数据仓库应该是一个企业级的数据库,而数据集市是面向主题与分析的,就粒度而言前者应该是细粒度的而后者一般较前者高,就构建方法而言本人以为前者用E-R模型较好,而后者则比较适合用FD(纬度事实)构建多维模型,我们在实际应用中综合使用的这2中方法取得了较好的效果。
3、关于数据仓库建设的一些思考
公司的数据仓库建设是一个非常复杂的系统工程,其中要有公司主要领导牵头和各个业务部门与技术部门的密切配合这些重要性不言而喻,但我这里想要强调的是如下问题的解决:(可选)
由于数据仓库建设是一个非常复杂的系统工程,这种复杂性带来的结果往往是开发周期很长,不容易快速见到效果,这样一来会引起业务部门的不满,而开发者也由于没有很快得到成就感的满足而丧失信心而导致项目的失败;或者由于急功近利快速先搭建一个系统,由于当时的基础不牢而造成以后大量的返工甚至重建,那怎样有效地规避上述问题呢?
本人认为虽然这不是1+1就=2这样简单而明确的命题,但还是有一些方法与原则来控制的,总的说来就是在数据仓库的建设上将长期基础建设与短期见效很好的结合到一起,具体来说就是整体规划而分步实施,所谓整体规划就是要将数据仓库建设的基础打牢,我们从公司的业务分析入手,通过构建业务模型来建立公司级的标准/基础数据模型,然后在此基础上构筑面向各个主题的数据集市,按照我个人的经验,建议数据模型在逻辑上根据企业的实际情况划分3层-4层,即原始数据映像层-标准/基础数据层-初步汇总层-数据集市层,如果从标准/基础层生成数据集市的算法较复杂或需要一些中间统计汇总报表则需要初步汇总层,该层是可选的,而3层-4层结构中重点是标准/基础数据层模型的建立;而所谓分步实施则是指在公司的标准/基础数据层搭建好以后,按系统的重要性和业务要求的轻重缓急,按每个主题单独立项分步实施。如:华夏基金分成投资人分析、营销、投资与风险等而第一期先上投资人分析使相关业务部门很快的见到数据仓库的建设成果,达到了比较好的效果。
以上是我个人在实际项目中的几点总结,请各位专家领导指正,再次感谢!
附件1:前几天我看到国务院发展研究中心原副主任陈清泰先生的撰文“技术可以购买,技术能力是买不来的”,撰文说,有关资料表明,日本引进技术的时期,平均花一美元引进技术,要花约7美元进行消化吸收和创新。韩国也大体相似。改革开放以来,中国引进技术的项目数和总支出可能比日本与韩国之和还要多,但用于消化吸收的费用只相当引进费用的7%,与日本差了100倍。
而我们的数据库与软件的应用又何尝不是这样呢,这里有各方面的原因,但不容否认这与我们很多数据库研究人员、应用开发人员与管理人员的内心浮躁不无关系的,这种浮躁容易走上2个极端,一是盲目自大认为我们数据库产业与国外并无差距我们很快就会有世界顶级的数据库,这种远大的理想与抱负当然非常值得提倡,但问题是往往对国外的现有技术与技术发展趋势没有下工夫研究吃透就想打造自己的宏伟蓝图,这是不可取的,我们要学会站到巨人的肩膀上思考问题;而另一个极端是盲目悲观,墨守陈规思想就认为人家不可逾越,从而不甘越雷池一不步。
因此我们要丢弃浮躁的心态,踏踏实实地做事真正作到对先进知识的引进然后到消化吸收,最后到创新的飞跃。
第二篇:数据仓库建设方案
1.数据仓库概述
经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。
在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。
数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。
Page 2 of 7 2.全域数据库总体架构
展示层应用层多维分析门户统一授权服务手机平板电脑单点登录PC即席查询报表统计统计分析预测分析分析型管理流程整合数据整合空间数据其他应用基础服务层应用服务器服务总线工作流引擎消息中间件OLAP引擎数据挖掘引擎事件驱动规则引擎协同工作主数据管理引擎大数据分析引擎知识内容管理引擎空间地理数据引擎数据存储区OSD数据仓库数据集市特征库模型库预测数据地理数据MDMHUB共享数据库大数据流媒体数据信息治理、元数据管理IT安全运维管理IT综合监控交换服务体系数据联邦数据复制数据清洗数据转换大数据流消息队列流程服务信息服务交互服务消息服务数据层(ISB)应用层关系型数据源非关系型数据源传感器/监控数据源核心业务边防一体化其他XMLExcelWeb服务消息队列文本数据摄像头虚拟传感器智能传感器基础设施层(网络、存储、硬件、系统软件)全域数据库总体架构
全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML、EXCEL等,也包括各个总队、支队的业务数据源。
数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX层面保证
Page 3 of 7 了数据的完整性和及时性。信息服务主要使用两种技术来完成这一功能:联邦和复制。通过联邦功能可以把关系数据、半结构化数据(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查询和内容源)组成一个逻辑数据库,对这些数据源中的表可以像操作本地数据库表一样进行操作,而不必关心我们操作的这些数据底层是什么数据源,物理在什么位置。而针对大数据量的数据访问或高并发的访问,通常将源数据增量实时复制到本地,复制的实现是基于对源数据库的日志进行捕获,获取增量数据,并基于消息的机制将其复制到目的数据库,复制的过程中可以实现数据的合并、拆分、转换等操作。
信息服务总线主要完成数据的分析、清洗(标准化)、转换、加载等工作。数据清洗,主要是去除冗余数据,将零散字段合并成全局记录,并解决重叠和矛盾的数据,然后通过添加关系和层次结构完善丰富信息。首先面临的挑战就是如何更有效的识别现有的业务系统,包括业务系统使用的分类方法、层次结构、数据分布、数据字典等。如果数据字典不完整或缺失,就要通过方法找出其数据的存储结构以及各个表之间的主外键关联、各表之间的转换关系等,同样,数据的分布情况同样可以使用分析功能来完成。在对现有数据足够了解的基础上(完成了数据的分析),接下来就要制定数据的清洗规则以及转换规则,其中,清洗规则又分为两种情况,一种清洗规则是明确的,另一种清洗规则是模糊的,比如不同系统中存储的地址信息,“南京市定淮门大街9号”和“江苏省南京市下关区定淮门大街9号”实际上是一个地址,但计算机会当成两个地址来处理。概率匹配功能和动态权重策略可以匹配创建高质量、准确的数据,并在整个数据域中一致地识别核心业务信息,如人名、位置、和时间。
数据清洗、转换、加载服务对保障数据的准确性和一致性非常重要。在不同的系统中,对同一业务会使用不同的分类方法,同样,数据的类别和层次结构也会不同。需要通过数据清洗、转换、加载层实现对这些信息格式的转换,匹配成通用的信息格式和分类方法,以便提供整个XXX业务层面聚合的业务视图。实际证明一体化平台(一期)的全域数据梳理中,手工统计可以完成这项工作但不够好,不够直观和没有扩展延续能力。数据清洗、转换、加载工作对未来数据的使用非常重要,即使有工具帮助,工作量依然很大。虽然,开始的时候,这项工作看起来费时费力,但从长远来看,它使得基于这些数据的业务流程和统一数据视图实现自动化,并减少了人为干预不准确或不一致数据的努力,从而节省了大量成本。XXX层面的单一视图一经建立,其维护必将是一个持续进行的过程。
Page 4 of 7 数据的管理通常需要一个管理组织来对冲突或缺失的数据进行决策,组织会通常需要各个业务部门的人参与,而不仅仅局限于通技处或信息中心的人。XXX单一数据视图的维护,很多业务部门都做的不够好,时间一久,很多业务部门就变得厌倦,数据清洗转换的工作没有坚持下去。一旦数据的准确性出现问题,业务系统的全局共享就无法再从中获益。
交换服务体系中的服务总线主要基于流程服务、传输服务、交换服务等实现。通过使用总线,可以支持各种协议以及数据格式的数据交互。通过搭建一个基于标准的、开发的、易于集成的、总线方式的服务总线,通过今后对现有系统的逐步升级改造,系统之间以一种成为“服务”的接口方式统一通过总线方式进行交互,通过对服务的管理,系统之间交互的信息格式的差异、传输协议的差异、采用技术的差异、物理位置的不同等等这些问题都由这个总线来进行屏蔽。进一步通过流程管理,将模块和系统之间的服务按照业务流程的需要进行编排,做到了“随需而变”。
数据存储区包括ODS、数据仓库/数据集市、共享数据库、特征库、模型库等,主要提供各种数据的存储服务。其中,逻辑视图中ODS部分存放了整个XXX单位全局级的明细数据,而数据仓库数据集市中存储了不同级别的汇总数据。特征库主要存放各种数据分群特征、业务分类特征等业务信息,模型库存放构建的各种业务模型信息等。
基础服务层主要包括“应用服务器”,“服务总线”,“工作流引擎”,“消息中间件”,“OLAP引擎”,“数据挖掘引擎”,“事件驱动”,“规则引擎”,“协同工作”和“空间地理数据引擎”。
应用层包括各种应用,其中多维分析、即席查询、报表统计、图形展现等。右边的信息治理层主要是为了保证数据的完整性、一致性、准确性、及时性,保证历史数据正确归档并在需要的时候可以和现有数据一起被联合访问,提供数据库安全、审计、监控和合规服务,从而防止内部人员偷窃,防范欺诈作假,保护数据隐私,强制执行安全规范,强制满足合规的要求,防止外部攻击对数据的破坏。
而元数据管理会贯穿数据业务层面、业务系统、信息整合服务总线、ETL层、数据存储区、信息服务层、展现层等各个层面,当数据口径出现问题时,能够提供数据在各个层面的正向/逆向追踪功能。元数据的管理涉及业务元数据和技术元数据两种。
Page 5 of 7 3.数据仓库架构
离线报表多维分析即席查询报表统计数据挖掘决策管理预测分析ODS数据仓库逻辑数据仓库层数据集市共享数据视图信息治理数据清洗、转换、加载 信息整合服务(联邦、复制)元数据管理基础数据干部数据梅沙数据空间数据警务数据其他数据库交换数据库数据交换相关业务单位数据仓库总体架构
1)多维分析
从数据的全方位了解现状,管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、类别、功能来看同一类数据的总和。每一个分析的角度可以叫做一个维,因此,把多角度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产生了在线多维分析功能,根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,将不同角度的信息以数字、直方图、饼图、曲线等等方式展现在您面前。
2)即席查询
可以将数据进行查询分组,进行资源的管理,可以设置查询优先级,可以自动控制,调度复杂查询和进行跟踪分析查询。可以按照以下重要方法进行使用,主动和动态地控制 数据库的查询流程,为不同大小的查询定义不同的查询类别,从而改善查询之间的系统资源共享,避免较小的查询被较大的查询阻塞等。
Page 6 of 7 3)数据挖掘
数据挖掘正如在矿井中可以开采出珍贵的矿石,在数据仓库的数据里也常常可以开采出业务人员意想不到的信息。它比多维分析更进一步。例如,如果管理人员要求比较各个区域某类出入境特征数量在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一个地区的出入境特征情况突然变得特别好或是不好,或者问该出入境特征在另一地区将会怎么样,这时数据挖掘知识可以作出解答。
4)数据仓库层
数据仓库用于抽取、整合、分布、存储有用的信息,数据信息往往分布在不同的部门和下级单位,管理者要综观全局、运筹帷幄,必须能迅速地找到能反映真实情况的数据,这些数据也许是当前的现实数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去其糟粕、取其精华,将真实的、对决策有用的数据保留下来,随时准备管理人员使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了丰富的工具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条有理,易于使用。
Page 7 of 7
第三篇:浦发银行数据仓库建设
浦发银行数据仓库建设
项目背景
整个 CDL 项目组总整合前 CIM,梳理现有集市,包括 1104 等数据和业务的涵盖范围,以:避免各个应用独自建设基础的重复数据,如客户、账户基础信息等;整合各个应用的共性,提供大的数据集市(CDL 名称由来);提供基于仓库的,逻辑清晰的业务数据,供总分行各业务窗口使用;减轻仓库运行负担,缩短仓库运行时间窗口;
解决以下问题:
● PDM 层的数据都是技术架构的描述,并且组织结构非常复杂
● 决策人员、业务分析人员知道业务需求,但是不知道数据在哪里?● 不同模块或者系统之间的表达方式也不一致
● 没有统一的数据管理平台,经常会产生各系统数据口径不一致的现象
2.系统的核心价值
● 建设以业务视角为中心的数据层
● 为业务人员提供一致的统计口径
● 把 PDM 的复杂结构用简单的方式呈现在业务人员面前
● 减少大量的、重复的、复杂的运算
● 业务人员能集中精力的根据自己的需求来挖掘和统计各类信息● 技术人员可以节省大量的时间来应付业务人员的各种需求
3.项目目标
浦发银行要求该项目的基础数据由数据仓库提供,为适应 CCRM 项目的需求,从业务角度出发,需要整合所有对公数据,分别从客户、账户、业务产品为视角,进行对公数据的提升整合。基于数据仓库,成立一个数据集市项目(CDL 组),为适应 CCRM 项目提供数据。
4.系统技术架构
5.实现的功能
● 构建在数据仓库 PDM 与应用数据集市之间
● 从业务的角度,具有共性、可被多个应用复用的基础数据
● 把技术的语言转换成业务语言来描述各项指标
● 提供统一的、规范的业务口径供业务人员使用
6.实现CDL内容
● 客户信息部分:客户基础信息、客户的衍生信息、客户的汇总信息、客户的分析信息
● 客户账户部分:账户基础信息、贷款账户部分,借据层账户信息、合同层借据信息、分期付款信息。
● 表外账户信息:银行承兑汇票、国际、国内信用证(包括进口承兑,出口交单等)、国际和国内保函、保理、委托贷款、结售汇等业务信息。
● 业绩分配 · 绩效考核纳入统一的 CDL
◇员工的业绩分配信息,新增来源表业绩分配关系历史,记录账户对应员工的分配比例;
◇所有的对公账户核算业绩分配情况,账户能对应到员工上的分配比例给员工,否则给机构;
◇根据账户中的产品号对应 CCRM 产品树,关联出模拟利率,核算基本模拟利率;
◇业务部门提供业务口径的核算方法,最终业绩分配需要减去资产成本和风险成本等;
◇提供账户分配到员工后的存贷款规模、中间业务手续费收入等,计算出按账户、客户、产品为粒度的模拟利润、风险成本、资本成本等信息
● 表内、表外账户信息汇总到客户、产品粒度
◇汇总到客户粒度的信息,大类分为三类,存款、贷款和中间业务手续费;◇汇总到业务产品粒度的信息,同一客户下所有以产品分类的信息汇总到一起,以产品树为依据,产品树分币种,分期限;
◇汇总了一些常用的业务指标信息,如贷款累放、累收,特有中间业务手续费等信息;
◇表内汇总信息关心当前余额、上日月年余额、积数、日均等余额类信息,并且汇总折人民币,折美元后的余额
◇表外汇总信息关心各类票面金额、余额、保证金、敞口信息以及由表外业务产生的各种手续费。
第四篇:数据仓库总结
数据仓库系统与传统数据库系统的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。
数据挖掘的步骤
1.描述数据---计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。
2.历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。
3.验证你的模型
数据挖掘与传统数据分析方法区别
(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
数据挖掘方法与过程
方法:决策树 关联规则 人工神经网络
粗糙集理论
遗传算法
过程:1.对数据库数据整理,抽取出用来完成特定挖掘目标的数据集。2.选择合适的挖掘方法和工具,在领域专家指导下进行知识获取研究3.对事物的发展进行预测
数据采集与处理:从数据仓库中选取相关的数据集合。知识库:指导数据挖掘和评价挖掘结果。
数据挖掘:对数据仓库中提取的数据进行分析处理。
知识评价:是以兴趣度作为衡量标准来查找和选择对最终决策活动友有益的的知识。
OLAP与数据挖掘(DM)的比较 相同之处:OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处:(1)前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。
(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。
OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
OLTP
OLAP 面向人群
业务系统的操作、维护人员
管理、决策者 功能
日常操作处理
分析、决策辅助 实现方式
基于交易的处理系统
基于查询的分析系统 应用场合 面向生产应用
面向特定主题 数据库设计
实体-联系模型
星形或雪花模型 数据
当前的、最新的细节数据
历史的、聚合的数据 响应时间
对响应时间要求非常高
查询时间长
数据仓库与数据集市的差别
(1)范围不同:数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。
(2)粒度不同:数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。
(3)数据组织方式不同
数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。
数据仓库:是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。
数据挖掘:(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
聚类分析:聚类(clustering)就是将数据对象集合进行分析,将数据集划分为多个类或簇,使得同一类中的数据对象之间具有较高的相似度,而不同类之间的数据对象具有较大的差异度。将上述分析过程称为„„
粒度是指数据仓库中记录数据或对数据进行综合时所使用的时间参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。
数据分割后的数据单元称为分片。
元数据:元数据是数据仓库数据本身信息的数据。不仅包括在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,而且还包括关于数据含义的商业信息。
OLTP:是传统的关系型数据库的主要应用,主要面对基本的、日常的事务处理。
OLAP:是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。OLAM:OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。数据仓库系统的四个层次体系结构:数据源 数据的存储与管理 联机分析处理
前端工具 数据仓库设计需考虑的四种视图:自顶向下视图 数据源视图 数据仓库视图 商务查询视图 数据仓库设计
自上而下 自底而上
混合的方法
数据仓库建模
数据仓库通常采三层结构:底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具 ETL:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
神经网络:神经网络是由许许多多的被称为神经元或网络节点的基本单元构成,而这些基本单元则模仿了人脑中的神经元。将多个基本单元以某种适当的方式连接起来,就构成了神经网络。
决策树:又称为判定树,是一个类似于流程图的树型结构。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。在决策树的图形表示中,矩形表示内部结点,椭圆表示叶子结点,短线表示分枝,分枝上的标注表示一次测试的输出结果。
关联规则:是数据挖掘的一个重要内容,它反映了一个变量与其他变量之间的相互依存性和关联性;其中,关联是指在两个或两个以上变量取值之间所存在的某种规律性。关联规则挖掘:是为了发现变量之间的这种依存性和关联性的规则,并利用令人感兴趣的规则来预测多个变量之间潜在的关联或是通过其他变量来预测一个变量的存在。
文本数据挖掘:也称文本挖掘,它是将文本信息源作为分析对象,利用智能算法,并结合文字处理技术,分析大量非结构化文本源,从中寻找信息的结构、模型、模式等各种隐含的知识。
遗传算法:是一种基于生物进化过程中自然选择与遗传机制的模拟算法,该算法是模拟达尔文主义“适者生存”思想的一种全局优化方法,实质是一种繁衍、检测和评价的迭代算法。
数据分类的基本技术有:判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等; 预测的方法主要有:线性的、非线性的、广义线性回归。
数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。元数据(metadata):关于数据的数据。粗糙集:能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。
用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。
对数据立方体的典型操作包括:切片、切块以及旋转等。多维数据模型:是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员(Member):维的一个取值,是数据项在某维中位置的描述。度量(Measure):多维数组的取值。
星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表。事实表:包含大批数据和不含冗余的中心表
维表:附属表,每维一个表
雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中。
多维数据模型上的OLAP操作:有钻取、切片和切块、以及旋转等。
钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置。
OLAM产生的原因
一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:
1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。
2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。
3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。
另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:
1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。
2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。
3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。
两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。
数据仓库、数据挖掘在电子商务中的应用
1.控制商品库存
对于零售业,库存销量比是一个重要的效率指标。通过使用数据仓库,企业可以随时跟踪库存,及时通过网上供货商补充,实现了库存商品的有效控制。比如美国沃玛特连锁店,数据仓库规模从最初的6 万亿字节增加到现在的100 万亿字节,实现了存货少效益高的良性循环,始终保持着行业领先。2.减少跳线率
对于航空、银行等服务性行业,由于行业竞争激烈,存在“跳线”的现象,即客户从A 公司跳到B 公司,几个月后又重新回到A 公司,导致企业资金浪费。采用数据仓库后,进行数据挖掘,预测客户跳线机率,在客户跳线之前尽可能挽留,减少跳线率。3.客户跟踪
目前在电子商务网站中,84%的在线交易没有跟踪客户;96%的在线交易不能提供符合客户的个性化服务;75%的在线交易无法辨别重复客户;导致电子商务企业不能抓住已有的客户,更不用谈潜在客户的发展,丧失了该部分重要的资源。随着客户个性化需求的逐步增加,电子商务企业更是无从招架。当启用数据仓库后,网站能够对客户的信息以及浏览页面进行整理并存储,当客户再次访问后,数据仓库就会为客户提出相应的扩展服务,使顾客能够更加信任该网站,进而提升了该企业的效益。4.聚类客户
在电子商务中,通过客户相似浏览行为和客户的共同特征进行分析,深层次挖掘和分析企业的客户、市场、销售、服务与支信息,可以帮助电子商务的组织者及时了解客户,尽可能满足客户需求,向客户提供更适合的服务。
5.提供优质个性化服务,提高客户忠诚度在电子商务活动中,网站的内容、标题、奖励方案、服务等方面都可能吸引客户。由于电子商务网站的众多,客户可以很方便的在网站间切换,因此电子商务网站应该能够对客户访问信息进行挖掘,通过客户的浏览行为,从而了解客户的忠诚度、喜好及需求,快速调整WEB 页面满足客户的需求。比如京东网,通过分析客户浏览的页面,运用数据挖掘中的序列模式发现技术进行挖掘,可以把客户需求的相关物品呈现出来,方便客户挑选,6.提高点击率,完善电子商务网站设计通过数据挖掘技术,分析客户的行为记录和反馈行为,电子商务企业可以更加有效地优化网站结构,提高网站的点击率。例如通过关联规则,针对客户需求,调整站点结构,把客户访问过的有关联的文件进行直接链接,从而使客户很容易访问想要的页面,增加客户再次访问的概率。
7.决策信息服务
数据仓库用于实现对决策主体数据的存储和综合,通过从源数据库中抽取、清理、集成和转换,提供标准的报表和图表;通过从多种角度构建多维数据模型,采用联机分析处理实现多维数据分析;进而挖掘出隐藏在数据背后的模式和信息,可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测,从而为企业提供了多方位的决策支持。
结论:由于电子商务领域拥有丰富的信息资源,为企业实施数据仓库和数据挖掘技术提供了良好的基础;同时,数据仓库和数据挖掘技术又为电子商务提供了有力的技术支持,加快了电子商务的发展和普及。在电子商务活动中,数据仓库、数据挖掘技术已成为数据管理、信息处理领域最热门的技术之一。通过对源数据的整理、归纳,它可以帮助决策者查找数据间的潜在关联,发现隐藏在数据背后的信息,不仅可以预测客户的消费趋势以及进一步的市场走向,而且可以指导电子商务企业提高网站运行效率,进一步改善企业客户关系,提高销售额,具有良好的发展和应用前景。
第五篇: ETL技术和数据仓库建设的研究
毕业论文(设计)开题报告
论文题目: ETL技术和数据仓库建设的研究
一、开题依据(研究目的、意义及国内外研究概况,附主要参考文献) 文献描述中人们对大数据时代下的定义中比较通俗一点是指“描述和定义信息爆炸时代产生的海量大数据时代”,何为大数据?大数据是从各种各样不同类型的数据中,快速获得有价值信息的一种前沿技术。大数据是指通过对海量的,种类和来源复杂的数据进行有效地捕捉,发现和挖掘分析,用经济的方法提取其数据价值的技术体系或者技术架构。所以,从广义上讲,大数据不仅仅是指大数据所涉及的数据,还包含对这些数据如何进行处理,存储和分析的理论,方法以及技术。 大数据在2000 年代初的数据热潮期间出现,软件和硬件功能是消费者产生大量信息,包括大量结构化和非结构化信息。在pc和移动智能终端迅速普及的当下社会,包括搜索引擎,移动设备和工业机械等新技术可提供持续增长并可处理的数据,每天都有数以亿计的海量数据产生,随着可收集数据量的几何倍增长,显而易见,传统数据技术(关系数据库)不适合与大量天文数据量的结构和非机构化数据一起使用。Apache软件基金会启动了第一个大数据创新项目,最重要的贡献来自于 谷歌,雅虎,ibm等。最常用的引擎是:ApacheHive / Hadoop 是复杂数据准备和ETL的标杆产品,使得海量的数据的存储和基于数据的分析变得更加便捷。 参考文献: Ralph Kimball.数据仓库工具箱(第三版) 王雪迎.Kettle 构建Hadoop ETL系统实践 占小忆.科技创新导报 |
二、主要研究内容(说明研究课题的具体内容及课题的新颖性,并明确重点解决的科学问题及预期结果) 随着行业数据量的爆炸性增长,由于数据量的大,复杂,快速变化的性质,传统的oltp系统,事务型数据库,如 mysql,oracle,sqlserver等已经不适用于对海量多元化数据进行统计分析挖掘,本文主要讨论和总结处理大数据的方法和现状,我们的目标就是探讨研究数据量大的情况如何有效处理数据(ETL)以及构建存储基础数据模型(数据仓库)便于数据能被更高效的使用挖掘分析。 “数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:“数据仓库是为支持企业决策而特别设计和建立的数据集合”。准确来说,数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策数据访问的各种技术和模型的总称。 打破数据孤岛的情况,对来源复杂的各个不同的业务系统的不同数据进行整合,建立一个大集合的数据仓库,构造正真意义傻姑娘的“客户同意试图”,让数据开发和数据分析人员能够切实掌握全面信息。为决策提供完备的数据依据。 “ETL”概念: (1)数据抽取(Extract),常规的数据抽取策略有:1)同步实现抽取;2)异步实现抽取 (2)数据清洗和转换(Transformation),数据转换工作进行的时机有:1)在抽取过程中进行数据处理;2)使用异步加载,以文件的方式处理;3)在数据加载过程中进行数据处理;4)进入数据仓库以后再进行处理 (3)数据装载(Load),数据的追加策略类型有:1)直接追加;2)全部覆盖;3)更新追加 预期结果:(1)选型部署一个ETL工具,完成数据的抽取,转换和装载,保证数据稳定持续,源源不断得从源系统进入数据仓库 (2)数据仓库的设计和模型建设,便于数据存储已经数据开发及分析人员便捷查询的分层模型构建 |
三、研究方案(研究方法、研究工作的总体安排和进度,理论分析、计算、实验方法和步骤及其可行性,可能遇到的问题及解决办法) 2021/1/14-2022/2/2 明确论文内容,进行相关论文资料的查找与翻译。 2022/2/2-2022/2/14 撰写开题报告 2022/2/14-2022/3/1 ETL常用应用研究 2022/3/1-2022/3/15 数据仓库构建研究 2022/3/15-2022/4/1 撰写论文 2022/4/1-2022/4/08 论文修改定稿 |
四、指导老师意见 指导教师签名: 年 月 日 |