ETL技术和数据仓库建设的研究

2022-03-16 16:05:32下载本文作者:会员上传
简介:写写帮文库小编为你整理了这篇《 ETL技术和数据仓库建设的研究》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《 ETL技术和数据仓库建设的研究》。

毕业论文(设计)开题报告

论文题目: ETL技术和数据仓库建设的研究

一、开题依据(研究目的、意义及国内外研究概况,附主要参考文献)

文献描述中人们对大数据时代下的定义中比较通俗一点是指“描述和定义信息爆炸时代产生的海量大数据时代”,何为大数据?大数据是从各种各样不同类型的数据中,快速获得有价值信息的一种前沿技术。大数据是指通过对海量的,种类和来源复杂的数据进行有效地捕捉,发现和挖掘分析,用经济的方法提取其数据价值的技术体系或者技术架构。所以,从广义上讲,大数据不仅仅是指大数据所涉及的数据,还包含对这些数据如何进行处理,存储和分析的理论,方法以及技术。

大数据在2000 年代初的数据热潮期间出现,软件和硬件功能是消费者产生大量信息,包括大量结构化和非结构化信息。在pc和移动智能终端迅速普及的当下社会,包括搜索引擎,移动设备和工业机械等新技术可提供持续增长并可处理的数据,每天都有数以亿计的海量数据产生,随着可收集数据量的几何倍增长,显而易见,传统数据技术(关系数据库)不适合与大量天文数据量的结构和非机构化数据一起使用。Apache软件基金会启动了第一个大数据创新项目,最重要的贡献来自于 谷歌,雅虎,ibm等。最常用的引擎是:ApacheHive / Hadoop 是复杂数据准备和ETL的标杆产品,使得海量的数据的存储和基于数据的分析变得更加便捷。

参考文献:

Ralph Kimball.数据仓库工具箱(第三版)

王雪迎.Kettle 构建Hadoop ETL系统实践

占小忆.科技创新导报

二、主要研究内容(说明研究课题的具体内容及课题的新颖性,并明确重点解决的科学问题及预期结果)

随着行业数据量的爆炸性增长,由于数据量的大,复杂,快速变化的性质,传统的oltp系统,事务型数据库,如 mysql,oracle,sqlserver等已经不适用于对海量多元化数据进行统计分析挖掘,本文主要讨论和总结处理大数据的方法和现状,我们的目标就是探讨研究数据量大的情况如何有效处理数据(ETL)以及构建存储基础数据模型(数据仓库)便于数据能被更高效的使用挖掘分析。

“数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:“数据仓库是为支持企业决策而特别设计和建立的数据集合”。准确来说,数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策数据访问的各种技术和模型的总称。

打破数据孤岛的情况,对来源复杂的各个不同的业务系统的不同数据进行整合,建立一个大集合的数据仓库,构造正真意义傻姑娘的“客户同意试图”,让数据开发和数据分析人员能够切实掌握全面信息。为决策提供完备的数据依据。

“ETL”概念:

(1)数据抽取(Extract),常规的数据抽取策略有:1)同步实现抽取;2)异步实现抽取

(2)数据清洗和转换(Transformation),数据转换工作进行的时机有:1)在抽取过程中进行数据处理;2)使用异步加载,以文件的方式处理;3)在数据加载过程中进行数据处理;4)进入数据仓库以后再进行处理

(3)数据装载(Load),数据的追加策略类型有:1)直接追加;2)全部覆盖;3)更新追加

预期结果:(1)选型部署一个ETL工具,完成数据的抽取,转换和装载,保证数据稳定持续,源源不断得从源系统进入数据仓库

(2)数据仓库的设计和模型建设,便于数据存储已经数据开发及分析人员便捷查询的分层模型构建

三、研究方案(研究方法、研究工作的总体安排和进度,理论分析、计算、实验方法和步骤及其可行性,可能遇到的问题及解决办法)

2021/1/14-2022/2/2 明确论文内容,进行相关论文资料的查找与翻译。

2022/2/2-2022/2/14 撰写开题报告

2022/2/14-2022/3/1 ETL常用应用研究

2022/3/1-2022/3/15 数据仓库构建研究

2022/3/15-2022/4/1 撰写论文

2022/4/1-2022/4/08 论文修改定稿

四、指导老师意见

指导教师签名:

年 月 日

下载 ETL技术和数据仓库建设的研究word格式文档
下载 ETL技术和数据仓库建设的研究.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    教学管理数据仓库中ETL的实现

    龙源期刊网 http://www.xiexiebang.com 教学管理数据仓库中ETL的实现 作者:占小忆 来源:《科技创新导报》2011年第16期 摘 要:ETL 工具从异构数据源抽取数据,并将数据清洗,规......

    ETL学习心得:探求数据仓库关键环节ETL的本质(最终5篇)

    做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上......

    DataStage(ETL)技术总结介绍篇

    DataStage(ETL)技术总结 -- 介绍篇(转载)数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL......

    数据仓库建设方案(范文大全)

    1. 数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX......

    浦发银行数据仓库建设

    浦发银行数据仓库建设项目背景整个 CDL 项目组总整合前 CIM ,梳理现有集市,包括 1104 等数据和业务的涵盖范围,以:避免各个应用独自建设基础的重复数据,如客户、账户基础信息等;整......

    关于数据仓库建设的发言稿

    尊敬的各位专家、各位领导:很荣幸能有这个发言机会,我的发言包括3部分内容即“充分利用数据库与中间件技术构建健壮与可伸缩性的系统”、“按照科学的原则构建数据仓库模型”......

    职工思想道德和职业道德建设研究

    职工思想道德和职业道德建设研究(石安改扩建KJ5项目党支部)摘要: 人是有思想有道德的管理对象,人的工作劳动是带有思想道德的活动。所以,项目职工管理必须管职工的思想道德建设......

    塑性成形技术的研究现状和发展趋势

    塑性成形技术的研究现状与发展趋势 摘要:本文叙述了塑性成形技术的研究现状,介绍了现代塑性成形技术的发展趋势,提出了当代塑性成形技术的研究方向。 关键词:塑性成形模具技术研......