毕业论文(设计)开题报告
论文题目: ETL技术和数据仓库建设的研究
一、开题依据(研究目的、意义及国内外研究概况,附主要参考文献) 文献描述中人们对大数据时代下的定义中比较通俗一点是指“描述和定义信息爆炸时代产生的海量大数据时代”,何为大数据?大数据是从各种各样不同类型的数据中,快速获得有价值信息的一种前沿技术。大数据是指通过对海量的,种类和来源复杂的数据进行有效地捕捉,发现和挖掘分析,用经济的方法提取其数据价值的技术体系或者技术架构。所以,从广义上讲,大数据不仅仅是指大数据所涉及的数据,还包含对这些数据如何进行处理,存储和分析的理论,方法以及技术。 大数据在2000 年代初的数据热潮期间出现,软件和硬件功能是消费者产生大量信息,包括大量结构化和非结构化信息。在pc和移动智能终端迅速普及的当下社会,包括搜索引擎,移动设备和工业机械等新技术可提供持续增长并可处理的数据,每天都有数以亿计的海量数据产生,随着可收集数据量的几何倍增长,显而易见,传统数据技术(关系数据库)不适合与大量天文数据量的结构和非机构化数据一起使用。Apache软件基金会启动了第一个大数据创新项目,最重要的贡献来自于 谷歌,雅虎,ibm等。最常用的引擎是:ApacheHive / Hadoop 是复杂数据准备和ETL的标杆产品,使得海量的数据的存储和基于数据的分析变得更加便捷。 参考文献: Ralph Kimball.数据仓库工具箱(第三版) 王雪迎.Kettle 构建Hadoop ETL系统实践 占小忆.科技创新导报 |
二、主要研究内容(说明研究课题的具体内容及课题的新颖性,并明确重点解决的科学问题及预期结果) 随着行业数据量的爆炸性增长,由于数据量的大,复杂,快速变化的性质,传统的oltp系统,事务型数据库,如 mysql,oracle,sqlserver等已经不适用于对海量多元化数据进行统计分析挖掘,本文主要讨论和总结处理大数据的方法和现状,我们的目标就是探讨研究数据量大的情况如何有效处理数据(ETL)以及构建存储基础数据模型(数据仓库)便于数据能被更高效的使用挖掘分析。 “数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:“数据仓库是为支持企业决策而特别设计和建立的数据集合”。准确来说,数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策数据访问的各种技术和模型的总称。 打破数据孤岛的情况,对来源复杂的各个不同的业务系统的不同数据进行整合,建立一个大集合的数据仓库,构造正真意义傻姑娘的“客户同意试图”,让数据开发和数据分析人员能够切实掌握全面信息。为决策提供完备的数据依据。 “ETL”概念: (1)数据抽取(Extract),常规的数据抽取策略有:1)同步实现抽取;2)异步实现抽取 (2)数据清洗和转换(Transformation),数据转换工作进行的时机有:1)在抽取过程中进行数据处理;2)使用异步加载,以文件的方式处理;3)在数据加载过程中进行数据处理;4)进入数据仓库以后再进行处理 (3)数据装载(Load),数据的追加策略类型有:1)直接追加;2)全部覆盖;3)更新追加 预期结果:(1)选型部署一个ETL工具,完成数据的抽取,转换和装载,保证数据稳定持续,源源不断得从源系统进入数据仓库 (2)数据仓库的设计和模型建设,便于数据存储已经数据开发及分析人员便捷查询的分层模型构建 |
三、研究方案(研究方法、研究工作的总体安排和进度,理论分析、计算、实验方法和步骤及其可行性,可能遇到的问题及解决办法) 2021/1/14-2022/2/2 明确论文内容,进行相关论文资料的查找与翻译。 2022/2/2-2022/2/14 撰写开题报告 2022/2/14-2022/3/1 ETL常用应用研究 2022/3/1-2022/3/15 数据仓库构建研究 2022/3/15-2022/4/1 撰写论文 2022/4/1-2022/4/08 论文修改定稿 |
四、指导老师意见 指导教师签名: 年 月 日 |