《数据处理》教学设计(推荐)

时间:2019-05-12 23:21:21下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《《数据处理》教学设计(推荐)》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《《数据处理》教学设计(推荐)》。

第一篇:《数据处理》教学设计(推荐)

《数据处理》教学设计

山东省青岛市二十六中学 李珺

【所用教材版本】青岛出版社《初中信息技术》八年级上册 【适用年级】初中二年级 【适用单元】第7单元 【教材分析】

1.教材的地位和作用

本部分内容是掌握Excel精髓──数据处理的入门,也是本单元的重点章节。2.教学目标

根据教学要求、教材特点、学生的心理、智力发展水平及知识经验和情感需求,我确定本节课的教学目标为:

知识与技能:了解Excel中公式的作用,学会在公式中引用单元格区域;了解公式的格式并学会正确输入公式,了解公式中的运算符和运算次序。

过程与方法:通过输入公式并快速填充的过程,让学生体验到Excel数据处理的高效性,培养学生发现、探索、研究问题的能力,并学会举一反

三、融会贯通的方法。情感态度价值观:通过小组协作完成数据的收集、加工、处理,培养学生的合作、探索精神。引导学生在学习过程中积极思考、勇于实践,体验学习的乐趣,提高学习兴趣。3.教学重点:公式的使用、单元格区域的引用。4.难点:公式的使用;绝对引用符$的使用。5.教学环境:微机教室 【教法设计】

情景导学法与任务驱动法

为了让学生掌握好本次课的主要内容,我采用情景导学与任务驱动相结合的教学法帮助学生消化吸收新知识,引起学生的学习兴趣,激起学生的求知欲望,发挥学生的主体作用,体现教师的主导作用。通过兴趣与任务使学生学习到相关的信息技术知识和操作技能,进而培养学生的自学能力与动手实践能力,提高学生的信息处理能力。【学法指导】

自主合作探索

根据建构主义学习理论所强调的:以学生为主体,要求学生由知识的灌输对象转变为信息加工的主体。

自主,能对自己的学习活动进行自我调控,主动地去学习。合作,通过小组伙伴关系下相互汲取经验,共同完成学习任务。探索,指在教师的指导下,让学生亲自参与学习过程,在学习过程中发现和获取知识,培养学生探究的意识和习惯。【课堂设计】

1.创设情境,巧妙导入

就刚刚度过的中秋佳节引入我们必吃的象征团圆的月饼,引导学生讨论喜欢吃什么口味、品牌的月饼?

生答:好世界,元祖,好利来,豆沙,蛋黄等等。

教师总结:大家喜欢的这些月饼,同样也是各大商场热销的产品。

师:为此咱们班6个小组的同学利用课余时间通过网络和市场调查收集的各大商场月饼销售信息。请同学们将收集的信息进行整理。并让学生观察不完整的部分,思考如何才能得出结果的,通过运算还是进一步市场调查?

生:通过运算便可求出。

由此引入公式的运用,顺利导入新课。

2.提出任务,讲授新课

本节课的重点是公式的运用,按照层层深入、逐步提高的认知规律,设置反馈练习。教师引导学生共同完成月饼销售表中数据的计算。主要目的是让学生熟悉如何在Excel中使用公式和注意区分计算机中的公式运算符(+-* /)与普通公式运算符的差别。(1)公式的运用

师:销售额代表一个产品销售情况的重要指标。Excel中有什么办法能把好世界所饼在利群的销售额求出来。

生:进行分组讨论。

学生经过小组讨论提出几种解决方案: ①组:使用计算器求或口算后将结果输入。②组:直接输入销售量*单价。③组:=921*78。

④组:=销售量*单价。

师:根据学生的想法,让他们进行一一尝试,找到最佳解决方案。

学生通过动手实践,普遍会觉得④组的方案简单方便、不容易输错。

教师总结:Excel进行运算也需要运算符=,与数学运算不同的是,运算符=应该放在最前面。输入 “=”,Excel就会做好运算准备。(2)填充柄的使用

教师提示:④组的方案还有什么好处?

教师可进一步提示,以前学过填充柄的使用,填充柄可以实现数据有序填充,对公式,填充柄有没有用?

学生根据提示,可使用填充柄方便的求出其他销售额,初步体验成功的喜悦。

教师总结:拖动填充柄复制公式,到下一行/列时,Excel会自动将原来的单元格名称自动累加了一行/列,这种累加产生的结果正是我们想要的。

随后,让学生动动手,求出各商场的销售总量,月饼总销量,巩固新知。(3)学生演示

师:邀请学生上教师演示所求销售额、月饼总销量等,其他学生观察演示是否正确,对演示正确的同学奖励一本《少年电脑世界》杂志。生:发言积极,课堂气氛活跃。(4)$符的妙用

教师并不直接讲出$符的用法,而是让学生通过做题,在做题过程中发现求销售额时,使用填充柄求出的结果是0,从而查找原因。

师:同学们,既然每一种月饼在各大售价都是相同的,因此我们没有必要将每一个商场的售价都填充了,只写一个就行了,下面请大家将多余售价删除,只保留第一个。

生:删除多余售价,发现第一个结果准确,但使用填充柄后,求出下面的全部是0。师:请大家思考,怎样既能保证结果准确,又只保留一个售价? 生:小组讨论,动手实践。

生:演示自己的解决方案,发现可将使用填充柄求出的公式中的售价全部修改为C3或78。师:这种做法对不对?对,但并不科学,一个一个修改失去了使用填充柄的意义。有没有更好的方案。生:„„

师:使用填充柄复制公式,公式中的单元格会产生自动累加,而单价只有C3格中有一个,后面的格为空,所以求乘积会产生结果为0的现象,要避免这种现象,必须要将C3格固定下来,不让它发生变化,怎么样将它进行固定?需要借助一个“$”符号,将C3格修改为$C$3或选中C3按F4同样可以修改。再使用填充柄即可。生:动手实践,感受$的使用,巩固所学。

(5)提示的设置

初中阶段的学生对统计图表中要计算的数据,在题意的理解会有欠缺,适时的增加提示部分,可帮助学生更好的理解题意,少走弯路。本课中,对每一个练习都设置了提示进行帮助,提示内容为所求内容的算术运算说明。如:利群的销量占总销量的比率=利群的销量/总销量。教师要求学生先自己领会题意,对看不懂的题意再切换到提示工作表。

(6)总结

师:根据这个练习我们总结出Excel中使用公式的关键点:

①运算时要先输入运算符号 =

②活用单元格名称进行运算 如:=A1+B1 ③绝对引用符$来固定位置

3.巩固练习

设置本练习的目的主要是:巩固新知

师:十一长期,许多同学外去旅游,各地旅游景点每到节假日都暴满,请大家根据各景点的游客接待数量做一个统计表。

要求:

(1)计算各景点预计门票收入和实际门票收入。(2)计算预计门票收入与实际门票收入的差额。(3)计算实际门票总收入。

(4)计算故宫门票收入占总收入的比率。(5)景点平均票价。

注:(3)、(4)、(5)小题,请将所求结果放置于黄色填充区域内。要求先独立完成,对不会的题目,可小组讨论或借助提示。设置提高练习:

(1)试使用函数法求实际门票总收入和景点平均票价。

针对掌握较好,完成较快的学生,提出更高要求。让他们自学函数的使用。生:根据本课所学,完成巩固练习,小组长协助教师进行辅导检查。

4.课外拓展

布置课外作业:以小组为单位做一个市场调查,了解最近几个月电脑品牌机销售情况,做一个品牌机销售统计表。或者调查近几个月电脑配件销售情况,制作电脑配件销售统计表。(注意选择典型和有代表性的品牌型号、配件等)

5.总结概括、课堂延伸 通过学习Excel公式的使用,使我们初步掌握了Excel在数据处理方面的强大功能。其实Excel还可以进行更为复杂的数据的统计、分析等等,这些是使用简单的公式所不能实现的,下节课我们将带大家进入函数的神秘世界。

第二篇:数据处理与统计教学设计

数据处理与统计教案

课题:数据处理与统计

教材:江苏科学技术出版社出版《初中信息技术》上册

赣榆县罗阳中学

宋海波

一、教学目标:

知识和技能:熟悉公式的基本组成和公式的复制方法;熟练运用公式进行计算;掌握公式复制的操作;

过程和方法:以任务驱动为主,结合小组探究,通过观察、比较、发现、交流、归纳等过程,让学生在解决问题的过程中体会公式运算和公式复制的操作。

情感、态度和价值观:培养学生合作探究精神,体会信息技术在现实生活中的应用,培养学生利用信息技术更好的为学习和生活服务的意识。二、教学重点、难点:

重点:excel表格中公式使用的注意点操作 难点:将数量关系转化为excel中公式并使用 三、教学方法与教学手段

教学方法:在课堂内容引入使用情境创设,激发学生兴趣;在知识点的导入过程中进行小组探究式学习,引导性学习的教学方法;在巩固练习环节运用学生自主练习的方法中进行引导拓展,最后,通过师生对话的方式对本节课内容进行归纳总结。四、教学媒体

多媒体计算机教室、教学软件、教学课件 五、教学过程:

(一)创设情境 激趣导学 课前设置小比赛,比比谁最快!

利用多媒体教学软件控制学生机,请同学们安静,拿出纸和笔,下面我们一起来参加一个比赛,考一考大家的计算速度,看看谁最快!师:展示本班全体学生最近阶段性测试成绩表。

这是我们班级这次阶段性测试的成绩表,请同学们在三分钟内计算出所有学生成绩的总分,并填入表内,谁最先计算出的就算赢。

(同学们一看到是自己班级的成绩表,已经炸开了锅。又听说要在三分钟内算出来,声音更大)

师:请同学们抓紧时间,开始计算了。(安静,都在纸上认真的算,有几个学生更是调出了

windows xp上的计算器计算)。好,三分钟到了,计算完的同学请举手。生:(四处张望,看见没人完成)

有同学开始抱怨:老师,这么短的时间内,谁能把这么多成绩计算出来啊!

(一片附和声)

师:(达到预期效果)同学们,老师有一个方法,可以快速计算出成绩,时间嘛(作思考状),大概不到一分钟吧!同学们,想不想掌握这个方法啊?!生:一分钟?不可能吧?„„(学生积极性被调动)

设计意图:本环节通过设计小小的比赛,主要目的是激发学生的求知欲望,引入本课的主题公式的计算和复制,让学生迅速进入新课状态。

(二)任务驱动 层层深入

1、探索与发现

师:请同学们双击桌面上的“学生成绩表”工作表,观察“总分”H2、H3、H4„„单元格,思考下面两个问题:

学生成绩表部分截图

① 单击H2、H3、H4单元格,编辑栏显示什么? ② 观察编辑栏公式,你发现了什么?

同学们学习后分小组讨论,1分钟后请同学回答,看看哪个小组讨论的答案最准确。问题1:目的在于引导学生发现公式,找出公式输入的位置。问题2:目的在于引导发现公式的使用规律,总结公式的组成。

设计意图:把公式与学生的生活密切联系起来,使抽象的公式具体化。让学生观察、思考、分析、归纳,发现公式的基本操作。

2、利用规律 “依葫画瓢”

师:请在K2单元格中利用公式计算出总分,并和H2单元格中计算的总分进行检验,组长协助操作有困难的同学。教师巡视,总结学生出现的问题,并个别指导。学生很快计算出总分,一个个都比较开心。

师:(顺势引导)在公式操作的过程中,你遇到哪些问题,如何解决的?

学生回答积极。教师结合在巡视过程中出现的问题,抽部分学生进行操作总结,进一步夯实

知识基础。

设计意图:让学生利用发现的规律,解决现实生活中较感兴趣的话题,体验使用公式计算出总分的乐趣。

3、熟练公式 顺利转换

师:总分我们已经计算出来了,它的公式是什么? 生:=E1+G1+F1 师:如果要计算出平均分,公式又是什么呢?请同学们在表格中计算一下。学生动手操作。„„

师:大部分同学都计算出了第一位同学的总分和平均分,我们如何在最短的时间内计算出其他同学的成绩呢?请大家看导学案上的关于“公式的复制”操作指导,利用最快的速度(1分钟之内)完成全班同学成绩的计算。

学生操作,组长协助,教师巡视。请学生上台演示,在学生演示过程中讲解操作过程中的注意点。

师:请同学们思考一下公式复制的好处有哪些? 学生争先恐后地发言。

设计意图:通过重新构建新公式,进一步加强学生对公式的认识、操作,并总结公式复制的好处,培养学生使用计算机协助生活、学习的意识。

(三)练习巩固 体验收获

请同学们打开“校园十佳歌手”工作簿,完成练习。先做完的同学待老师检查无误后,可以做老师的小助手,指导有操作困难的同学完成练习。

设计意图:通过练习让学生体会公式的价值,体验成功的收获,在愉快的气氛中掌握学习知识。

(四)归纳总结 收获喜悦

随机抽出几名学生,采用问答形式,对本课的教学内容进行归纳总结。师:请问这位同学,利用公式进行运算的操作你掌握了吗? 生1:掌握了。

师:很好,如果我现在仍然不会公式运算的操作,你能告诉我操作步骤吗? 生1:先用“=”号,然后使用单元格地址进行公式计算。师:如果我对符号的转换不了解,你能告诉我吗? 生2:乘号用“*”,除号用“/”。

师:请谈谈你对公式复制操作的优点是什么? 生3:提高运算速度。

师:总结操作过程中学生出现的问题并讲解注意点。

同学们,我们在日常生活中会遇到很多问题,我们要正确利用好计算机这个工具。设计意图:通过问答的方式对知识进行归纳与总结,让学生把学习到的东西与大家共享,收获属于自己的喜悦。

教学设计说明:

本课选自江苏科学技术出版社《初中信息技术》上册第四章数据统计与分析第三节数据处理与统计。计划用2课时,本节课只对公式的运用及公式的复制做讲解,以学生成绩表引入,让学生通过解决生活和学习中的实际问题来了解对公式及公式复制的基本操作。

本节课教学内容从实际问题导入,激发学生学习兴趣,自然开启课程学习,所有数据力求来源于学生生活。贯穿从“以实例促技能”向“技术驱动生活”转变的教学思路,挖掘生活实例,服务课堂。采用自然过渡的方法引导学生在感兴趣的问题中掌握知识点,完成教学目标。在教学设计过程中,以“总分”——“平均分”——“所有学生的总分,平均分”这条主线组织教学。穿插以“公式引入”——“公式转换”——“公式的复制”这条暗线。以主线吸引学生兴趣,辅以渗透暗线知识点的教学,引起学生共鸣,学生的参与热情高涨,从而使课堂获得良好的效果。

第三篇:4.2表格数据处理教学设计及反思

2016年电教 优质课评选 表格数据的处理 ―教学设计及反思 冠县武训高中 马迎峰

教材分析:

《表格数据的处理》是教育科学出版社出版的高中信息技术新教材《信息技术基础》(必修)第四章第二节《表格信息加工》中第一课时的内容,是比较难掌握的一节。在上一节已经了解了信息的表格化是结构化表达信息的一种方式,对信息进行表格化加工和处理,是信息处理中的一个重要技能。借助表格,可以对表格数据进行处理,从而发现和挖掘数据之间的关系,同时它也为后续章节关于信息集成和信息交流的学习奠定基础。

教学目标:

1、知识与技能:

(1)要求学生能够选择恰当的软件加工表格信息;

(2)能熟练运用数据的计算、排序和筛选功能对表格数据进行加工。

2、过程与方法:

能够根据任务需求,使用Excel工具软件来加工表格信息。

3、情感态度与价值观:(1)培养学生的信息素养。

(2)培养学生认识分析事物的能力,提高学生利用信息技术解决学习、生活中实际问题的能力。

教学重点、难点:

重点:根据需要选择合适的方法如排序、筛选、分类汇总等对表格信息进行处理。

难点:自定义排序、筛选和分类汇总方法的选择及应用。

教学方法:

(1)演示与讲解相结合(2)任务驱动法(3)分组合作法

教学过程:

一、创设情境,导入新课:

由学生经历次数最多的考试,以及身边一张张的成绩单导入新课,让学生了解成绩单的制作过程。引发学生自己对成绩计算、统计、分析的兴趣。

二、新课讲授:

1、数据的计算。

(1)、利用公式计算

公式法可以灵活使用 +-* / 数学运算符(2)、利用函数计算:自动求和、插入函数。

函数法:选择单元格,“插入”—fx函数—sum,选择数据区域,点击确定。

常用函数:Average平均值、Count计数、Sum求和、Max最大值、Min 最小值。例:=Sum(C3:E3)

(3)、自动计算

用于快速查看某些数据的统计值。

选中要查看的数据区域,右键单击状态栏选择操作。

任务一:请同学们根据下发学习资料自主完成“成绩单”总分的计算并保存。(拓展:完成任务早的同学计算平均分)【自主学习】

学生活动:根据教师提供的任务和学习资料,学生先进行自主学习。教师活动:教师深入到学生中间,及时帮助学生完成自主学习,并发现其中的问题。【合作探究】

学生活动:小组合作探究,小组长做好引导工作,进行组内讨论,完成探究任务。

教师活动:教师巡视,及时参与到学生的交流中去,并发现其中的问题。学生合作学习完成操作任务。【精讲点拨】

方法:请同学到教师机演示操作方法,如果学生在演示过程中遇到困难,教师要及时点拨帮助解决困难(因为这可能是最容易出错的地方),演示结束后,同学们一起总结其存在的问题。教师及时总结过程与方法。

2、数据的排序:(1)、一般排序:

选中数据,执行数据/排序命令,设置排序对话框。可以按任意字段都可进行升序、降序的排序。任务二:请同学们按总分对成绩单进行排序。

(2)、自定义排序:

我们前面完成的排序任务,是按照升序或降序完成的,能不能按照我们自己定义的序列排序呢?

步骤:①执行“工具/选项/自定义序列”命令,输入“新序列”,每项输入完毕回车换行,输入完毕点击“添加”按钮,添加新序列;②打开“排序”对话框,单击“选项”按钮;选择自定义的序列,确定,完成。

自定义排序只应用于“主要关键字”框中的特定列,“次要关键字”框中无法使用。

任务三:再按组次进行自定义排序并保存。(教师巡视并解决同学们操作中存在的问题。)

思考:刚才我们学习了排序操作,它的操作对象是表中的全部数据,整张表数据很多我想快速查看1班同学的成绩而又不想删除其他班的成绩怎么办?

3、数据的筛选

筛选是从表格中选出符合指定条件的数据。

步骤:首先选中有内容的任意单元格,然后执行“数据/筛选/自动筛选”命令。思考:筛选过后,我们看不到的数据是被删除了吗?怎样让它们恢复到筛选之前的状态?

任务四:筛选出一组语文大于80分的同学。

思考:我想通过求各班总分的平均分,看一下这次考试班与班之间的差距,用前面学过的方法能实现吗?

4、数据的分类汇总

分类汇总的前提是分类,所以第一步必须先按分类字段进行排序,然后再执行分类汇总。

方法 :点击“数据”--“分类汇总”,然后根据需要选择汇总方式、汇总项。核心提示:第一步对“组别”排序,第二步在“分类汇总”对话框中,“分类字段”中一定要选择“组别”。

任务五:对各小组总分的平均分进行分类汇总。(完成任务早的同学做拓展练习)

三、小结:

这节课我们学习了数据的计算、排序、筛选和分析汇总,通过对数据的计算、4

统计和分析,我们可以了解到更多信息,以帮助我们发现问题和解决问题。

四、作业:

课本P76页实践题。

教学反思:

1.由于学生以前接触过EXCEL,模仿能力比较强,大多数同学能基本完成布置的任务。但有的同学只会机械地模仿,对用我们所学的知识解决实际可能还是存在某些困难,所以我在讲解时尽量结合例子,讲解其中的内涵,同时让学生有思考的空间,这一点对解决实际问题很有帮助。

2.实践是学好表格数据处理乃至整个信息技术课程的重要途径。上课以问题引导,学生根据教材中所提供的图示或者老师提供的学习材料进行学习,这样不但可以拓宽学生的知识面,而且可以学会自主学习。我在巡视中发现共性问题,可转播学生问题,一起解决,个别问题当场解决。这样学生能够学会学习,积极性比较高。

3.教学设计安排了一个提高题,就是解决实际问题的题,从课堂反映看,同学对运用所学知识解决实际问题的能力不足,有待教师进一步转变教学观念,让学生自主学习,教师引领,不能让学生一味地模仿,失去创新精神。

第四篇:数据处理考纲

全国残疾人岗位精英职业技能竞赛规则

计算机操作员(数据处理)

全国残疾人岗位精英职业技能竞赛组委会

2012年7月

竞 赛 标 准

一、竞赛目的考查参赛选手对于数据处理相关基础知识的掌握程度,使用电子表格进行数据处理的能力,以及在规定的时间内,分析理解竞赛题目给出的数据处理应用系统需求,运用所学数据库语言与工具,以软件工程思想为指导,独立快速完成数据处理程序设计的能力。

二、竞赛任务

竞赛分两部分,第一部分是数据处理的理论试题,为单项选择题,主要考查选手对于数据处理基本知识的掌握程度,内容涉及计算机基础知识、计算机网络、数据库基本概念和Excel电子表格、Access数据库的使用方法等,占总分的20%;第二部分为实际操作试题,任务1要求选手按要求处理给定的Excel电子表格,得出需要的数据和图表结果,任务2要求参赛选手按照题目给定的数据处理需求,使用数据库管理系统Access建立数据库,开发出一套符合要求的数据库应用系统,每完成一项操作或实现某一功能均有相应得分。占总分的80%。

三、要求

要求参赛选手掌握以下基本知识和技能:

1.熟练掌握Excel电子表格软件的使用方法,能进行排序、分类汇总、筛选、计算和统计绘图等操作。

2.了解数据库的基础知识,熟悉SQL语言,E-R图,掌握数据库的基本操作和数据访问技术(数据库的结构设计与修改,多表间一对多与多对多的关联处理,数据的增加、删除、修改和查询功能,数据的统计和排序功能,数据库安全设计等)。

3.熟练掌握Microsoft Access数据库系统,数据表创建、查询、视图、导入、窗体设计、报表输出等,能使用Access开发数据处理应用程序。

4.熟悉Windows操作环境,可以独立进行编程工作; 人机交互界面设计美观易用。

5.本次竞赛不再提供其它编程环境。

四、评分标准

注:根据具体题目评分标准细则出现分数相同的情况时,以用时最少的选手排名在前。

五、设备和工具材料

六、竞赛时间

本项目竞赛时间为180分钟(3小时),其中理论测试时间30分钟(0.5小时),实际操作时间150分钟(2.5小时)。

七、注意事项

1.所有参赛选手不得携带任何存储媒体(如磁盘、光盘、移动硬盘、U盘,具有存储功能的手机等)、任何无线上网设备和参考资料进入赛场。竞赛现场的硬盘装有保护卡,关机或断电后不能保存数据,选手必须将开发好的程序、数据库

保存在监考人员指定的分区和文件夹。建议选手及时保存数据。

2.竞赛组委会有权在必要时对竞赛任务、评分标准等进行修改,并及时在官方网站上公示。

3.参赛选手须正确操作、使用竞赛组委会现场提供的设备及工具,以免发生损坏。进入赛场后,及时检查计算机和软件,如有问题,立即向工作人员举手示意。

4.评判时如出现参赛选手得分相同的情况,将考虑作品完成的速度。

5.竞赛标准的解释权归竞赛组委会所有。

第五篇:数据处理教案

数据处理教案

引言:

根据高专中专部安排,由我带10级综合班的数据处理课和Office办公自动化课,根据教学的要求,特写此教案,该教案分为5部分,第一部分介绍数据处理定义,结构,常用软件;第二部分计算机基础;第三部分介绍Excel数据处理;第四部分介绍常用数据库(access、sql语句),第四部分介绍简单的关系数据库、数据建模等;第五部分介绍简单的数据处理、报表制作等。

第一部分数据处理定义,结构 第一节 数据处理定义

教学目的:通过对数据处理的定义使学生明白,在当今的社会,数据是如何的重要,数据处理在现代社会中起到什么样的作用。

教学内容:重点是数据处理的定义,难点为如何看待数据和信息的关系,模糊数据和数字数据的区别 教学方法:口述与上机

教学进程:全面4个课时为理论口述讲解,后面4个课时上机介绍数据处理常用软件。

1.1.1数据处理定义

数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程

1.1.2数据处理软件

数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种程序设计语言及其编译程序,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。1.1.3 数据处理方式

根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。

1.1.4 数据处理加工

数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。1.1.5 数据清洗

有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。

第二节数据处理结构

教学目的:通过对数据处理结构的介绍使学生明白数据仓库、数据集市与数据挖掘的关系。

教学内容:重点是数据仓库的图像理解,难点也是数据仓库整体结构的理解。教学方法:口述与上机 教学进程:全面4个课时为理论口述讲解,后面4个课时上机介绍数据仓库案例。

1.2.1商业智能在中国的发展机会(数据处理)

商业智能就像几年前的ERP(企业资源管理)一样,正成为企业首席技术官们关注的焦点,呈现如火如荼的发展态势。众所周知,在ERP等基础信息系统部署完之后,企业能够对其业务数据进行更为有效的管理,于是如何利用这些数据创造价值成为企业下一步思考的问题。

商业智能系统已经作为一种含金量极高的管理工具,融合在部分大型企业管理文化的血脉之中了。商业智能在帮助企业管理层发现市场机会、创造竞争新优势的作用显而易见,因此成为企业信息化的新宠也是必然的。

商业智能软件市场稳步增长

从全球范围来看,商业智能领域并购不断,商业智能市场已经超过ERP和CRM(客户关系管理)成为最具增长潜力的领域。从中国市场来看,商业智能已经 被电信、金融、零售、保险、制造等行业越来越广泛地应用,操作型商业智能逐步在大企业普及,商业智能不局限于高层管理者的决策之用,也日益成为普通员工日 常操作的工具。

不过,尽管这个市场潜力巨大,但仍有不少的现实情况导致这一市场的发育没有大家预期中的那么好。首先一点,国内的成熟、专业的商业智能实施顾问较少,不但上游厂商的相关人才少,下游负责实施的渠道合作伙伴更是缺乏相关人才,很多时候用户要启用商业智能工具,但是不太明确自己的需求,负责实施的人很多时 候也是一知半解,不能给用户很好的解决方案;其次,目前多数商业智能厂商,尤其是国外厂商都是通过分公司或办事处来销售的,而未来国内制造业企业多数需要 本地化服务,这种模式必将改变。同时,商业智能系统的销售、服务要求代理商要有很强的能力,如何选择、培养、发展这些代理商将是商业智能大发展面临的一个很重要问题。

SaaS将成为重要交付模式

同时,商业智能系统的核心不是平台,而是模型。目前,由于国内应用商业智能的企业并不多,应用深入的更少,应用基础也比较薄弱,即使拿来国外先进的商 业模型也不一定能运转起来,所以尽快建立各种适合国内企业特色的模型是各服务商未来要加大投入着力解决的。当然,对企业而言,商业智能的有效应用,离不开 数据的支持。如果没有准确的数据,那么所要分析产生的报表、决策都与事实存在差距,将会导致整个决策的错误,因此,必须要求前期的数据准确。

最后,随着云计算的大规模普及,下一代商业智能的精细分析系统很可能会建设在动态的基础架构上,而虚拟化、云计算等技术的发展也会带动商业智能系统的建设和应用,这就是“云智能”。我国企业需要抓住“云智能”机遇,加快发展、迎头赶上,才能从容应对下一阶段的全球化竞争。

1.2.2数据仓库技术的发展及体系结构 数据仓库技术的发展及概念

传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理工作的。然而,不同类型的数据有着不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不了现代商业企业数据处理多样化的要求。总结起来,当前的商、世企业数据处理可以大致地划分为2大类:操作型处理和分析型处理。操作型处理也叫事务型处理,主要是为企业的特定应用服务的(这是目前最为常用的),分析型处理则用于商业企业管理人员的决策分析,这种需求既要求联机服务,又涉及大量用于决策的数据,传统的数据库系统已经无法满足,具体体现在:

1)历史数据量大;

2)辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;

3)由于访问数据的能力不足,它对大量数据的访问能力明显下降。

数据仓库技术的出现为解决上述问题提供了新的思路。数据仓库的创始人Inmon指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程”。它从大量的事务型数据中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中,作为决策分析的数据基础,从而在理论上解决了从不同系统的数据库中提取数据的难题。同时,利用联机分析处理(OLAP)技术可以对数据仓库提供的数据进行深入加工。

企业数据仓库的体系结构

一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。

1)数据源。

数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RD-BMS中)的各种业务数据,外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。

2)数据的存储与管理。

数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。

3)OLAP服务器。

对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。

4)前端工具与应用。

前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。

1.2.3商业智能(BI)落地需要的三大工具

商业智能(后面简称BI)的各类角色用户必须借助和使用工具实现其需求。BI角色分为业务、业务融合技术、技术这三类,对于其相应的应用需求(含演绎型和归纳型)和管控开发需求,需要借演绎型需求支撑工具和归纳型需求支撑工具,及管控开发型工具来予以实现。本篇先讲述演绎型需求支撑的7种工具,其可分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具;

笔者认为BI以认识论和组织理论为基本原理,采取相适宜的“工具”,旨在帮助 “相关角色”对职责范围内的“有关内容”做出最佳决定的整体解决方案。它由“三维模式”和“三层漏斗”组成,是辅助整个企业集理念,组织,流程,技术为一体的整体决策支持方案三维模式由角色维、内容维和工具维构成,体现了BI的主体、客体和工具等一般性原理。根据BI的定义,只有清晰划分相关角色并据以确定需求,并借助工具才能实现BI辅助主体对职责范围的有关事项做出最佳决定的宗旨。

BI的业务类角色、技术类角色以及业务融合技术类角色对应存在着业务应用需求(指业务类的演绎型需求和业务融合技术类的归纳型需求)和技术应用需求,即管控开发型需求。这种需求能否得以有效实现和提升,必须借助工具。针对三大类角色的两种需求,BI的工具分为应用型支撑型工具和管控开发支持型工具。鉴于文章的范围,硬件支撑工具的内容请参见相关书籍。

应用支撑工具可以分为描述统计工具、经营技术与方法、经济预测方法与模型、OLAP分析、知识发现工具、专家系统以及决策方法与模型。管控开发支持型工具一般包括系统管理工具、开发工具。一般来说,这些工具以软件包的形式形成产品。鉴于BI对于业务应用的重要作用及业务应用成功对BI的重要意义,本文着重分析BI的应用型支撑工具,并对有关产品作简单介绍。

一、实现演绎型需求的7种工具

BI的演绎型内容可以分为三个层次:报表查询、综合分析、决策选择讨。如下图所示,BI的演绎型需求通过描述性统计工具、报表与展示工具、经济预测方法与模型、经营技术与工具、OLAP分析及专家系统工具、决策方法与模型来实现。

上图中,描述性统计工具帮助用户在报表查询层次实现对事实的充分了解;综合分析以逻辑的方式帮助相关主体寻求原因或对简单问题直接获得建议,需要运用经济预测方法与模型、经营技术与工具及OLAP分析来得以实现。专家系统和决策方法与模型是实现定量和部分定性决策的有力工具。通过该类工具,用户在决策选择时通过评价各个方案的优劣来辅助主体选择最优,得出结论。BI 演绎型应用的三层次结构合理、有步骤地解决了前提、逻辑规则和结论这一演绎型思维方法的迁移应用。

(一)描述性统计工具

统计的基本意义在于利用统计指标,通过指标值的对比关系和发展变化来研究社会经济现象的数量和数量关系,表明其变化发展的过程、结果及其规律。作为统计学两大基本内容之一的描述性统计是整个统计学的基础和统计研究工作的第一步,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,而对变量的集中趋势和离中趋势的分析则是其主要内容。描述性统计工具指为实现相关主体对基本事实了解的需求而需利用基本指标。这些基本统计指标包括总量指标、相对指标、平均指标和变异指标。

总量指标:表明具体社会经济现象总体的规模、水平或工作总量的数值,是计算各种派生指标的基础。如某集团公司年销量即是总量指标。它可分为总体单位总量、总体标志总量和时期总量(如某个事业部门的总销量)、时点总量(如月末库存)。总量指标可通过直接计算和间接计算求出。

相对指标:表明两个互有联系的社会、经济现象之间数量对比关系的统计指标。如竞争企业之间库存周转率的对比,或行业内某企业销量与行业总销量的对比等等;常用的同比和环比也是相对指标的运用。相对指标反映了社会经济现象的实质及其数量的对比关系,从现象间数量对比关系中清晰地认识事物。其次,可使原来无法直接比较的现象,找到共同的基础进行科学地对比分析。相对指标又包括:计划完成程度指标、结构相对指标(高中低档产品利润在全部利润中的各自占比)、比例相对指标(产品A与产品B的对比)、比较相对指标(某企业销量增长率与竞争企业销量增长率的对比)、强度相对指标(如烟草行业销售情况中条/人指标的对比)、动态相对指标(如历年的销售额的比较)。运用时,要正确选择对比的基数、确定可比的对比指标、相对指标要与对比基数结合使用。

平均指标:反映同质总体内各单位某一数量标志的一般水平,可以对比总体的一般水平,如分公司年平均销量与总公司平均销量的对比,可以进行数量上的推算和预测。平均指标有算术平均数、调和平均数(较少用,主要用于已知标志总量而不知单位总量的情况)、几何平均数(一般用于计算平均发展速度)、众数(一组序列中出现次数最多的数)、中位数(按大小顺序排列的数据中处于中间的数)五种。使用平均数时要与变异指标结合使用,有时需要用组平均数补充总体平均数。

标志变异指标:说明总体各单位某一标志数值差异程度,通过变异指标可以揭示被平均指标掩盖了的差异情况,也可作为衡量平均指标代表性的尺度。可分为:全距、平均差、标准差、标志变异系数。全距是标志值最大值与最小值之差,如2006年某产品在全国各省中最高销量与最低销量之差;平均差是各个标志值与总体算术平均数的离差的绝对值。标准差为各个标志值与总体算术平均数的离差的平方和的正平方根,其值越大表明差异越大,平均值不能很好代表一般水平;标准差与算术平均数的比值称为标志变异系数,用以两个平均数指标不相等时的对比。

描述性统计工具在当前BI的行业应用中非常普遍。值得关注的是,当前一般BI的报表查询应用涉及更多是描述性统计的总量指标、平均指标和比较指标,而对于描述离中趋势的标志变异指标运用得相当不够。事实上,标志变异指标可以解决B I的应用主体很多实质性问题,比如在众多品牌中找到销量不稳定的品牌,在众多客户中找到交易额波动大的客户,这些信息为BI的应用有关主体在研发、生产、采购、销售、库存方面起到较为关键的作用。

(二)报表与展示工具

以报表应用类别区分,BI系统能利用报表与展示工具来生成统计报表和查询报表。查询报表较为简单,根据用户的需求可以较容易地定制。由于中国式统计报表众多的表头项以及表头中首格的一重甚至多种斜线的特征,甚至在表头项中又切分子表头的复杂情况,致使生成统计报表较为困难。国外的BI产品在生成统计报表方面和国内的某些产品相比,如水晶报表,操作过程较繁锁。对于报表的展示,一是产生表格,二是产生与表格对应的图形,如曲线图、柱形图、三维图等。一般来说,要求报表与图形连动。即当报表数据发生变动时,图形跟着变动。或者相反,图形的变动要带来报表数据的变动。这是在钻取时较容易产生的情况。如SAS的Business Intelligence和BO的图形互动功能都能实现此种需求。

报表与展示工具注重实现报表的灵活性,更强调图形展示的美观、图形色彩的模板化定,强调图形种类的多样。这是BI工具的基本功能。前两年大家谈到BI时,更容易评判到某个厂家的BI的界面制作的是否美观等等,这是当时人们对BI应用认识不够造成的。现在厂家在宣传BI时,不仅注重更深层次的综合分析功能和预测、决策功能,更扩大到数据集成与整合,数据存储和元数据管理等全套BI平台上。

(三)经济预测方法与模型 经济预测方法与模型是统计学中统计推断部分的运用,复杂且灵活。它是BI在综合分析层次上的应用。该方法满足业务类用户展望未来的需求。统计推断一般包括参数估计、假设检验以及分类与选择。经济预测方法是参数估计的应用推广,包含了点估计和参数估计,如某上时间段销量的预测值,或者预测值所处的区间。经济预测模型是在预测方法的指导下,根据行业的实际经过修正后建立的预测模型。

定量的预测方法实战中可以建立很多模式,此处以时间序列预测为主简要介绍经济预测方法与模型的运用。

时间序列预测法是动态分析法的一种运用。动态分析法是在统计研究中,把经济现象在不同时间上的数量进行对比,以了解现象变动的方向、速度、趋势和规律,并据此预测未来的方法。动态趋势分析与预测是动态分析法的重要用途。时间序列是动态分析研究的一个主要方面,其前提是编制时间序列,并形成时间序列预测法。当前时间序列有100种左右的预测方法,但其基本方法一般包括简单平均、移动平均、指数平滑、最小二乘等,可以运用到直线趋势预测和曲线趋势预测方面。时间序列影响时间序列的值变化的四种因素:趋势变动、季节变动、循环变动、不规则变动,循环变动在短期预测中通常不考虑。将这四个因素从时间序列值中分解出来的方法称为分解分析法。如2月份在某地的某品牌白酒销量为60箱,通过分解技术,可获知趋势变动(平均水平与增长势头)的影响值为40,中秋的季节变动影响值为15,但不规则变动影响值是5,所以即销量为60。时间序列预测的基本方法结合上述四种因素并运用到直线预测和曲线预测中,就形成了近100种的具体预测方法,如加权平均,加权移动平均、温特斯法等。温特斯法是以指数平滑法为基本模型,结合季节因素并运用到直线趋势中而形成的季节直线趋势和季节变动指数平滑模型。下图分别是直线趋势和曲线趋势预测的结果。

1.2.4数据仓库架构的建立

每一个数据仓库有一个架构。这架构要么是即时的或计划过的;或隐式的或形成文件的。不幸的是,许多数据仓库开发时并没有一个明确的架构,这极大的限制了它的灵活性。在没有架构的情况下,主题区域就无法契合在一起,它们之间的连接变得无目的,并且使整个数据仓库的管理和变更都难于进行。此外,虽然它可能看起来不重要,数据仓库的架构已成为选择工具时的框架。

让我们把开发一个数据仓库与建造一个真正的房屋进行比较。你如何建造一幢300万美元的大厦呢?更不用说建造一间10万美元的房子了。你要有蓝图、图纸、技术规范、和在多个层次细节上显示这个房子将如何进行建造的标准。当然,针对房子的各种子系统要有不同版本的蓝图,如管道工程、电气、暖通空调系统(HVAC)、通信、和空间。针对所有的家用的设备也有相应的标准,包括插头、灯具、卫生洁具、门的尺寸等。

对于数据仓库,架构是对数据仓库的元素和服务的一种描述,用具体细节说明各种组件如何组合在一起,和随着时间的推移系统将如何地发展。就像这房子的比喻,数据仓库架构是一套文件、计划、模型、图纸和规范,针对每个关键的组件区域有独立的分区,并且足够详细到让专业技术人员可以实施它们。

这并是一个需求文件。需求文件说明架构需要做些什么。数据仓库架构也不是一个项目计划或任务清单;它说明数据仓库是什么,而不是怎么去做或为什么去做。

一个数据仓库的开发也并不容易,因为相对于房屋的5000年建筑史,我们发展数据仓库系统只有20年的时间。因此,我们的标准还不多,工具和技术正在快速发展,关于我们已经拥有数据仓库系统的档案还很少,而且数据仓库的术语还有很大的出入。

所以,虽然开发一个架构是困难的,但它也是可能的,并且又是至关重要的。首先,最主要的是,架构应该受业务的驱动。如果你的要求是每夜进行更新,这一要求就该包含在架构内,而你必须弄清实现你目标的技术需求。下面是一些业务需求的例子,和针对每种需求的综合技术考量:

●每夜更新――充足的数据准备能力

●全球可用性—平行或分布式服务器

●顾客层次分析――大型服务器

●新数据源――带有支持元数据的灵活工具

●可靠性――工作的控制功能

关键组件区域

一个完整的数据仓库架构包括数据和技术因素。架构可以被分为三个主要区域。首先,是基于业务流程的数据架构。其次是基础设施,包括硬件、网络、操作系统和电脑。最后,是技术区域,包含用户所需的决策制定的技术以及它们的支持结构。对这些区域将在下文分小节进行详述。

●数据架构

如上所述,在整体数据仓库架构中的数据架构部分是受业务流程所驱动的。例如,在一个制造环境里,数据模型可能包括订单、装运和帐单。每一个区域都依据一套不同的维度。但是在数据模型中对相交维度的定义必须相同。所以相同数据项应该有同样的结构和内容,并有一个创建和维护的单一流程。

当你完成一个数据仓库架构并呈现数据给你的用户,就要做出对工具的选择,但随着需求的设定,选择就会变窄。例如,产品的功能开始融合,就像多维联机分析处理(M OLAP)和关系型联机分析处理(ROLAP)。如果停留在你建造的立方体,多维联机分析处理(MOLAP)便可以了。它速度快又允许灵活的查询――在立方体的范围内。它的缺点是规模(整体上和一个维度内)、设计的局限性(受立方体结构所限)、需要一个专有的数据库。关系型联机分析处理(ROLAP)是多维联机分析处理(MOLAP)的一种替代方案,它克服了多维联机分析处理(MOLAP)的这些缺点。通常,混合联机处理(HOLAP)更受欢迎,它允许一部分数据存储在维联机分析处理(MOLAP)中,另一部分数据存储在关系型联机分析处理(ROLAP)中,折衷了各自的长处。

●基础设施架构

对硬件及数据库选择的问题在于其大小、扩展性和灵活性。在大约80%的数据仓库项目中,这并不困难,大多数企业有足够的力量来应对他们的需要。

在网络、检查数据来源、数据仓库准备区、以及它们之间的任何设施方面,要确保有足够的带宽用于数据的移动。●技术架构

技术架构被元数据目录所驱动。一切都应该受元数据所驱动。服务应该依从表格所需的参数,而不是它们的硬编码。技术架构的一个重要组件是 ETL(提取、转换和加载)流程,它涵盖了五个主要区域:

●提取-数据来自多种数据源并且种类繁多。在这个区域如果有数据的应用时必须考虑对它的压缩和加密处理。

●转换-数据转换包括代理主键的管理、整合、去标准化、清洗、转换、合并和审计。

●加载-加载通常是利用加载最优化和对整个加载周期的支持对多种目标进行加载。

●安全-管理员访问和数据加密的策略。

●元件控制--它包括元件的定义、元件安排(时间和事件)、监控、登录、异常处理、错误处理和通知。

数据准备区需要能够从多种数据源提取数据,如MVS、ORACLE、VM和其它,所以当你选择产品时要具体。它必须将数据进行压缩和加密、转化、加载(可能对多个目标)和安全处理。此外,数据准备区的活动要能够自动化进行。不同的供应商的产品做不同的事情,所以大多数企业将需要使用多种产品。

一个监控数据仓库使用的系统对查询的采集、使用的跟踪是有价值的,而且也有助于性能的调整。性能优化包括通过“管理者”工具进行的成本估算,而且应包括即时查询的时间表。有工具能够提供查询管理服务。可使用工具来针对这些和其它相关任务,如对前台的基于服务器的查询管理和来自于多种数据源的数据。也有工具可用于报表、连通性和基础设施管理。最后,数据访问块应包括报表的服务(如发布和订阅),还应包括报表库,调度程序和分布管理员。

关于元数据

在数据仓库流程中数据的创建和管理要遵循以下的“步骤”:

●数据仓库模型

●数据源的定义

●表的定义

●数据源到目标的映射

●映射和转换信息

●物理信息(表格空间,等)

●提取数据

●转移数据

●加载统计

●业务描述

●查询请求

●数据本身

●查询统计

为显示元数据的重要性,上述的步骤列表中只有三步包括了“真正”的数据-

7、8和12。其他的一切都是元数据,而且整个数据仓库流程都依赖于它。元数据目录的专业技术要素包括: ●业务规则--包括定义、推导、相关项目、验证、和层次结构信息(版本、日期等。)

●转移/转换信息--源/目的地的信息,以及DDL(数据类型、名称等等。)

●操作信息--数据加载的工作时间表、依存性、通知和信息的可靠性(比如主机的重定向和加载平衡)。

●特定工具的信息--图形显示信息和特殊功能的支持。

●安全规则--认证和授权。

建立架构

在开发技术架构模型前,要先起草一份架构需求的文件。然后将每一项业务需求计划包含到它的架构中。根据架构的区域对这些内容进行分组(远程访问、数据准备、数据访问工具等)。了解它如何于其它区域相适应。采集区域的定义及其内容。最后提炼和形成模型的文件。

我们认识到开发一个数据仓库架构是困难的,因此要有一个周密细致的规划。但ZACHMAN框架又超出了大多数企业对数据仓库的需要,所以建议使用一个合理的折衷方案,它由四层流程所组成:业务需求、技术架构、标准和工具。

业务需求本质上驱动着架构,所以要对业务经理、分析师、高级用户进行访谈。从你的访谈中寻找主要的业务问题,以及企业战略、发展方向、挫折、业务流程、时间、可用性、业绩预期的指标。将它们一一妥善归档。

从IT的角度来看,跟现有的数据仓库/决策支持系统(DSS)的支持人员、联机分析处理(OLTP)应用组成员、数据库管理员们(DBA);以及网络、操作系统和桌面支持人员进行讨论。也要与架构师和专业规划人员进行探讨。你应该从这些讨论中得知他们从IT的观点考虑数据仓库的意见。从中了解是否有现存的构架文件、IT原则、标准文件、企业数据中心等。

关于数据仓库并没有太多现存的标准,但对于许多组件来说是有标准的。下面是一些需要牢记的标准:

●中间设备--开放数据库连接(ODBC)、对象链接与嵌入(OLE)、对象链接与嵌入数据库(OLE DB)、数据通信设备(DCE)、对象请求代理(ORB)和数据库编程(JDBC)

●数据库连接--ODBC, JDBC, OLE DB, 和其它。

●数据管理--ANSI SQL 和文件传输协议(FTP)

●网络访问--数据通信设备(DCE)、域名服务器(DNS)、和 轻量目标访问协议(LDAP)

无论它们支持的是哪种标准,主流的数据仓库工具都受元数据所驱动。然而,它们通常并不互相共享元数据而且在开放性上也所有不同。所以,要仔细研究和购买工具。架构师是你选择适当工具的向导。

一个数据仓库架构需要具体到怎样的程度呢?这个问题要问的是:它有足够的信息可以让一个有能力的团队来建立一个满足业务需求的数据仓库吗?至于它要花多长时间,随着更多的人加入到它的开发中来(即:它变成了“复杂的技术策略”)和生成的系统需要变得更复杂(即“复杂的功能”),架构的完成会呈指数倍的发展。

像数据仓库中几乎所有的事情一样,一个迭代进程是最好的。你不能一次做完所有的事情因为它太大了,而且业务不能等。同时,数据仓库的市场还没有完备。所以从流程中影响大、高价值部分开始,然后,利用你的成功去带动另外的阶段。

总结:

综上所述,建立一个数据仓库架构的好处如下:

●提供了一个组织结构的框架--架构对什么是单独的组件、如何将它们组装在一起、谁拥有什么部分以及优先次序的问题划出了界线。

●提高了灵活性和维护性--让你能快速加入新的数据来源,接口标准允许即插即用,模型和元数据允许影响分析和单点的变化。

●更快的开发和再利用--数据仓库开发者更能够快速了解数据仓库流程、数据库内容和业务规则。

●管理和通信的工具--定义未来方向和项目范围,确定职务和职责、对供应商传达需求。

●协调多项任务同时进行——多种、相对独立的工作有机会成功地集合。

我们建议公司对准业务需求而又要务实一些。时刻跟上数据仓库产业的进步是很重要的。最后,请记住架构总是存在的:或隐性或具体的,或无计划或计划内的。经验证明,有一个计划内和具体的架构会使数据仓库与 商业智能项目有更多的成功机会。

1.2.5如何规划数据仓库中的数据清洗

可以将数据仓库的数据清洗比做政客们募集资金的过程。几乎不存在任何一方独立存在的可能性。数据清洗往往是数据仓库项目中时间最密集的,最有争议的进程。

什么是数据清洗?

“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”

在哪里会用到数据清洗的一个简单例子是,数据是如何储存在不同的应用系统中的。例如:2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。

为什么要进行提取,转换和加载(ETL)?

提取、转换和加载(ETL)指的是一种可以帮助确保数据在进入数据仓库之前被清洗过(即符合标准)的工具。供应商提供的提取、转换和加载(ETL)工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载(ETL)工具坐镇在数据仓库之前,监测输入的数据。如果它遇到了程序指定转换的数据,它就会在数据载入数据仓库之前对其进行转换。

提取、转换和加载(ETL)工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具,这要取决于你项目的复杂性和预算。数据库管理员们(DBA)可以编写脚本来完成提取、转换和加载(ETL)的功能,通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务(DTS)的提取、转换和加载(ETL)工具。数据转换服务(DTS)是一款不错的免费工具,但它确实有其局限性,尤其是在数据清洗的持续管理上。

提取、转换和加载(ETL)的供应商有Informatica、IBM(Cognos)及Pentaho等。在对所有产品进行选择时,在接触供应商之前列出你认为对一个提取、转换和加载(ETL)供应商的需求。从咨询顾问那里获得服务还是值得的,它能在产品的选择上帮助你进行需求分析。

数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?

在数据仓库产生的结果符合利益相关者的期望值时,提取、转换和加载(ETL)通常被忽视和置于脑后的。结果是,提取、转换和加载(ETL)冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。

如何规划数据清洗?

及早开始对将要进入数据仓库的数据进行筹划是很重要的,这一筹划可能会随着项目的成熟发展而改变,但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时,这些文件的踪迹就变得极为有价值。

创建一个需要提取、转换和加载的数据列表。为极有可能需要转换格式的数据设立一个独立的列表。对是否需要购买提取、转换和加载(ETL)工具做出决定,并留出一个全面的预算。从该领域的专家那里听取建议并评估产品是否适用于你企业的整体技术层次。

下载《数据处理》教学设计(推荐)word格式文档
下载《数据处理》教学设计(推荐).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    数据处理工作总结

    2011年XXX空间数据处理工作总结 2011年XXX水利普查空间数据工作,严格按照《第一次全国水利普查空间数据采集与处理实施方案》要求,以质量为中心,精心组织、周密安排,经过全区普......

    mtt数据处理

    实验一急性毒性试验(改进寇氏法) 一、目的与要求 1、学习急性毒性试验的方法,掌握LD50的测定方法。 2、观察马钱子的毒性反应。 二、实验原理 急性毒性试验是指受试动物在一次......

    GPS数据处理

    《GPS数据处理》课程总结报告 班级:地101 学号:2103071011291 姓名:常悦成绩:北京建筑工程学院.测绘与城市空间信息学院 二零一三年. 五月 《GPS数据处理》课程总结报告 1. GP......

    GPS测量数据处理

    8.1.1 GPS测量数据粗加工的两个部分 GPS测量数据的粗加工包括数据传输和数据分流两部分内容。 大多数GPS接收机采集的数据记录在接收机内存模块上。在数据通过专用电缆线从......

    调研数据处理方法:

    调研数据处理办法:调研数据显示新一季MINISO名创优品在华知名度高达63%当前国内实体零售业市场普遍收缩的大环境下,MINISO名创优品的异军突起,为广大零售业界同行所震撼。为剖......

    图书采访数据处理

    图书采访数据处理 【摘 要】本文结合本人工作实践,以汇文图书采访系统为例,介绍了有关图书采访数据的处理技巧。【关键词】图书;采访;数据处理Book Interview Data Processing......

    数据处理学习总结

    数据处理与分析学习总结 通过对《数据处理与分析》这门课的学习,对试验设计与数据处理有了一定的了解。明白了什么情况下进行什么样的数据分析无试验,进一步学会了合理处理数......

    数据处理试题(精选5篇)

    数据处理 一.选择题 1、数据统计分析的基本步骤是A、 确定问题、收集数据、统计数据、结合图表、依据数据及图标分析得出结论 B、 收集数据、处理数据、制作数据图表 C、 确......