BI系统总结

第一篇：BI系统总结

团委引进CI的原因：

• 明确团委组织文化建设

• 增强团委对外的影响力，建立团委品牌，使我们更

方便、更有效地为同学服务。

• 营造团委内部的团队凝聚力

• 规范团委的制度与行为

• 传承团委优秀传统和工作经验，规划发展战略。BI：行为识别：置于中间层位的BI则直接反映组织理念的个性和特殊性，是组织实践管理理念与创造组织文化的准则

.BI（Behavior Identity）行为识别系统

工程学院团委的帮事宗旨应始终围绕团委的口号

“团结、高效、求真、务实”

一个组织的特色并不是体现在它的宣传上，而是体现在其特有的组织文化上，而其行为则直接体现其特色，BI系统不仅适合于现代企业，其特有的组织先进性也适合在其他组织上，工程学院团委经过长时间的探索，逐渐形成其特色的BI系统，以下主要体现在对内与对外两个方面。

• 对内：组织制度、干部教育项目管理工作环境行为规范、经验传承成员发展、总结规范等

• 对外：活动策划公共关系、第一，团委干部公共礼仪素质

（1）讲规则是根本：着装要求，社交谈吐；公共环境；电话和名片的使用

（2）懂处事是核心：与人方便，同己方便；与人讲话，看人脸色；与人美言，可免百忧；微笑是打开心锁的钥匙；情比理更能打动人的心弦

第一，团委干部公共演讲素质：用大脑想话；用语言传话；用身体融话

第二，团委干部公共策划素质：把想到的记下来；按记下来去实践；把做过的总结起来

1.组织制度：“无规矩不成方圆”。春秋战国时期，正是法家的法派商鞅使秦国 1

走向强大，终而一统天下。由此可见，没有制度，无以成组织。制度化有利于团委日常工作的开展。《共青团华南农业大学工程学院委员会章程》是团委所有干部的最高行动指南，还有《办公室管理制度》《项目管理制度》《请假制度》《会议制度》《干部绩效考核制度》《先进团支部评比条例》等规范团委成员的日常工作。

（一）制度（节选）

《共青团华南农业大学工程学院委员会章程》

1.团委会在校党委的直接领导下，开展各项有益于学生学习和身心健康的活动，促使学生

德、智、体、美、劳全面发展。做优秀团员入党的推荐、培养、考察工作。

2.团委宗旨：以“团结、高效、求真、务实”为原则，以服务广大同学为宗旨，以马克思

列宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想为行动指南,以科学发展观为指导方针。团委意识：创新意识，服务意识，学习意识，奉献意识。

3.发挥党联系青年的桥梁和枢纽作用。关心学院广大同学的学习和生活，切实为同学服务，及时向上级反映同学的意见和要求。

4.积极参与和配合学院搞好团组织工作和学生会组织工作，致力于学生管理；带动全院学

生活动，组织全院学生学习党、团的思想，致力于把全院学生培养为有理想、有道德、有学问的、具备综合素质的优秀学生，为国家、为社会培养国家之栋梁，有用之才。要发扬团的优良传统和先锋作用，富于创造性地开展工作，把工程学院团委建设作为教育青年团员的坚强核心。

2.干部教育：

A：每一位团委干部都应该关注社会形势发展，接受团务教育和素质培训，不断提高办事的效率和质量。

B：平常应多一点向上一届的团委成员请教,向老师讨教等。

C：在平时的工作中多思考，多学习，充分利用网络、图书馆、往届团委资料光碟，积累有经验的前辈传承下来的底蕴。

D：多一点与本学院的学生组织交流，相互交流与学习。

E：可以以学院团委的名义，与兄弟学院的团委或其他组织进行经验交流和相互学习，以达到共同进步的目的。

3.项目管理：就是在有限资源的约束下，运用系统的观点、方法和理论，对项目涉及的全部工作进行有效地管理。项目化管理是以培养干部的创新精神和实践能力为目的的，并在团委的宏观政策指导下，通过对每个活动和每件工作实行专人总负责，专人总管理的方法，使各方面的人力、物力、信息、资金等多方面资源达到最优配置的一种学生工作运行方式。项目化管理为学生干部搭建成长的平台，给他们留下自我发展的时间和空间

项目管理办法：

（1）、成立筹委会时，负责人必须尽可能收集多关于项目的资料

（2）、筹委会必须于活动开展前向副书记提交初步策划意向书

（3）、获得批准、并结合老师意见后完善活动的具体策划书，工作开展

（4）、活动进行过程中，筹委会必须定时向副书记汇报情况

（5）、活动后筹委会内部必须2天内向负责人汇报财政状况

（6）、活动后必须于3天内向副书记上交财务清单，副书记也应在一周内进行结余

（7）、活动后5天内必须向副书记和秘书部提交电子版详细项目总结报告

（8）、在完成财务结余和总结审核后，筹委会正式解散

附录：《办公室管理制度》

1、办公室作用：（1）日常办公场所（2）来访同学的“窗口”（3）存放团委学生会档案

办公室管理人员：秘书部

办公室地址：工程学院北楼3082、值班时间：周一至周五：上午10：00-11：30，下午4：30-6：00

值班组长：每日秘书小组值班人员

值班人员的要求：准时值班，不缺勤或早退，请假必须提前一天找人替班并告知当日值

班组长。到位后及时填写值班记录。仪表穿戴整洁，佩带工作证，热

情待人。服从当日值班组长指挥。离开办公室需关闭所有电器、关好

门窗。

3、档案管理：档案要一式两份，一份为电子版存于办公室电脑，文件档案分类存放入各类

文件夹。团委学生会成员经值班组长同意方可就地查阅。若需外借或拷贝电

子版需值班组长同意并登记，外借期限为2天。

4、电脑使用制度：严禁用于私人用途。电脑D盘为各类档案，严禁在负责人统一整理之前删除任何档案。工作环境：一个组织运行的高效与良好，离不开一个良好的工作环境。快乐的团队成员是工程团委的财富，和谐的团队文化是工程团委的灵魂。

团委的工作环境应该体现出人文关怀，成员间互爱互助

A:组织关心成员：在成员生日时送上诚挚的祝福，营造一种大家庭氛围

B:组员相互帮忙：当组员有困难时，大家尽力帮助，助人度难，以增强团委组员的凝聚力，创建一种和谐的环境；

C:部长热心对待干事:当干事做错事情时，部长们应热心帮忙纠正，体谅干事。D节日组织一些文体活动：如在中秋节组织不会家的成员们一起欢聚等行为规范：

A:团委成员工作期间必须佩带工作证，大型活动或集体工作期间必须穿上团委工作服。

B:团委成员在出席工作会议时应该具备两样道具：笔和笔记本。会议中禁止玩手机、交头接耳，手机应调置静音状态，保持会场肃静

C:平常接到领导的工作指示或安排时，应严格执行，按时完成，完美完成。

D:组员见面时要相互问好。

E:在工作期间组员们要认真严肃，切勿大喊大叫，乱走乱跑。

F:在日常工作中，应待人以礼，助人为乐，尊师为重。

G：在行为规范中，符合大学生行为准则是前提，一切行为规范都以其开展。H：大家应该懂得互相尊重，用微笑去真挚交流。

I：参加工作会议时，避免缺席、迟到、早退现象。按会议要求提前10分钟进场，如有事不能参加会议，应事先按团委规定逐级办理请假手续；在完成上级组织下达的工作任务时，应充分理解工作内容，常常向组织汇报工作进度，保证工作的衔接；任务实施时，遇到疑问和同事或组织商量。

6沟通规范：

团委成员信息沟通应该为“双向高效”沟通。

A：“双向”是指上级布置工作时对下级的耐心指导和经验传承和下级向上级汇报工作是的工作总结和心得体会。

B高效”是指工作要定量化，在分工合作的模式下按时甚至提前完成工作。但高效并不代表只追求快而忘了质量，团委的高效应该是在高质量的前提下追求快。

C：团委委员的通知由秘书部负责，团委小组成员的通知由所属部门负责。

7成员发展：

团委成员的培养采取直接上级负责制，直接上级要注重下级的发展，进行随时随地随事地培养。

A;对于团委部长级以上干部建议选修管理学课程；对于团委全体成员进行系列培训，由秘书部负责安排，由各个部门直接培训。

B:团委成员作为学生干部，更应该懂得在日常工作中总结经验，自我学习，不断提高为人民服务的悟性。

C:在工作中，团委成员要积极开展批评和自我批评，不断完善自我，完善团委。D:谦虚地向有经验的同学或老师请教。

E：懂得利用图书馆或网络的知识，解决工作中的问题。

8经验传承：

团委每完成一个项目，应该通过系统总结，将经验以文字记录或光盘的形式传承下来。不断经验积累，避免重复投资，降低项目成本，实现高效管理。

A：在项目完成后一周内，项目负责人以及各相应分管部门把总结和和项目的所有相关资料交到秘书部汇总存档。

B;平常工作中，上级应该主动向下级介绍工作经验。

9总结规范：

A：项目负责人的总结内容包括：①项目实际具体策划书；②逐点罗列成功经验或突破，并相应作具体说明；③逐点罗列不足之处或教训，并相应分析原因和作出建议；④活动经费结算清单。

B:筹委会内部成员总结内容包括：①介绍项目分管工作，对相关细节有必要作说明； ②逐点罗列成功经验或突破，并相应作具体说明；③逐点罗列不足之处或教训，并相应分析原因和作出建议。④对活动后，自己心里的体会。

1.活动策划：

1.活动项目化，活动系列化，宣传有效化，资金多元化，工作透明化

2.策划书策划书的主要内容及应注意的细节

（1）背景、主题（2）活动目的及意义（3）主办，承办，协办方（4）活动对象（影响范围）（5）活动时间地点活动内容（6）活动筹备委员会（7）具体流程（8）效果预测（9）物资清单（10）经费预算（11）突发情况处理方案（12）第二第三备选方案

2.公共关系：

• 正确处理学院团委与年级团总支间的关系，明确组织的责权，肯定团总支的独

立性。

• 积极配合校团委、院党委开展工作，加强与各兄弟学院团委的交流合作，优势

互补，相互促进，共谋华农学生组织的发展。

• 坚持独立性原则的基础上，密切团结院学生会，发挥两大组织合作的巨大作用，携手开创工程学院学生工作的美好明天

共青团华南农业大学工程学院委员会章程

总则

第一条华南农业大学工程学院团委是在学院党委直接领导下的学生群众组织，她以共

产主义精神教育青年，帮助青年用马克思列宁主义、毛泽东思想和现代科学文

化知识武装自己，引导青年在社会主义现代化建设中，锻炼成为有理想，有道

理，守纪律的共产主义事业的接班人。团委会在校党委的直接领导下，开展各

项有益于学生学习和身心健康的活动，促使学生德、智、体、美、劳全面发展。

团委会要配合党委开展适合学生特点的思想教育工作，引导学生树立正确的人

生观、世界观、道德观。团委会代表青年学生的利益，维护青年学生利益，倾

听同学们的呼声，充分发挥桥梁和纽带作用。对团员进行党的基础知识及党的路线、方针、政策的教育，做优秀团员入党的推荐、培养、考察工作。

第二条团委宗旨：

以“团结、高效、求真、务实”为原则，以服务广大同学为宗旨，以马克思列

宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想为行动指南,以科学

发展观为指导方针。

第三条团委意识：创新意识，服务意识，学习意识，奉献意识。

第四条院团委的基本任务：

热爱祖国，热爱人民，坚决拥护中国共产党的纲领，以马克思列宁主义，毛泽

东思想和邓小平理论及江泽民同志“三个代表”的重要思想为行动指南，以科

学发展观为指导方针，解放思想，实事求是，与时俱进，总揽全局、统筹规划，团结各年级学院团员青年。坚定不移地贯彻党在社会主义初级阶段的基本路线，造就有理想，有道德，有文化，有纪律的社会主义接班人，努力为党输送新鲜

血液。加强学院广大团员的思想政治工作，帮助团员青年学习科学文化知识，发挥团总支的先锋作用,不断提高团员青年的文化素质与政治思想觉悟。

始终把实现好、维护好、发展好广大团员学生的根本利益作为团委一切工

作的出发点和落脚点，尊重学生主体地位，发挥学生首创精神，保障学生

各项权益。

发挥党联系青年的桥梁和枢纽作用。关心学院广大同学的学习和生活，切实为

同学服务，及时向上级反映同学的意见和要求。

积极参与和配合学院搞好团组织工作和学生会组织工作，致力于学生管理；带

动全院学生活动，组织全院学生学习党、团的思想，致力于把全院学生培养为

有理想、有道德、有学问的、具备综合素质的优秀学生，为国家、为社会培养

国家之栋梁，有用之才。要发扬团的优良传统和先锋作用，富于创造性地开展

工作，把工程学院团委建设作为教育青年团员的坚强核心。

详细内容请查看《共青团华南农业大学工程学院委员会章程》

第二篇：典型的BI系统介绍

一个典型的BI系统介绍

商业智能系统应具有的主要功能：

读取数据——可读取多种格式（如Excel、Access、以Tab分割的txt和固定长的txt等）的文件，同时可读取关系型数据库(对应ODBC)中的数据。

分析功能——关联/限定关联分析主要用于发现不同事件之间的关联性，即一个事件发生的同时，另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。

数据输出功能——打印统计列表和图表画面等，可将统计分析好的数据输出给其他的应用程序使用，或者以HTML格式保存。

定型处理——所需要的输出被显示出来时，进行定型登录，可以自动生成定型处理按钮。以后，只需按此按钮，即使很复杂的操作，也都可以将所要的列表、视图和图表显示出来。

以国外的一个BI系统为例，我们来介绍一个BI系统的主要功能，这个系统主要包含数据仓库管理器(Warehouse Manager)、数据复制(Data Propagator)、多维数据库(OLAP Server)、前台分析工具(Wired for OLAP)以及数据挖掘(Intelligent Miner)、On Demand。

数据仓库管理器(Warehouse Manager)

它主要由以下几部分功能组成：数据访问，数据转换，数据分布，数据存储，靠描述性数据查找和理解数据，显示、分析和发掘数据，数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距，有助于公司更进一步了解其业务、市场、竞争对手和客户。

数据复制(Data Propagator)

Data Propagator提供的复制功能允许从一个数据源读取数据并把它送到另外一个地方，而且可以是双向的。当发生冲突时，可自动检测出来并进行补偿。此外，它还有以下特色：

1)Pull Architecture Through Staging Tables(分级表牵引式体系结构)：二个组成部分----

Capture和Apply。Capture部分在源数据库服务器上运行，它捕获要被复制的数据，并把数据放入服务器分级表中；Apply部分在目标机上运行。在用户定义的时间间隔里或某个事件发生后，它连到源数据库中，并从分级表中抽取所需的数据。这种被动的“牵引式”体系结构减少了数据源的额外开销，能够支持数据源及目标机的独立运作性以及新一代流动计算机作为目标机的数据复制。这种体系结构还支持中介分级表，其中最初的源可以复制到区域目标中，然后再复制到各区域内的目标机上。

(2)支持更新和修正：既支持更新也支持修正复制。Apply可以完全替换目标数据或者仅仅修正上次复制以来所发生的改变。

(3)改变事务运行记录的Capture：捕获数据修改。它从数据库运行日志(LOG)中读出修改，从而抓取用于复制的数据修改，进而安排好这些数据。这就减少了对源的额外开销，不需要另外处理如触发器。甚至可以直接从内存中读运行记录，以减少I/O。

(4)加工数据：数据首先要从运行记录移到分级表，所以能在复制之前加工或处理它；由于分级表是数据库表，使用标准SQL就能定义加工处理功能。除了通过SQL来构造子集，汇总并连结表以外，分级表还能提供基于时间分析源数据改变的方法。这要考虑到整个新一类的应用包括检查跟踪，历史分析，“asof”查询等等。

（5)GUI管理机构：通过图形用户界面可以定义和管理数据拷贝，定义代码和触发器没有专门语言。这样最终用户就有权定义和管理，而不仅仅是DBA和程序员的范围。

多维数据库服务器(OLAPServer)

该工具在商务智能中扮演着重要角色，可以深入最终用户的业务，对桌面上的数据进行实时操作，能够快速地分布传统监视和报告范围之外的应用程序数据。

数据挖掘工具(IntelligentMiner)

当用户的数据积累到一定数量时，这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中，该工具帮助客户发现这些有价值的数据。

Wired for OLAP

使用该功能可以提高信息技术组织的效率。信息技术人员可以让用户利用分析和报表的功能获得他们所需的信息，而不会失去对信息、数据完整性、系统性能和系统安全的控制。

(1)强大功能的报表

繁忙的信息技术部门可以在几分钟内创建用于在企业中分发的完善的报表。，决策人员可以从该Web页面上找到可用的一系列报表。

(2)图形化分析

远远超出对数据的静态图形化视图，提供强壮的图形化OLAP分析。决策人员可以根据需要排序、分组数据并改变“图表”(Chart)的类型（直方图、饼形图、线图、堆积图）。图表中的元素可以被“钻取”到其他的细节层次，并可以返回来恢复一个概要性的视图。

(3)多种图表视图：直方图、线图、组合图、饼形图、堆积图和离散点图

(4)可在任何地方“钻取”没有路径的预先定义

(5)完善的报表：复合报表通过用各种不同的形式（交叉表、图表、表格或以上几种形式的组合)来表现分析结果，对工作进行概括；优美格式的商用报表。

(6)交互式的、立即的“所见即所得”(WYSIWYG)显示

OnDemand

该工具提供给客户一套高性能的解决方案来进行在线捕获、存储和重取计算机输出的文档。它使得落后的纸张文件搜索和使用缩微胶片阅读器搜索称为历史。有了OnDemand，客户可以立刻发现特定的信息并且很容易地浏览它，而不用在庞大的数据和纸张中苦苦寻找；存储、重取和分发企业产生的信息比以前更加方便和易于接受。泰康人寿以BI实现战略转型

泰康人寿保险公司从建立之初，就意识到信息化建设对企业发展的重要性。为促进业务的开展，泰康人寿已经建立有多个业务信息系统，主要包含:财务系统、个险系统、团险和银行险系统，呼叫中心以及用于开展电子商务的泰康在线交易系统。这些系统从企业不同需求层面很好的支持了泰康人寿的业务运营。但由于各个系统都有自己的数据,如何将分散在不同系统的客户数据集中起来有效使用，为各部门提供数据分析能力，为决策提供依据,成为目前需要解决的问题。

为此，泰康人寿希望建立一套以CRM为核心的商务智能系统(BI)，使公司管理人员能够对与客户(现有客户以及潜在客户)有关的各种要素(需要、方式、机遇、风险、代价等)和企业运营当中各项关键指标(KPI)做出分析与评估，以便于为本企业赢得最大的回报。

泰康人寿商务智能项目最终选择了Sybase寿险行业IWS解决方案，并以此为基础整合原有的五大业务系统，实施九项业务分析主题。

在实施方法上，泰康保险采用了增量式开发，也就是整体设计、分布实施的策略，这可以使泰康人寿能够边实施边见效，并且使用过程中的反馈信息将有助于下一步的开发工作，因此极大地提高了开发的效率。BI项目分成两个主要阶段：第一阶段，完成BI项目的一个或二个分析主题。第二阶段，以第一阶段建立的分析环境为原型，进行更进一步的需求调研，完善和明确BI项目的业务需求，全面地进行IWS的客户化工作。

商务职能系统能够使泰康人寿在成本、收入和战略方面获益。

成本方面：借助商务智能系统，泰康人寿可以得到完整的视图，来分析成本构成，改变成本管理现状，降低业务运作成本。通过CRM 系统提供的各项分析数据，泰康人寿能在商业活动中，以更低的风险，做出最明智的决策。

收入方面：通过对营销员和营销机构产能的分析、利润的分析，可以大大改进泰康人寿在营销过程中的效率，加速产品上市时间，获得更精确更全面的市场和客户信息,实现与合作伙伴之间更好的合作，提高团队效率，保证将重要客户信息提供给需要方而提升交叉销售业绩。

战略方面：借助商务智能平台，泰康能对不断变化的市场环境、客户需求做出更快的反应。从历史数据中选择不同的角度考察消费行为,评估客户价值，细分客户群；针对不同的客户群发掘消费特点，建立数据模型，对不同的客户群做出预测；估计对收益或利润的影响，对市场活动的效果进行预测，通过设置商业规则，进行复杂的市场划分；最终帮助泰康实现从以产品为中心的战略，转换到以客户为中心的战略。Session1：医院智能分析业务与需求

Session2：解决方案技术框架与Demo效果；

Session3：关键技术和实现；

ETL-如何确定起始来源数据

How is the system-of-record determined? 如何确定起始来源数据？答：

这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样，不同的人对它有不同的定义。在Kimball的体系中，System-of-Record是指最初产生数据的地方，即数据的起始来源。在较大的企业内，数据会被冗余的保存在不同的地方，在数据的迁移过程中，会出现修改、清洗等操作，导致与数据的起始来源产生不同。

起始来源数据对数据仓库的建立有着非常重要的作用，尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库，我们遇到垃圾数据的风险就会越大。

ETL架构师面试题（中文）ETL架构师面试题（中文）

本部分的题目来自Kimball的ETL Toolkit著作，原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的，仅供参考。对于其中不确切的地方，欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。

-----答案持续更新中，点击题目可见答案。

分析

1．什么是逻辑数据映射？它对ETL项目组的作用是什么？

2．在数据仓库项目中，数据探索阶段的主要目的是什么？

3．如何确定起始来源数据？

架构

4．在ETL过程中四个基本的过程分别是什么？

答：

Kimball数据仓库构建方法中，ETL的过程和传统的实现方法有一些不同，主要分为四个阶段，分别是抽取（extract）、清洗（clean）、一致性处理（comform）和交付（delivery），简称为ECCD。

1．抽取阶段的主要任务是：读取源系统的数据模型。连接并访问源系统的数据。变化数据捕获。

抽取数据到数据准备区。2．清洗阶段的主要任务是：清洗并增补列的属性。清洗并增补数据结构。清洗并增补数据规则。增补复杂的业务规则。

建立元数据库描述数据质量。

将清洗后的数据保存到数据准备区。3．一致性处理阶段的主要任务是：

一致性处理业务标签，即维度表中的描述属性。

一致性处理业务度量及性能指标，通常是事实表中的事实。去除重复数据。国际化处理。

将一致性处理后的数据保存到数据准备区。4．交付阶段的主要任务是：

加载星型的和经过雪花处理的维度表数据。产生日期维度。加载退化维度。加载子维度。

加载1、2、3型的缓慢变化维度。处理迟到的维度和迟到的事实。加载多值维度。

加载有复杂层级结构的维度。加载文本事实到维度表。处理事实表的代理键。

加载三个基本类型的事实表数据。加载和更新聚集。

将处理好的数据加载到数据仓库。

从这个任务列表中可以看出，ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说，ETL系统的设计应该和目标表的设计同时开始。通常来说，数据仓库架构师和ETL系统设计师是同一个人。

5．在数据准备区中允许使用的数据结构有哪些？各有什么优缺点？

6．简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上？

抽取

7．简述异构数据源中的数据抽取技术。

8．从ERP源系统中抽取数据最好的方法是什么？

9．简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。

10．简述出三种变化数据捕获技术及其优缺点。

数据质量

11．数据质量检查的四大类是什么？为每类提供一种实现技术。

12．简述应该在ETL的哪个步骤来实现概况分析？

13．ETL项目中的数据质量部分核心的交付物有那些？

14．如何来量化数据仓库中的数据质量？

建立映射

15．什么是代理键？简述代理键替换管道如何工作。

16．为什么在ETL的过程中需要对日期进行特殊处理？

17．简述对一致性维度的三种基本的交付步骤。

18．简述三种基本事实表，并说明ETL的过程中如何处理它们。

19．简述桥接表是如何将维度表和事实表进行关联的？

20．迟到的数据对事实表和维度表有什么影响？怎样来处理这个问题？

元数据

21．举例说明各种ETL过程中的元数据。

22．简述获取操作型元数据的方法。

23．简述共享业务元数据和技术元数据的方法。

优化/操作

24．简述数据仓库中的表的基本类型，以及为了保证引用完整性该以什么样的顺序对它们进行加载。

25．简述ETL技术支持工作的四个级别的特点。

26．如果ETL进程运行较慢，需要分哪几步去找到ETL系统的瓶颈问题。

27．简述如何评估大型ETL数据加载时间。

实时ETL

28．简述在架构实时ETL时的可以选择的架构部件。

29．简述几种不同的实时ETL实现方法以及它们的适用范围。

30．简述实时ETL的一些难点及其实现方法。ETL-逻辑数据映射

What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射？它对ETL项目组的作用是什么？答：

逻辑数据映射（Logical Data Map）用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档，通常以表格或Excel的格式保存如下的信息：目标表名：目标列名：

目标表类型：注明是事实表、维度表或支架维度表。SCD类型：对于维度表而言。

源数据库名：源数据库的实例名，或者连接字符串。源表名：源列名：

转换方法：需要对源数据做的操作，如Sum(amount)等。

逻辑数据映射应该贯穿数据迁移项目的始终，在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的，它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。

-----------------------------补充：

逻辑数据映射分为两种:

: 模型映射: 从源模型到DW目标模型之间的映射类型有：一对一：一个源模型的数据实体只对应一个目标模型的数据实体。如果源类型与目标类型一致，则直接映射。如果两者间类型不一样，则必须经过转换映射。

一对多：一个源模型的数据实体只对应多个目标模型的数据实体。在同一个数据存储空间，常常出现会一个源实体拆分为多个目标实体的情况下。在不同的存储空间中，结果会对应到不同的存储空间的实体。一对零：一个源模型的数据实体没有与目标模型的数据实体有对应，它不在我们处理的计划范围之内。零对一：一个目标模型的数据实体没有与任何一个源数据实体对应起来。例如只是根据设计考虑，时间维表等。

多对一：多个源模型的数据实体只对应一个目标模型的数据实体。多对多：多个源模型的数据实体对应多个目标模型的数据实体。

2: 属性映射一对一：源实体的一个数据属性列只对应目标实体的一个数据属性列。如果源类型与目标类型一致，则直接映射。如果两者间类型不一样，则必须经过转换映射。

一对多：源实体的一个数据属性列只对应目标实体的多个数据属性列。在同一个实体中，常常出现会一个源属性列拆分为目标的多个属性列情况。在不同实体中，结果会对应到不同的实体的属列。一对零：一个源实体的数据属性列没有与目标实体的数据属性列有对应，它不在我们处理的计划范围之内。零对一：一个目标实体的数据属性列没有与任何一个源数据属性列对应起来。例如只是根据设计考虑，维表和事实表中的时间戳属性，代理健等。

多对一：源实体的多个数据属性列只对应目标实体的一个数据属性列。多对多：源实体的多个数据属性列对应目标实体的多个数据属性列。

作用: 1 为开发者传送更为清晰的数据流信息。映射关系包括有关数据在存储到DW前所经历的各种变化的信息，对于开发过程中数据的追踪审查过程非常重要。把ETL过程的信息归纳为元数据，将数据源结构，目标结构，数据转换规则，映射关系，数据的上下文等元数据保存在存储知识库中，为元数据消费者提供很好的参考信息，追踪数据来源与转换信息，有助于设计人员理解系统环境变化所造成的影响；

开发设计者可以轻松的回答以下的问题：

1、这些数据从那里来？

2、这样的结果通过什么样的计算和转化得来？

3、这些数据是如何组织的？

4、数据项之间有什么联系？

5、如果源发生变化，有那几个系统，目标受影响？

ETL-数据探索阶段的主要目的

What are the primary goals of the data discovery phase of the data warehouse project? 在数据仓库项目中，数据探索阶段的主要目的是什么？答：

在逻辑数据映射进行之前，需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段，一个是数据探索阶段（Data Discovery Phase），另一个是异常数据检测阶段。数据探索阶段包括以下内容：

1．收集所有的源系统的文档、数据字典等内容。

2．收集源系统的使用情况，如谁在用、每天多少人用、占多少存储空间等内容。3．判断出数据的起始来源（System-of-Record）。

4．通过数据概况（Data Profiling）来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况，为后续的数据建模和逻辑数据映射打下坚实的基础。

选择合适的ETL工具

ETL解决方案包括数据抽取（E）、数据传输、转换与清洗（T）、数据加载、调度（L），ETL系统将贯穿整个商业智能系统的全过程。

目前，商业智能系统有两种实施策略：

一种是将BI系统建造在目前已有的业务系统之上，以企业应用集成（EAI）系统为核心，将各个业务系统的独立数据统一成标准数据格式（如XML），然后，由BI系统进行整合、分析、展现。此类BI系统通常是与EAI系统捆绑在一起的，其架构读者可通过EAI系统的相关资料进行了解，此处将不做讨论。

另一种是将BI系统建立在企业级的数据仓库基础上，由数据仓库将企业的业务数据统一存储在企业逻辑数据模型架构中，然后，通过在数据仓库基础上建立逻辑或物理的数据集市、数据决策系统、数据在线分析系统等子系统，完成数据的整合、分析，然后由前端展现工具对已有的数据（原始数据、整合数据）进行汇总及展现。由于此类BI系统可以分步实施，用户可逐步建立其BI系统，所以成功率比较高。以目前已有的商业智能系统来看，此种架构将成为商业智能系统发展的主流。以下的讨论将以此种架构为基础。

在企业级的以数据仓库系统为中心的商业智能系统中，其组成架构包括以下几部分：

● 源数据系统

● 可操作数据存储系统（ODS）

● 数据决策系统（DDS）

● 在线分析系统（OLAP）

● 前端展现工具

● 元数据系统

商业智能系统运行的基础是互相独立、互不兼容的、复杂的源数据系统，各个源数据系统是企业在不同的历史时期建立的，面向不同业务需求的生产系统。因此，依照合理的方式整合源数据系统，将源数据统一存储在以企业逻辑模型构建的ODS系统中，DDS、OLAP、前端展现工具依照用户需求，对数据进行汇总、展示，并按照用户喜好的方式，将结果展现在用户面前是商业智能系统的基本任务。由于企业业务系统的复杂性，各个源数据系统的数据结构、格式、定义各不相同，为了能有效的整合企业数据系统，保持数据的一致性，并将数据统一地展现在客户面前，ETL解决方案是用户唯一的选择。

ETL解决方案包括数据抽取（E）、数据传输、转换与清洗（T）、数据加载、调度（L），毋庸置言，ETL系统将贯穿整个商业智能系统的全过程，如图所示，从源数据系统到前端展示系统的整个商业智能系统各个组件之间，都存在ETL过程。

ETL方案对整个商业智能系统的重要性可与血液与人体的作用相提并论，一个有效的ETL处理方案将是系统成功的首要因素。

ETL方案的选择应考虑以下方面：

● 数据操作效率；

● 数据操作时间周期；

● 定制的灵活性。

对ETL来说，数据操作的效率是最重要的考虑因素。对效率的考察，应包括以下几点：

1.是否支持复杂的数据操作；

2.是否支持多任务并行操作；

3.是否符合系统对数据处理时间窗口的要求。

数据操作时间周期的支持包括：

1.是否支持各种数据处理时间周期的混合操作；

2.是否支持数据的小批量持续加载；

3.是否支持数据的大批量定时加载。

定制灵活性包括：

1.是否支持数据依赖的建立；

2.是否支持数据流的建立；

3.是否支持操作定时启动；

4.是否可扩展；

5.开发环境是什么，开发是否简单、灵活。

对于ETL流程的建立，通常有以下两种方式：

● 利用数据库系统、业务子系统工具自行开发

● 购买现成的ETL工具

通常情况下，ETL方案中，以上两种方式是同时存在的。一般情况下，利用各个子系统提供的工具进行自行开发，可充分利用子系统的优化操作，提高数据处理效率，但其灵活性和可扩展性欠佳；购买现成的ETL工具（如EAI、Informatic等厂商的ETL工具），可灵活定制数据处理流程，简化数据开发，缩短ETL方案实施周期，但其处理效率较低。因此，建议读者应结合以上的ETL建立方式，在保证ETL性能的前提下，购买合适的ETL工具。利用UDF来调用操作系统命令和DB2的常用命令

由于DB2是不支持复合 SQL 语句内不支持调用操作系统命令，所以一些对应我们常用的一些语句如数据导入，导出是命令行而不是SQL语句，都不能在存储过程中调用，必须写一些 SHELL或者BAT文件，进行脚本编制来进行。但是在我们的这种BI应用中，ETL过程中的E过程，数据的导入是一件必不可少的过程，通过脚本的控制，比较麻烦和整个过程有点不是很完整。找寻是否有其他的解决方案。不过据说在新版本的DB2上是可以支持的。但是我们都是用V8.1

之前看了IBM网站的一篇文章，提到可以利用 UDF 来执行纯 SQL 中不可用的操作。因为UDF可以用外部语言（即，SQL 以外的其它语言，如JAVA，C）编写，并可以通过使用 CREATE 语句向数据库注册，这样我们就可以编写一个JAVA应用程序来调用操作系统命令和DB2的常用命令。当这个外部函数注册后，我们就可以在存储过程中可以使用该函数，进行数据的导入，导出。

参见资料“另一篇有关高级脚本编制的文章”和“如何注册Java UDF ”

步骤：

1、编写一个JAVA程序（os_cmdUDF.java）import java.io.*;import COM.ibm.db2.app.UDF;

public class os_cmdUDF extends UDF{

public static int os_cmd(String cmd){

Runtime rt = Runtime.getRuntime();

Process p=null;

int success = 0;

try {

p = rt.exec(cmd);

}

catch(IOException e){

success =-1;

}

return(success);

} }

2、运行javac UDFLogs.java编译 javac os_cmdUDF.java

产生的结果是一个称为 os_cmdUDF.class 的文件，随后需要将该.class 文件复制到 sqllib 目录

3、运行jar打包UDFLogs.class为os_cmdUDF.jar jar cf os_cmdUDF.jar os_cmdUDF.class

4、连上数据库，运行安装.jar文件到数据库 db2 connect to testsu user db2admin db2 “CALL sqlj.install_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”

之后os_cmdUDF.jar安装到D:IBMSQLLIBjarDB2ADMIN的路径下。

5、运行create 建立函数 DROP os_cmd;CREATE os_cmd(IN VARCHAR(1000))RETURNS INTEGER EXTERNAL NAME 'os_cmdUDF:os_cmdUDF!os_cmd' LANGUAGE JAVA PARAMETER STYLE JAVA NOT DETERMINISTIC NO SQL EXTERNAL ACTION;

6、测试os_cmd函数是否可用

db2 “values os_cmdUDF('db2cmd.exe')” 返回结果，1-----------

0 条记录已选择。

函数可以用。

7、建立调用os_cmd函数的存储过程。

CREATE PROCEDURE DB2ADMIN.sp_exec(--输入参数

IN loadstr varchar(1024),--输出参数

OUT o_err_msg varchar(1024))--支持语言

LANGUAGE SQL

P1: BEGIN--临时变量,出错变量

declare SQLCODE

integer default 0;declare stmt

varchar(1024);declare state

varchar(1024)default 'AAA';--记录程序当前所作工作 DECLARE status INT DEFAULT 0;

--声明出错处理

DECLARE EXIT HANDLER FOR SQLEXCEPTION begin

set o_err_msg='处理'||state||'出错 '||'错误代码SQLCODE:'||CHAR(SQLCODE);end;

--程序开始

SET status = os_cmd(loadstr);if(status <> 0)then

set o_err_msg = stmt;end if;

END P1

8、调用存储过程

call sp_exec('db2cmd.exe E:work_file济南商行测试DB2测试DBCONN_space.bat');

DBCONN_export.bat的作用（清空一个表）：

DB2 CONNECT TO testsu USER db2admin using db2admin/ db2 “load from 'E:work_file济南商行测试DB2测试space.dat' OF DEL MODIFIED BY NOROWWARNINGS MESSAGES 'E:work_file济南商行测试DB2测试space.log' REPLACE INTO jxdx_ckzhmx ” DB2 CONNECT RESET

9、验证存储过程调用的结果。

db2 select count(*)from jxdx_ckzhmx

注意：在测试这个功能的时候有一些细节没有注意，导致函数注册后不能调用。

1、编译JAVA源文件的编译器和执行的JVM的版本必须一致的 DB2 V8.2 安装时带的 “1.4.1”；而本机又另外装了一个 “1.5.0_05” 之前没有注意，直接使用命令javac来进行编译，用的是默认1。5版本的函数注册后，调用出错，提示SQL4304 reason code “1”的错误信息；

而给出的提示是说CLASSPATH 有问题，所以注意力一直放到这个方面找问题所在后来才发现真正的问题是出现在版本上。

最好直接在SQLLIBjavajdkbin的目录下编译后再COPY。

2、设置 Java 环境几个关键的设置：参见文档：《解决 DB2 UDB Java 存储过程的常见问题》

JDK_PATH：这是一个数据库管理器配置（DBM CFG）参数。这个参数指出用来执行 Java 存储过程的 JVM 或 Java Development Kit（JDK）的位置。

这是一个非常重要的参数。它的值应该设置为包含 JVM Java 可执行文件的 “bin” 目录的上一级目录的完整路径。

在 Windows?平台上的一个例子是 C:Program FilesIBMSQLLIBjavajdk。

UNIX? 例子是 /usr/java1.3.1。JVM 级别也非常重要，因为根据使用的 db2level 和平台级别，DB2 UDB 只支持某些 JVM 级别。

JAVA_HEAP_SZ：这是一个数据库管理器配置（DBM CFG）参数。

这个参数决定为 Java 存储过程和 UDF 服务的 Java 解释器所使用的堆的最大大小。为了避免在 Java 存储过程中耗尽内存，可以增加这个值。但是，如果在环境中要调用许多存储过程（即，每个 JVM 都会分配这么多堆空间），那么分配太多内存也是有害的。一般规则是保持 JAVA_HEAP_SZ 为默认设置，即 512（4K 页）。

其他相关内容：

一、如何安装jar文件到当前数据库：

db2 “CALL sqlj.install_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”

二、如何更新当前数据库中的jar文件： db2 “CALL sqlj.remove_jar('os_cmdUDF')”

三、如何替换当前数据库中删除jar文件：

db2 “CALL sqlj.replace_jar('D:IBMSQLLIBjavajdkbinos_cmdUDF.jar', 'os_cmdUDF')”

四、如何当前数据库中删除jar文件：

db2 “CALL sqlj.remove_jar('os_cmdUDF')”

五、如何刷新已经调用的jar或class，不用重启实例就生效： db2 “CALL SQLJ.REFRESH_CLASSES()”

通俗的讲：BO完成数据查询后，查询出来的数据存储在本地；Cognos完成数据查询后，查询出来的数据存储在服务器上。因此，BO可以在数据刷新完成之后直接利用客户端的切片/旋转等功能直接进行多维分析，而Cognos可以将查询出来的数据以excel文件的形式保存到本地，然后使用excel的数据透视表功能进行多维分析。

BO使用聚合表技术可以先将报表需要的常用维度的汇总数据存储到聚合表中，BO的语义层可以识别一个查询是否需要访问包含明细数据的表，如果该查询不需要明细数据，则生成SQL时直接访问聚合表，可以提高报表生成效率。Cognos不能实现此功能，所以查询部分报表的效率会有所下降，查询时间会变长。

BO中的语义层类似于Cognos中的主题

BO在前端展现方面比较突出，用户接受程度较高。是目前主流的商业智能工具之一，但因其没有OLAP Server，导致数据监控功能较弱，虽然也可以与微软或Oracle的OLAP Server挂接，但这样毕竟受制于人，给客户提供的方案也不是最集成的。

[介绍]Business Objects商务智能解决方案

作者：Administrator

周四, 13 11月 2008 12:23

Business Objects商务智能平台为客户提供了一个可扩展的基础设施平台，使信息得以准确及时地传递，提高了企业的洞察力。BO商务智能平台可以获取来自任何地方的数据，无论在最新的ERP中，还是散布在各处角落的历史文件中。该系列包括：信息发现与发布（Information Discovery & Delivery）

• 数据可视化和报表模块该模块是报表与仪表盘功能的延伸，它让普通用户直接在报表/仪表盘上分析信息，钻取数据。并把分析结果分发到各个地方，例如：移动设备，桌面，Email，门户网站和搜索引擎中。

企业信息管理（Enterprise Information Management）

• 数据集成（DI）与数据质量管理（DQ）模块-管理企业所有的数据库（包括SAP与非SAP），执行最常见的数据库应用，如：ETL（抽取、转换和上传），数据清洗等。

• 主数据管理模块（MDM）-使企业能够以巩固，协调和集中的方式管理关键业务数据。制定数据行业标准，帮助企业管理全球的主数据。

SAP集成解决方案(Integration for SAP Solutions)SAP基础解决方案使SAP 用户能够提取SAP 系统内包含的商务智能信息。BusinessObjects Integration for SAP Solutions 由以下主要组件组成：

• Crystal Reports 是允许依据SAP 数据创建报表的报表设计工具；

• BusinessObjects Enterprise 提供了用于在Web 上管理、计划和分发报表的框架。该解决方案允许Voyager、Web Intelligence、LiveOffice 以及Xcelsius 之类的工具依据SAP 创建报表。

• BusinessObjects InfoView 允许在Web 上共享报表，并且SAP 身份验证在SAP 系统与BusinessObjects Enterprise 之间实现了单一登录。

• Rapid Marts for SAP 为用户提供了各个SAP不同主题的数据集市ETL模板，样本语义层与报表。以便用户通过BO的ETL工具快速实施常用的数据集市。

BI-一般的实施步骤：商业智能的实施

用户不仅要选择合适的商业智能软件工具，还必须按照正确的实施方法才能保证商业智能项目得以成功，项目的实施步骤可分为: 2.1需求分析

在其他活动开展之前必须明确的定义企业对商业智能的期望和需求，包括需要分析的主题，各主题可能查看的维度，即需要发现企业哪些方面的规律。2.2 数据仓库建模

通过对企业需求的分析，建立企业数据仓库的逻辑模型和物理模型，并规划系统的应用架构，将企业各类数据按照分析主题进行组织和归类。2.3 数据抽取

数据仓库建立后必须将数据从业务系统中抽取到数据仓库中，首先将来自运营、财务、CRM等不同数据源的不同类型数据采用数据整合平台进行抽取、净化、转换和装装载，形成可以被系统识别的统一数据格式，导人数据仓库存放。2.4 建立分析报表

商业智能分析报表是数据仓库信息的展现，根据客户户的不同需求，利用多种展现工具，可以将存放在数据仓库中的历史数据进行展现和挖掘，生成报表，或者生成展现图表，进行分类和聚类，进行多维度检索等。无论是企业的高层管理者，还是普通的业务人员，都可以根据展现出来的数据或者挖掘出来的关联信息，辅助自己做出下一步的生产营销决策。2.5 数据测试与系统改进

要使系统成功交付使用，最终用户的培训与软件测试是关键的环节，可以找出系统的不足，以更好地适应实际应用。在用户使用一段时间后可能会提出更多的，更具体的要求，这时需要再按照上述步骤对系统进行重构或完善。

在BI实施的各步骤中，DW是基础，OLAP技术用于数据报表的生成，而DM技术用于产生支持决策的信息，从此也体现出Bl是上述多种技术的综合应用与体现。图1充分说明了这一点。商业智能具有的功能

BI产品和方案必须建立在稳定、整合的平台上，该平平台需要提供用户管理、安全性控制、连接数据源以及访问、分析和共享信息的功能。3.1 关联分析功能

关联分析主要用于发现不同事件之间的关联性，即一一个事件发生的同时，另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是，事件发生的概率和条件概率应该符合一定的统计意义。例如，一个开设储蓄账户的客户很可能同时进行债券交易和股票交易。利用这种知识可以采取积极的营销策略，扩展客户购买的产品范围，吸引更多的客户。3.2 监视功能

预先设置条件，使符合条件的数据以一定形式显示出来，这样可以使问题一目了然。例如:上季度营业额少于万元的分店显示出来，以引起管理人员的注意。3.3 记录选择功能

可以从大量数据中选取需要的数据，重新构成一个数据环境，可以使用户关注的数据集中显示出来。

3.4 程序调用功能

把通过按钮查找抽取出的数据，传给其他的软件或用户原有的程序，并执行这些程序。3.5 展示功能

BI要有查找、统计、排序等功能，并将结果以一定的的形式展示给用户，以支持用户进行多方面的数据分析和决策。3.6 数据输出功能

打印统计列表和图表画面等，可将统计分析好的数据输出给其他的应用程序使用，或者以HTML格式保存。

数据仓库技术是为了解决拥有大量业务数据的企业能及时有效地提取经营管理决策所需要的信息而产生的，如何有效地组织大量的数据，维护数据的一致性，方便用户的访问，这只是数据仓库技术的一个方面。另一个重要方面是如何为决策人员有效地使用信息提供方便，使他们能通过使用数据仓库系统对企业的经营管理做出正确的决策，从而为企业带来经济效益。然而，数据仓库中的大部分信息是不易浏览的。要使数据仓库为最终用户的决策支持提供数据，就要借助OLAP技术，通过 OLAP技术，利用数据的多维视图，用户能多角度、多侧面、多层次地考察数据库中的数据，从而深人地了解包含在数据中的信息及其内涵。OLAP为数据仓库提供了快速浏览、分析，若要智能化且主动地把这些数据转变为有用的信息和知识，离不开日益受到重视的数据挖掘技术。数据挖掘又称数据库中的知识发现(KDD)，是指从存放在数据库、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。从CRM 的角度，数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则，并能够根据已有的信息对未来发生行为做出结果预测，为企业经营决策、市场策划提供依据。在CRM中应用的数据挖掘模式主要有以下五种:关联分析、分类、聚类分析、序列分析、孤立点分析。对于要挖掘的数据，可以是来自传统的关系数据库，也可以建立面向主题的、采用多维数据立方体组织数据的数据仓库。

数据挖掘经过确定业务对象、数据准备、建立模型、验证模型、数据挖掘、结果分析等步骤，不仅完成了对历史数据的分析，以及不同客户群体的消费数据的分析，而且将这些数据知识化，以预测企业在未来将要发生的状况，从而提高企业的收益能力和决策能力。如，商家可以在分析市场销售数据的基础上选择潜在的顾客，以便向他们推销产品，减少了开展业务的盲目性。可以通过数据挖掘技术，发现有欺诈倾向的用户，避免企业受到损失。

第三篇：BI项目实施方案总结

项目实施阶段几个主要问题

1、数据准备

2、缺乏关键用户的参与

3、培训效果急于求成

4、需求扩大化

5、乙方的承诺

6、项目文档管理

一、数据准备

项目实施的数据准备阶段要求客户方提供完整的基础数据以及截至某一时间点的事务性数据，即便将数据整理完毕，其准确性也难以保证，导致不断出现反复核对修改数据，这样经常使得原计划的数据准备工作延期完成，而有的实际的业务数据已经发生，这给后期的业务处理带来很大的麻烦，导致项目总是模拟运行，无法实现按计划的顺利切换。（若是数据标准统一阶段无法按期完成，如何解决？或者按期完成了但是数据准确性不高，导致后期建模，报表等的修改，责任如何划分？修改的人天如何计算？）

解决方案---乙方应告知我们如何提供完整的、准确的数据字典，应如何去进行分类、编码、整理

二、缺乏关键用户的参与

项目实施不仅是软件供应商的事，关键用户必须全程参与项目实施，协调方案讨论、需求确认、计划审定并与实施人员一起推动项目实施，项目经理要定期进行阶段工作总结，分析存在的问题，总结项目实施的阶段性成果，制定下个阶段的实施计划，争取企业管理者的重视和信任

三、培训效果急于求成

培训不够正规，培训环境、人员、课件简陋，培训的效果大打折扣，客户对软件的功能、流程及设计思想认识不足，坚持过去模式，不能接受新系统带来的变化，项目经理的方案难以实施。（培训一定要让业务人员了解实施的整个过程以及各个阶段的内容和目标，要让业务人员明白实施能给他们带来的价值）

四、需求扩大化

需要一开始就明确需求，明确实施的范围和目标

五、销售人员不切实际的承诺

关于实施范围、要求能否实现等问题，一定要实施人员做出解答，而不能是销售人员

六、项目文档管理

需要有书面化的文档来明晰各自的职责，信息互通，共同把握实施的节奏（具体包括需求范围，人员职责等）需要标准的业务流程文档，有助于双方明晰业务流程，有效配合业务流程的重组和优化标准编码、标准数据文档及标准参数设置文档等，可有效地减少重复的工作

从报表开发流程及参与者角色的角度谈一下BW项目： 1.用户需求阶段：

报表应用从需求出发，因为BW报表一般是分析型的报表，需要需求提出者对业务有相当的了解，有较高的综合、归纳能力，若需求不准确，需求多变，报表开发周期难免会延长。

2.需求分析、模型设计阶段

此阶段可以说是报表开发最重要的阶段，与单纯R/3报表开发相比，BW报表需要更多的设计、架构。此阶段的参与角色除了需求者以外，最重要的是架构师、业务顾问。业务顾问要对用户需求领域的业务非常清楚，架构师除了精通BW技术外，对需求业务领域也必须有深入的认识，并且架构师、业务顾问必须沟通良好，否则会面临较大风险。有了基本模型，可能还需要一些程序来实现其中部分功能，因为涉及大量数据，程序设计人员除了实现功能外，尤其需要关注程序的效率。

3.数据抽取阶段

模型设计完毕之后，就可以开始抽取、加载数据了。数据抽取、加载人员必须对BW数据流有清晰的理解，根据数据流程设计自动处理链，让系统自动运行，并知道各类错误如何解决。

4.报表开发、权限配置阶段

此对报表开发、权限配置人员的基本要求同样是精通BW报表制作及权限配置。

5.报表测试、推广阶段

报表出来后先要经过业务顾问、关键用户仔细测试。由于BW报表一般涉及大量数据，复杂逻辑，在推广前一定要经过仔细测试，最好将各种业务可能都测试到，确保报表准确。

第四篇：BI实验报告

BI课程

学号：

姓名：王晓郁

专业：计算机科学与技术

日期：

实验报告

0841902112(08中法)2012年5月20日

实验、QL Server BI Step by Step SSIS 3 【开发语言及实现平台或实验环境】

sql server 2008

【实验目的】

（1）利用SSIS把SQL Server中的数据导出与导入。（2）熟悉和掌握实验的各种操作。

（3）能够在实际的事例中灵活运用学到的有关知识。

【实验原理】 1.SQL语句查询 2.SSIS包功能

【实验要求】

（1）利用SSIS实现了数据的导入和导出,把Product表中的数据导出成Excel,然后对产品编号和名称两个字段经过派生的功能进行转换再导入到数据库中。（2）按照实验步骤所示内容认真完成每一个步骤；

【实验步骤】 1.打开Vs.net 2005,选择商业智能项目,然后选择模板中的Integration Service项目,输入项目名称:

创建好后,就在默认的Package包中进行设计。

2.向控制流中添加一个数据流组件(Data Flow Task),双击进入数据流.从左边的工具箱中选择OLEDB数据源(OLE DB Source),可以看到,添加进去后是红色的.双击设置一下连接,如果没有已经创建的链接,则新建一个连接,选定后设置直接访问Produt表。

OK,确认了之后,发现红色的错误提示已经不存在了。

3.接下来直接再添加一个目标数据源,将数据导出成Excel数据格式,所以选择Excel Destination,同样,双击对Excel连接管理器进行配置,配置好文件名称和路径以后(此处选择在首行显示列名,这样会从第二行开始才开始显示数据),如果文件不存在,直接选择下面的新建,创建新的Excel工作表。

4.然后从左边切换到映射,对数据流中的元数据的列和Excel表中的列进行一一映射,因为刚才是自动创建的Excel工作表,所以默认是根据名称对应的.这样我们就完成了对Product产品表的导出,在右边的解决方案中,右击执行包,可以看到绿色执行成功.5.通过设置sql语句导出所有颜色为黑色的产品,让我们把OLEDB数据源的访问模式改成sql命令,然后输入查询语句:

SELECT * FROM Production.Product WHERE(Color = 'Black')

6.接下来,我们再将刚才导出的产品数据导入Product表中.再添加Excel Source和OLE DB Destination,其实就是做和导出相反的过程.把 Excel Source的OLEDB连接指向Excel连接管理器。

OLE DB Destination的连接设置成OLE DB Source中的数据库连接,同样,设置成以[表或视图]的方式访问Product表,确定后发现有红色错误。需要将rowguid字段,这两个字段都是数据库中自动生成的.再次确认后会发现已经没有错误,只剩下了黄色的警告,现在暂时不理会这个警告。

7.把刚才生成的Excel文件删除,重新配置Excel连接管理器生成新的空Excel文件(或者把生成的Excel中的数据删除),然后再次运行包,刚才的数据导出仍然正常,数据导入显示的是没有导入任何数据,这是因为在数据中刚才的数据导出和导出并没有先后,所以他们是同步执行的,执行导入时发现里面的数据为空,所以没有导入成功任何数据.不过,尝试着把数据导入的操作直接放在Excel Destination后面是失败的,Excel Destination就是数据流目标,意味着整个流程的结束.(此时Excel Destination中只可定义一个错误输出)。

8.切换到控制流,再添加一个数据流任务,将第一个数据流任何指向这个(鼠标拖拉绿色箭头):

9.双击刚添加的数据导入(已经编辑的数据流组件名称),把刚才的数据流中的组件剪切过来.清空Excel数据再次运行包,有错误 ,看下面的错误信息: An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “语句已终止。”.An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “不能在具有唯一索引 'AK_Product_ProductNumber' 的对象 'Production.Product' 中插入重复键的行。”.10.暂时通过添加一次转换,在刚才的数据流源和数据流目标中间再添加一个派生列组件(Derived Column ,Updates column values using expressions).添加一个新列NewProductNumber,在Excel中的产品编号后面加1,组成新的产品编号,同样派生出一个新的产品名称Name,因为在数据库中同样也有唯一性约束.11.还要修改OLE DB目标中的映射,将目标列的ProductNumber对应的输入列ProductNumber改成刚才派生的NewProductNumber.将目标列的Name对应的输入列Name改成刚才派生的NewName.清空Excel数据,再次运行包,都变成了绿色,执行全部成功

12．通过对比数据库,确实已经成功的添加进了93行新的数据

【参考文献】

1、SSIS_StepV2.pdf文档

【心得体会】

1.熟悉了sql server 2008的环境和熟练了SOL语言的使用。

2.通过实验得知，控制流中的数据导出和导入两个组件其实是前后约束条件的,也就是必须数据导出必须成功了才会执行导入(后面会介绍).另外,所谓的数据导出并不会局限于数据库的导入与导出，数据流源和数据流目标都可以是Excel,Flat File(txt,csv),XML,DataReader等连接.也就是说同样可以实现txt导入Excel,或者是XML导入数据库等操作。

第五篇：BI学习心得

BI学习心得 BI是什么

通过学习理解，可将BI归结为一句话：从数据中挖取利润。

1．1 初识BI 初识BI的概念，是从《BI相关知识介绍.ppt》开始的。通读之后，我了解三件事： 1）、沃尔玛将啤酒和尿布摆在一起出售，提高了啤酒的销量； 2）、BI是Business Intelligence的缩写，商务智能。官方定义：是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术。3）、BI的分析过程图，如下：

图1.1—BI Analyse的过程

同时，幻灯片中还介绍了大量的中英文概念，让我非常的混乱。为了更好的学习了解BI，首先需要克服的就是名词解释，其次是通过实例了解BI的应用。1．2 常见名词浅释

 ETL：数据抽取（Extract）、转换（Transform）、清洗（Cleansing）、装载（Load）的过程。构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。 Data Warehouse：数据仓库，是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是，数据仓库更像一种过程，对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。 Data mart：数据集市，或者叫做“小数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集，他主要面向部门级业务，并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 OLAP（On-Line Analytical Processing）：联机在线分析处理，是一类软件技术，它们使用户（业务分析师、经理和执行官）能够以交互形式快速、一致地探查数据，用户看到的是经过转换后的原始数据的各种信息视图，它们可以反映业务的真实维数。 ROLAP：基于Codd的12条准则，各个软件开发厂家见仁见智，其中一个流派，认为可以沿用关系型数据库来存储多维数据，于是，基于稀疏矩阵表示方法的星型结构（star schema）就出现了。后来又演化出雪花结构。为了与多维数据库相区别，则把基于关系型数据库的OLAP称为Relational OLAP，简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。 MOLAP：Arbor Software严格遵照Codd的定义，自行建立了多维数据库，来存放联机分析系统数据，开创了多维数据存储的先河，后来的很多家公司纷纷采用多维数据存储。被人们称为Muiltdimension OLAP，简称MOLAP，代表产品有Hyperion(原Arbor Software)Essbase、Showcase Strategy等。 Client OLAP：相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地，为用户提供本地的多维分析。代表产品有Brio Designer，Business Object。 DSS：决策支持系统（Decision Support System），相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息，经过加工整理，来为企业决策管理层提供信息，为决策者的决策提供依据。 Ad hoc query：即席查询，数据库应用最普遍的一种查询，利用数据仓库技术，可以让用户随时可以面对数据库，获取所希望的数据。 EIS：主管信息系统（Executive Information System），指为了满足无法专注于计算机技术的领导人员的信息查询需求，而特意制定的以简单的图形界面访问数据仓库的一种应用。

 BPR：业务流程重整（Business Process Reengineering），指利用数据仓库技术，发现并纠正企业业务流程中的弊端的一项工作，数据仓库的重要作用之一。 BI：商业智能（Business Intelligence），指数据仓库相关技术与应用的通称。指利用各种智能技术，来提升企业的商业竞争力。 Data Mining：数据挖掘，Data Mining是一种决策支持过程，它主要基于AI、机器学习、统计学等技术，高度自动化地分析企业原有的数据，做出归纳性的推理，从中挖掘出潜在的模式，预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策  CRM：客户关系管理（Customer Relationship Management），数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术，CRM就是基于数据仓库技术的一种新应用。但是，从商业运作的角度来讲，CRM其实应该算是一个古老的“应用”了。比如，酒店对客人信息的管理，如果某个客人是某酒店的老主顾，那么该酒店很自然地会知道这位客人的某些习惯和喜好，如是否喜欢靠路边，是否吸烟，是否喜欢大床，喜欢什么样的早餐，等等。当客人再次光临时，不用客人自己提出来，酒店就会提供客人所喜欢的房间和服务。这就是一种CRM。 Meta Data：元数据，关于数据仓库的数据，指在数据仓库建设过程中所产生的有关数据源定义，目标定义，转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息，所有这些信息都应当妥善保存，并很好地管理。为数据仓库的发展和使用提供方便。

1．3 实例应用

BI应用实例：

某家上市公司的销售副总裁每周五下午要和全国各大区的销售总监开视频会议，一般情况下他需要事先了解一下公司上周的销售情况，这时他进入公司的商业智能系统，查看销售周报表，报表的横坐标是时间，纵坐标有：“销售目标”、“实际收入”、“收入指标达成率”。这张报表显示了每周销售变化情况。

副总裁为了进一步弄清楚某一大区及大区下属的几大城市的销售数据，只要使用钻取功能，用鼠标轻轻在屏幕上点击几下，该大区及大区下各城市的销售数据便一目了然。钻取即这种从“全国水平”（宏观）到“地区水平”（微观）的分析过程。然后，副总裁需要了解在某一区域的销售数据中，哪些是直销完成的，哪些是渠道完成的，这种从报表视图的某一个角度到另外一个角度的视角转换过程被称为“切片”。钻取和切片的操作都非常简便，只需用鼠标简单地在电子报表上轻点几下即可完成。在上面的分析过程中，涉及到了“维”这个概念，即观察问题的角度。

这位销售副总裁的分析维度包括：时间、大区、销售模式，以这三个维为三个轴线来观察数据，就形成了一个信息立方体，立方体的每一个小单元都包含了企业管理者需要追踪的消息，包括一个特定地区、特定时间、特定销售渠道的各项指标的全部信息，通过对立方体的切片或切块分割，可以从不同的视角观察各种数据。通过“钻取”和“切片”，这位副总裁知道了销售情况的变化是哪个大区、哪些城市、直销或者代理渠道出现了问题，这种灵活快速的查询和分析如果通过过去的ERP报表查询是很难完成的。

通过实例可知，使用BI系统，可以将不同的数据源关联对应在一起，对企业信息进行管理、分析、自动生成报表，提高分析决策的效率和质量。

1．4 BI的定义

商务智能是指将企业的各种数据及时地转换为企业管理者感兴趣的信息（或者知识），并以各种方式展现出来，帮助企业管理者进行科学决策，加强企业的竞争优势。这里的数据不仅仅指企业内部的各种数据，而且包括企业外部的数据，例如行业、市场状况和客户资源的数据等等。

从技术角度看，商务智能的过程是企业的决策人员以企业中的数据仓库为基础，经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识，从数据中获得有用的信息和知识，帮助企业获取利润。

从应用角度看，商务智能帮助用户对商业数据进行联机分析处理和数据挖掘，例如预测发展趋势、辅助决策、对客户进行分类、挖掘潜在客户等等。

从数据角度看，商务智能使得很多事务性的数据经过抽取、转换之后存入数据仓库，经过聚集、切片或者分类等操作之后形成有用的信息、规则，来帮助企业的决策者进行正确的决策。

综上所述，我认为

BI的定义：商务智能是利用各种技术，对数据进行收集、存储、分析并提供可视化界面显示，从而更容易、快捷的获得信息知识，帮助管理者做出更好的业务决策。BI技术简析

通过阅读资料，我认为把商业智能看成是一种解决方案的说法比较恰当。它是将数据仓库、OLAP和数据挖掘等技术组合到一起的综合运用。BI技术的关键是将来自不同的业务系统数据库中的数据，提取出来，进行清理以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即ETL过程，合并到数据仓库里，从而得到企业数据的一个全局视图，在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者的决策过程提供支持。商业智能的这个基本过程如图所示：

图2—BI结构图

一些文章中将BI分为四个主要阶段：数据预处理、建立数据仓库、数据分析、数据展现。同时认为数据仓库、OLAP和数据挖掘技术是商业智能的三大技术支柱。2．1 数据预处理——ETL ETL是商业智能（BI）的重要组成部分，是英文Extract-Transform-Load的缩写，即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后，对库中数据的数据挖掘、分析处理才可以进行。

对于ETL而言，“是什么”是很容易理解的，也就是将分散的、不易利用的数据进行整理，变成规则清晰的、易于利用的、（可能同时还是）集中的数据。

2．1．1 ETL设计

ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore，操作型数据存储)中——这个过程也可以做一些数据的清洗和转换)，在抽取的过程中需要挑选不同的抽取方法，尽可能的提高ETL的运行效率。ETL三个部分中，花费时间最长的是“T”(Transform，清洗、转换)的部分，一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing，数据仓库)中去。

2．1．2 ETL实现

ETL的实现有多种方法，常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现，一种是SQL方式实现，另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点，借助工具可以快速的建立起ETL工程，屏蔽了复杂的编码任务，提高了速度，降低了难度，但是缺少灵活性。SQL的方法优点是灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。第三种是综合了前面二种的优点，会极大地提高ETL的开发速度和效率。

2．1．3 数据的抽取

这一部分需要在调研阶段做大量的工作，首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据，手工数据量有多大，是否存在非结构化的数据等等，当收集完这些信息之后才可以进行数据抽取的设计。

1、对于与存放DW的数据库系统相同的数据源处理方法

这一类数据源在设计上比较容易。一般情况下，DBMS(SQLServer、Oracle)都会提供数据库链接功能，在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。

2、对于与DW数据库系统不同的数据源的处理方法

对于这一类数据源，一般情况下也可以通过ODBC的方式建立数据库链接——如SQLServer和Oracle之间。如果不能建立数据库链接，可以有两种方式完成，一种是通过工具将源数据导出成.txt或者是.xls文件，然后再将这些源系统文件导入到ODS中。另外一种方法是通过程序接口来完成。

3、对于文件类型数据源(.txt,.xls)可以培训业务人员利用数据库工具将这些数据导入到指定的数据库，然后从指定的数据库中抽取。或者还可以借助工具实现，如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。

4、增量更新的问题

对于数据量大的系统，必须考虑增量抽取。一般情况下，业务系统会记录业务发生的时间，我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间，然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳，一般情况下，业务系统没有或者部分有时间戳。

2．1．4 数据的清洗转换

一般情况下，数据仓库分为ODS、DW两部分。通常的做法是从业务系统到ODS做清洗，将脏数据和不完整数据过滤掉，在从ODS到DW的过程中转换，进行一些业务规则的计算和聚合。

1、数据清洗

数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

(1)不完整的数据：这一类数据主要是一些应该有的信息缺失，如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全。补全后才写入数据仓库。

(2)错误的数据：这一类错误产生的原因是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类，对于类似于全角字符、数据前后有不可见字符的问题，只能通过写SQL语句的方式找出来，然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败，这一类错误需要去业务系统数据库用SQL的方式挑出来，交给业务主管部门要求限期修正，修正之后再抽取。

(3)重复的数据：对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来，让客户确认并整理。

数据清洗是一个反复的过程，不可能在几天内完成，只有不断的发现问题，解决问题。对于是否过滤，是否修正一般要求客户确认，对于过滤掉的数据，写入Excel文件或者将过滤数据写入数据表，在ETL开发的初期可以每天向业务单位发送过滤数据的邮件，促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉，对于每个过滤规则认真进行验证，并要用户确认。

2、数据转换数据转换的任务主要进行不一致的数据转换、数据粒度的转换，以及一些商务规则的计算。

(1)不一致数据转换：这个过程是一个整合的过程，将不同业务系统的相同类型的数据统一，比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001，这样在抽取过来之后统一转换成一个编码。

(2)数据粒度的转换：业务系统一般存储非常明细的数据，而数据仓库中数据是用来分析的，不需要非常明细的数据。一般情况下，会将业务系统数据按照数据仓库粒度进行聚合。

(3)商务规则的计算：不同的企业有不同的业务规则、不同的数据指标，这些指标有的时候不是简单的加加减减就能完成，这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中，以供分析使用。

2．1．5 数据的装载

ETL的装载部分，可查询的资料较少。仅查阅到与抽取在一起的部分描述内容。ETL的核心还是在于T这个过程，也就是转换，而抽取和装载一般可以作为转换的输入和输出，或者，它们作为一个单独的部件，其复杂度没有转换部件高。和OLTP系统中不同，那里充满这单条记录的insert、update和select等操作，ETL过程一般都是批量操作，例如它的装载多采用批量装载工具，一般都是DBMS系统自身附带的工具，例如Oracle SQLLoader和DB2的autoloader等。

2．1．6 ETL日志、警告发送

1、ETL日志

ETL日志分为三类。一类是执行过程日志，这一部分日志是在ETL执行过程中每执行一步的记录，记录每次运行每一步骤的起始时间，影响了多少行数据，流水账形式。一类是错误日志，当某个模块出错的时候写错误日志，记录每次出错的时间、出错的模块以及出错的信息等。第三类日志是总体日志，只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志，这一类日志也可以作为ETL日志的一部分。记录日志的目的是随时可以知道ETL运行情况，如果出错了，可以知道哪里出错。

2、警告发送

如果ETL出错了，不仅要形成ETL出错日志，而且要向系统管理员发送警告。发送警告的方式多种，一般常用的就是给系统管理员发送邮件，并附上出错的信息，方便管理员排查错误。

ETL是BI项目的关键部分，也是一个长期的过程，只有不断的发现问题并解决问题，才能使ETL运行效率更高，为BI项目后期开发提供准确的数据。

2．2 BI支撑技术——数据仓库/数据集市

数据仓库：商业智能的基础。

对于一个企业来说，最关键也最为重要的是，如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据，并通过灵活有效的方式为各级业务人员提供统一的信息视图，从而在整个企业内实现真正的信息共享。数据仓库技术正好满足了这一需求。数据仓库是商业智能系统的基础，如果没有数据仓库，没有企业数据的融合，数据分析就成为了无源之水。

数据仓库定义为：“一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合，用于支持管理决策”。与传统的事物处理系统有不同的是，数据仓库是一种过程，它是对分布在组织或企业内部各处的业务数据进行整合、加工和分析的过程。而不是一种可以购买的产品。

2．2．1 数据仓库常用术语

 数据仓库

数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。

数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确，因为它必须在特定的时间基础上从操作环境中提取出来。 数据集市

数据仓库只限于单个主题的区域，例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库，或者当它们从操作系统中获取数据时就不依赖于数据仓库。 事实

事实是数据仓库中的信息单元，也是多维空间中的一个单元，受分析单元的限制。事实存储于一张表中（当使用关系数据库时）或者是多维数据库中的一个单元。每个事实包括关于事实（收入、价值、满意记录等）的基本信息，并且与维度相关。在某些情况下，当所有的必要信息都存储于维度中时，单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。 维度

维度是绑定由坐标系定义的空间的坐标系的轴线。数据仓库中的坐标系定义了数据单元，其中包含事实。

坐标系的一个例子就是带有 x 维度和 y 维度的 Cartesian（笛卡尔）坐标系。在数据仓库中，时间总是维度之一。 数据挖掘

在数据仓库的数据中发现新信息的过程被称为数据挖掘，这些新信息不会从操作系统中获得。 分析空间

分析空间是数据仓库中一定量的数据，用于进行数据挖掘以发现新信息同时支持管理决策。 切片

一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。 切块

一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。 星型模式一种使用关系数据库实现多维分析空间的模式，称为星型模式。星型模式将在本白皮书中稍后进行进一步讨论。 雪花模式

不管什么原因，当星型模式的维度需要进行规范化时，星型模式就演进为雪花模式。

2．2．2 面向主题（Subject-oriented）

“主题”是一个较为抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面。从信息管理的角度看，主题是在一个较高的管理层次上对数据进行综合、归类所形成的分析对象；从数据组织的角度看，主题就是一些数据集合，这些数据集合对分析对象作了比较完整的、一致的描述，这种描述不仅涉及到数据本身，还涉及到数据之间的关系。

“面向主题”则表明了数据仓库中数据组织的基本原则，是指数据仓库内的信息是按主题进行组织的，而不像传统事物处理系统那样单一地按照业务功能及性能要求进行组织。传统的操作型系统是围绕公司的应用进行组织。如对一个电信公司来说，应用问题可能是营业受理、专业计费和客户服务等，而主题范围可能是客户、套餐、缴费和欠费等。

2．2．3 集成（Integrated）

“集成”是指数据仓库中的信息并不是对各个数据源简单的选择、抽取，而是首先进行一系列的加工、整理和转换等来消除源数据中的不一致；同时按照本行业的逻辑模型设计便于查询及分析的数据仓库。然后按照组织或企业的需求，针对不同的主题对数据进行某种程度的综合、概括和聚集，将源数据加载进数据仓库。经过这样的处理，数据就具有了集成性，可以用于决策分析。

2．2．4 反映历史变化（Time-variant）

“反映历史变化”是指数据仓库内的信息并不只是反映企业当前的状态，而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。而信息本身相对稳定，是指一旦某个数据进入数据仓库以后，一般很少进行修改，更多的是对信息进行查询操作。

2．2．5 相对稳定（Non-volatile）

“相对稳定”是指数据一旦进入数据仓库，一般情况下会被长期保留，所涉及的数据操作也主要是查询、分析，很少会被修改或删除，通常也只需要定期地加载和刷新。相对稳定性保证了数据仓库中的数据能够真实地反映历史变化。

数据仓库中所存放的数据在物理上是分离的。由于这种分离，数据仓库不需要事务处理、恢复和并发控制机制。通常它只需要两种数据访问：数据的初始化装入和数据访问。

2．2．6 了解实时数据仓库的定义

实时数据仓库是两种事物的组合：实时行为和数据仓库。实时行为是一种即时发生的行为。行为可以是任何事情，如超市中小商品的销售行为。一旦行为完成，就有关于它的数据。数据仓库捕获有关商业行为的数据，而实时数据仓库在商业行为发生时就捕获数据。当商业行为完成时，相关数据就已经进入到数据仓库并且能立即使用。换句话说，实时数据仓库是这样一个系统，只要行为发生、数据变得可用时，就能从中获得信息。

实时vs.近似实时之间的区别可以下面一个词概括：反应时间。反应时间是指行为的完成时间和该行为的数据在数据仓库中可利用时间之间的延迟。实时情况下，反应时间是可以忽略不计的；在近似实时情况下，反应时间是一段时间，比如2小时。为了使系统变得更精确，一些人使用了“实时”这个概念。

2．3 BI分析技术——OLAP 2．3．1 什么是OLAP

当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。

联机分析处理（OLAP）是以海量数据为基础的复杂分析技术。它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理，并且能以直观易懂的形式将查询和分析结果展现给决策人员。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。

区别于传统的联机事务处理(OLTP)系统，OLAP有12条准则：

1、OLAP模型必须提供多维概念视图

2、透明性准则

3、存取能力推测

4、稳定的报表能力

5、客户/服务器体系结构

6、维的等同性准则

7、动态的稀疏矩阵处理准则

8、多用户支持能力准则

9、非受限的跨维操作

10、直观的数据操纵

11、灵活的报表生成

12、不受限的维与聚集层次虽然随着技术的发展，部分准则有所突破，但这些准则仍然是OLAP技术的基础。

2．3．2 OLAP核心技术——维

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension)，使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取（roll up和drill down）、切片（slice）和切块（dice）、以及旋转（pivot）、drill across、drill through等。 钻取是改变维的层次，变换分析的粒度。它包括向上钻取（roll up）和向下钻取（drill down）。♢ roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数； ♢ 而drill down则相反，它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个，则是切块。 旋转是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。 Drill across：（未找到相关介绍） Drill through：（未找到相关介绍）

2．3．3 OLAP的分类

OLAP有多种实现方法，根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP 表示基于关系数据库的OLAP实现（Relational OLAP）。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。ROLAP通常使用三层架构，其数据库层和应用逻辑层是分离的，并且其数据存储在关系型数据库中

MOLAP 表示基于多维数据组织的OLAP实现（Multidimensional OLAP）。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块（Cube）”的结构,在MOLAP 中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。

MOLAPS和ROLAPS相比，具有更短的处理时间，更快的响应速度，并且对于用户需求更为灵活。而ROLAPS在处理的数据总量和支持的客户数方面强于MOLAPS。

Hybrid online analytical processing(混合联机分析处理，HOLAP)，HOLAP表示基于混合数据组织的OLAP实现。如低层是关系型的，高层是多维矩阵型的。这种方式具有更好的灵活性。从字面上我们可以大致看出，HOLAP是上面两种分类的融合，它同时利用了多维数据库和关系数据库。HOLAP的优势在于它可以在性能需求和存储量需求间找到一个平衡点，从而充分利用系统潜能。

还有其他的一些实现OLAP的方法，如提供一个专用的SQL Server，对某些存储模式（如星型、雪片型）提供对SQL查询的特殊支持。

2．3．4 OLAP工具描述

OLAP 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如，一个企业在考虑产品的销售情况时，通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础，可形式化表示为（维1，维2，„„，维n，度量指标），如（地区、时间、产品、销售额）。多维分析是指对以多维形式组织起来的数据采取切片（Slice）、切块（Dice）、钻取（Drill-down和Roll-up）、旋转（Pivot）等各种分析动作，以求剖析数据，使用户能从多个角度、多侧面地观察数据库中的数据，从而深入理解包含在数据中的信息。

2．4 BI分析技术——数据挖掘

2．4．1 什么是数据挖掘

数据挖掘又称知识发现（Knowledge Discovery in Database，简称KDD），是从大量数据中抽取有意义的、隐含的、以前未知的并有潜在使用价值的知识的过程。数据挖掘是一个多学科交叉性学科，它涉及统计学、机器学习、数据库、模式识别、可视化以及高性能计算等多个学科。利用数据挖掘技术可以分析各种类型的数据，例如结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流数据等。

2．4．2 数据挖掘分类

数据挖掘涉及的学科领域和方法很多，有人工智能、数据统计、可视化、并行计算等。数据挖掘有多种分类方法。

 根据挖掘任务

可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等。(1)分类(Classification)其旨在生成一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据，也可以用它来预测未来的数据。

(2)聚集(Clustering)聚集是对记录分组，把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。

(3)数据可视化(Description and Visualization)数据可视化严格地讲不是一个单独的数据挖掘任务，它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。

(4)关联规则(Affinity grouping or association rules)关联规则是寻找数据库中值的相关性，主要是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。(5)序列分析(Sequence Analysis)序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后(因果)关系，因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。

(6)偏差分析(Deviation Analysis)是用来发现与正常情况不同的异常和变化，并进一步分析这种变化是否是有意的诈骗行为，还是正常的变化。如果是异常行为，则提示预防措施;如果是正常的变化，那么就需要更新数据库记录。

 根据挖掘对象

可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库以及环球网Web。

 根据挖掘方法

可粗略地分为：机器学习方法、统计方法、神经网络方法、决策树、可视化、最近邻技术等。在机器学习中，可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;在统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

2．4．3 数据挖掘技术

数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。

1、数据总结

继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲，多维分析也可以归入这一类。

2、聚类分析

是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显，而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类，因此通过聚类分析可以找出客户特性相似的群体，如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。

聚类分析是根据物以类聚的原理，将本身没有类别的样本聚集成不同的组，并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似，而属于不同组的样本应该足够不相似。

以客户关系管理为例，利用聚类技术，根据客户的个人特征以及消费数据，可以将客户群体进行细分。例如，可以得到这样的一个消费群体：女性占91%，全部无子女、年龄在31到40岁占70%，高消费级别的占64%，买过针织品的占91%，买过厨房用品的占89%，买过园艺用品的占79%。针对不同的客户群，可以实施不同的营销和服务方式，从而提高客户的满意度。

对于空间数据，根据地理位置以及障碍物的存在情况可以自动进行区域划分。例如，根据分布在不同地理位置的ATM机的情况将居民进行区域划分，根据这一信息，可以有效地进行ATM机的设置规划，避免浪费，同时也避免失掉每一个商机。

对于文本数据，利用聚类技术可以根据文档的内容自动划分类别，从而便于文本的检索。

3、关联分析

关联分析主要用于发现不同事件之间的关联性，即一个事件发生的同时，另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。

对于结构化的数据，以客户的购买习惯数据为例，利用关联分析，可以发现客户的关联购买需要。例如，一个开设储蓄账户的客户很可能同时进行债券交易和股票交易，购买纸尿裤的男顾客经常同时购买啤酒等。利用这种知识可以采取积极的营销策略，扩展客户购买的产品范围，吸引更多的客户。通过调整商品的布局便于顾客买到经常同时购买的商品，或者通过降低一种商品的价格来促进另一种商品的销售等。

对于非结构化的数据，以空间数据为例，利用关联分析，可以发现地理位置的关联性。例如，85%的靠近高速公路的大城镇与水相邻，或者发现通常与高尔夫球场相邻的对象等。

4、分类分析

目的是构造一个分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1, v2,...，vn；c)，其中vi表示字段值，c表示类别。

分类分析通过分析具有类别的样本的特点，得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法以及support vector machines等。利用分类技术，可以根据顾客的消费水平和基本特征对顾客进行分类，找出对商家有较大利益贡献的重要客户的特征，通过对其进行个性化服务，提高他们的忠诚度。

利用分类技术，可以将大量的半结构化的文本数据，如WEB页面、电子邮件等进行分类。可以将图片进行分类，例如，根据已有图片的特点和类别，可以判定一幅图片属于何种类型的规则。对于空间数据，也可以进行分类分析，例如，可以根据房屋的地理位置决定房屋的档次。

5、回归

是通过具有已知值的变量来预测其它变量的值。一般情况下，回归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。

6、时间序列

时间序列是用变量过去的值来预测未来的值。

时间序列分析的是随时间而变化的事件序列，目的是预测未来发展趋势，或者寻找相似发展模式或者是发现周期性发展规律。

7、序列分析

序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列，发现的序列应该具有普遍意义，其依据除了统计上的概率之外，还要加上时间的约束。

8、预测

预测与分类类似，但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程，而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

2．5 BI表示/展现技术——信息可视化与Web应用

数据经过分析后得到的即为商业智能。为了使它们直观、简练地呈现在用户面前，需要采用一定的形式表示和发布出来，通常采用的是一些查询和报表工具。不过，目前越来越多的分析结果是以可视化的形式表示出来。这就需要采用信息可视化技术。所谓信息可视化是指以图形、图像、虚拟现实等易为人们所辨识的方式展现原始数据间的复杂关系、潜在信息以及发展趋势，以便我们能够更好地利用所掌握的信息资源。

随着Web应用的普及，商业智能的解决方案能够提供基于Web的应用服务，这样就扩展了商业智能的信息发布范围，享有访问权限的用户只要能够登陆互连网，就可以及时访问自己所关心的内容。作为基于Web的商业智能解决方案，需要一些基本的组成要素，包括基于Web的商业智能服务器、会话管理服务、文件管理服务、调度、分配和通知服务、装载平衡服务和应用服务等。以应用服务为例，需要为用户的查询、分析和报表请求提供浏览器插件。由于商业智能应用涉及到对多个分散在各地的异构数据库的存取，因此还需要CORBA、IIOP协议和Java、XML语言的支持。

BI系统总结

第一篇：BI系统总结

第二篇：典型的BI系统介绍

第三篇：BI项目实施方案总结

第四篇：BI实验报告

第五篇：BI学习心得

相关范文推荐

汉语拼音bi怎么发音

BI常见面试问题总结（5篇）

BI服务器采购申请书

实施BI的方法

酒店行业BI品牌推荐

从需求出发来提高BI系统的应用价值

材料系统年度总结

系统总结