第一篇:改变医疗行业的八个大数据应用
改变医疗行业的八个大数据应用
作者:至顶网佚名
2012-11-7 13:32:31【我要评论】 大中小
医药和医疗正在成为大数据的杀手应用。医药和医疗行业的管理者们已经意识到,Hadoop、机器学习、自然语言处理等新型数据分析技术是带来飞跃式发展的关键契机。分享到:0新浪微博腾讯微博
本文关键字: 大数据 BI Hadoop 众包
医药和医疗正在成为大数据的杀手应用。医药和医疗行业的管理者们已经意识到,Hadoop、机器学习、自然语言处理等新型数据分析技术是带来飞跃式发展的关键契机。以下是正在改变医疗行业的八个大数据创新应用:
一、基因组学。这是大数据在医疗健康行业最经典的应用。基因测序的成本在不断降低,同时产生着海量数据。DNAnexus、Bina Technology、Appistry和NextBio等公司正通过高级算法和云计算
来加速基因序列分析,让发现疾病的过程变得更快、更容易和更便宜。戴尔公司也为两个医疗研究中心提供计算力,根据每个孩子的不同基因信息,制定专门的小儿癌症治疗方案。
二、医生的BI。西雅图儿童医院的医护人员如今正在使用Tableau,可视化分析遍布医院各处的服务器和数据库里的数以TB计的数据。可视化数据分析不但帮助医护人员减少医疗事故,制定临床试验计划,而且还帮医院节省了300万美元的供应链成本。
三、语义搜索。想象你是一位医生,正需要了解一位新来的病人,或者想知道新治疗手段对哪些病人有效。但是病人病历散布在医院的各个部门,格式各异,更糟糕的是,各部门都用自己的术语创建病历。一家创业公司Apixio正在试图解决这个问题,Apixio将病历集中到云端,医生可通过语义搜索查找任何病历中的相关信息。
四、万能的Hadoop。Cloudera正在与西奈山医学院合作开发新的生物数据分析方法和系统。Cloudera还与FDA合作侦测多种药物组合的副作用,与埃默里大学合作帮助病历学家更准确地分析医疗影像。Cloudera的客户之一——Explorys的业务主要是聚合并分析医疗记录,而英特尔和NextBio则合作使用Hadoop处理基因数据。
五、IBM沃森(Watson)。IBM在医疗领域建树颇多,但最酷的莫过于与WellPoint合作将智力问答电视节目“危险边缘”的冠军系统(Watson)部署到医生的办公室里。Watson能“听懂”医生的自然语言问题,同时快速分析堆积如山的医疗研究数据给出答案。
六、疾病预防。如何能不通过昂贵的诊断技术就能诊断早期疾病是医学界的一大课题,Seton医疗机构目前已经能借助大数据做到这一点。例如充血性心脏衰竭的治疗费用非常高昂,通过数据分析,Seton的一个团队发现颈静脉曲张是导致充血性心脏衰竭的高危因素。(而颈静脉曲张的诊断几乎没有什么成本)
七、医院数据科学家。如今医疗技术公司Alliance Health Networks中也出现了一个新的职位:首席数据科学家。该公司提供医疗专业垂直社交网站,收购了医疗搜索数据库Medify,因此需要一位首席数据科学家来领导数据分析工作,向医疗专业用户提供有价值的反馈。
八、众包科学。医疗行业的受控实验往往昂贵而无效,于是人们开始琢磨能否从现实世界的鲜活数据着手。医疗众包领域最知名的公司当属社交网站PatientsLikeMe,该网站允许用户分享他们的治疗信息,用户也能从相似的患者的信息中发现更加符合自身情况的治疗手段。作为一个副产品,PatientsLikeme还能基于用户自愿分享的数据进行观测性实验。(传统方式的临床实验通常非常昂贵)
第二篇:证券行业大数据应用
证券大数据应用
一、可能获得的数据源
1.投资者信息(实名认证信息、联系方式、证券账户、理财账户等)2.投资者个人交易数据(股票交易、基金交易、互联网证券交易等)3.投资者个人行为数据
4.股市交易数据/实时行情等
5.上市公司/准备上市公司数据(基本资料、财报等)6.宏观经济数据 7.政策法规
8.行业投资案例库 9.行业分析报告
10.互联网金融相关媒体数据
11.互联网金融垂直社区数据(例如雪球投资组合)12.各行业垂直门户网站数据
13.社会化媒体数据(微博、微信公众号、论坛、新闻资讯门户等)14.各行业电力运行数据
以上数据有些可直接由券商系统(门店数据、终端APP等)即可获取,有些需要从合作机构获取,有些只能通过垂直爬虫爬取聚合。
二、有了大数据能干什么 对投资者(2C):
投资建议:例如券商官方推荐,类雪球投资组合、京东财谜的去中心化推荐 投资社区:雪球、天厚投资社交等 在线证券交易 在线投资理财 财富管理 量化投资分析
对公司(2B): 公司投资理财 公司投资并购 股权众筹
公司舆情监控分析 竞争分析/竞争情报 行业分析报告
对券商本身:
用户获取/盘活:大券商盘活存量用户、中小券商获取增量用户
用户账户的建立与持续运营:通过有粘性的服务(例如雪球投资组合),引导用户绑定互联网证券理财账户、证券账户,打通用户账户体系,持续运营。综合金融服务:股票、投资、理财、众筹、投行、财富管理 投资报告:行业分析报告、投资建议平台基础设施: 大数据风控等 线上线下渠道一体化 客户流失跟踪 潜在客户挖掘
三、运营体系
目标用户群分析(2B、2C,线上目标用户群、线下目标用户群)建立有粘性的互联网产品及服务 线上+线下获取用户/盘活用户
基于大数据,持续完善产品、持续运营用户
《数据挖掘技术在证券行业中的应用》 姚毓才 1.客户关系管理
用客户交易数据统计出每个客户的交易情况,根据客户行为进行聚类。建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘和关联分析,实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源,改进服务,牢牢抓住最有价值的客户。通过对客户资源信息进行多角度挖掘,了解客户各项指标(如资产贡献、忠诚度、盈利率、持仓比率等),掌握客户投诉、客户流失等信息,通过对客户数据聚类,将客户进行分群,考察每类客户对证券公司的贡献情况,这样可以根据客户的产生类别的交易行为等其他特点知道该类用户是否对公司具有价值,并且证券公司根据客户行为的特点对贡献度大的客户类采取相应的政策照顾,并且还能吸引某些行为类似的贡献度较低类的客户发展为较高贡献的客户。2.股市基本分析
任何金融资产的“真实”价值等于这项资产的所有者的所有预期收益流量的现值。具体地说,分析家不仅需要预测折现率,而且还必须预测这种证券的每股平均收益和派息率。证券的真实价值一经确定,就可以用来与这种证券的市场价格进行比较,从而鉴别这种证券的定价是否恰当。如果真实价值低于市场当前价格,那么该证券价值是被高估了,应该卖出;如果证券的真实价值高于市场当前价格,那么该证券价值是被低估了,应该买进。具体的分析策略包括宏观经济信息、产业分析、区域分析和公司分析几类。3.股市技术分析
利用时间序列预测股票价格。数据挖掘是对大量的历史数据进行处理和分析,提炼出有价值的信息(表现为规则、模型等模式信息),其中的时间序列模型,可以用于股票价格的预测。4.经营状况分析
通过数据挖掘,可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息。并结合大盘走势,提供不同行情条件下的最大收益经营方式。同时,通过对各营业部经营情况的横向比较,以及对本营业部历史数据的纵向比较,对营业部的经营状况做出分析,提出经营建议。5.咨询服务
根据采集行情和交易数据,结合行情分析,预测未来大盘走势,发现交易情况随着大盘变化的规律,并根据这些规律做出趋势分析,对客户针对性进行咨询。6.风险防范
通过对资金数据的分析,可以控制营业风险,同时可以改变公司总部原来的资金控制模式,并通过横向比较及时了解资金情况,起到风险预警的作用。
第三篇:三维全景医疗行业网络营销应用
三维全景在医疗行业网络营销的应用
民营医院由于进行一系列创新型的策划,广告,在医疗行业逐渐成为一支新军,越来越多的公立医院开始学习借鉴民营医院的管理,策划,从而来维持自己行业的龙头地位。
有些医疗行业已讲全景应用的自己服务中来,但是多用于美容医院的环境介绍,固然好,但是不够全面,环境不是医院竞争最主要的因素。所以一定要想办法把它引入医疗队伍介绍跟医疗设施介绍上。在拍摄的时候可以把医生拍进去,让顾客看到医生在接诊,当鼠标移上去的时候就可以看到医生的介绍,医生介绍的时候尽量简洁,让人印象深刻,建议美容医院可以将此医生做的好的作品的前后对比图奉上。字幕颜色可以突出些,单一的环境介绍对客户的吸引力肯定是不够的。
医院做的那么多的推广旨在让客户了解自己的贴心服务,一流的技术,三维全景式的网页完全可以让客户在来医院之前就真实的体验医院的服务,医院可以设置自己的服务流程,客户从网上就有亲身参与的感觉,进入医院,寻找自己需要的科室,看见给自己治疗的医生,给自己服务的护士,如果有任何问题可以直接点击免费咨询。一切都非常逼真,没有一点让病者觉得有夸大或者虚假的成分。这个平面网站达不到的。
为了提高之际的知名度和行业地位,各民企医院八仙过海,充分的发挥了自己企划的作用,无论是电视,报纸,杂志,网络,街头,社区都用医院企划的影子。医院再网络营销上的投入也是越来越大,随着SEO技术竞争,竞价价格的高居不下,很多医院的网络营销工作搜遇见了瓶颈,有些纯粹是跟随竞争对手,调排名,做链接,发广告。于是乎众多医院开始在自己的内部下功夫,干净舒适大气的装修,文明周到的服务,广泛挖掘医疗人才,注重每一个细节,提高自己的竞争优势。如果能在嫁接三维全景技术,就可以大大提高自己宣传效率。整合电视,报纸等媒体,引荐客户点击进入三维全景网页,不仅可以提高百度推广的效率。一定会给客户全新的服务体验,带来不同凡响的效果。有关三维全景技术在医疗行业的应用欢迎大家共同探讨~!
第四篇:烟草-行业数据综合分析应用解决方案
烟草专卖管理局数据综合分析应用
解决方案
xxxx电子科技有限公司
2013年7月
目录
一、建设背景........................................................3
二、建设思路........................................................3
三、建设目标........................................................3
四、总体设计........................................................4
4.1、设计原则...................................................4 4.2、设计思路...................................................5 4.3、总体架构...................................................6
五、系统实现........................................................6
5.1、整合内容...................................................6 5.2、采集处理方式...............................................7
5.2.1、数据采集..............................................7 5.2.2、数据整合..............................................9 5.3、数据应用..................................................15 5.3.1、应用定制.............................................15 5.3.2、数据展现.............................................21 5.3.3、应用主题数据.........................................21 5.4、主要功能..................................................22 5.4.1、数据来源管理.........................................22 5.4.2、主题和指标管理.......................................22 5.4.3、报表定制.............................................23 5.4.4、图表定制.............................................23 5.4.5、热点定制.............................................23 5.4.6、连接资源管理.........................................23 5.4.7、页面定制.............................................23 5.4.8、用户及角色管理.......................................24
六、系统价值.......................................................24 5.1、企业报表..................................................24 5.2、主题分析..................................................25 5.3、运营监控..................................................25
七、成功案例.......................................错误!未定义书签。
7.1、河北省省级卫生数据整合共享和综合信息管理平台错误!未定义书签。7.2、国药乐仁堂信息采集整合展现管理平台........错误!未定义书签。
八、公司及产品优势.................................错误!未定义书签。
8.1、公司优势..................................错误!未定义书签。8.2、产品特色..................................错误!未定义书签。
一、建设背景
近几年,中国烟草行业信息化飞速发展,各个企业目前己经基本完成了基础设施建设和业务系统建设,如营销系统、专卖系统、物流系统、财务系统、0A系统等。这些信息系统之间相对独立,缺乏有机联系,形成了信息孤岛,无法做到信息资源的共享,进而影响了许多正常业务的效率。由于各单位前期在实施信息系统过程中分别采用了各自的系统标准,因而导致了现有各信息系统之间很难做到“无缝连接”,并且在各系统间存在大量的“手工连接”,进而造成大量的信息失真和信息延时,这种情况还对信息管理部门增加了很多工作量,每天为数据而忙碌。同时各业务系统侧重于业务处理,不能进行充分的价值挖掘,缺乏为企业领导或业务处室的综合分析、宏观决策提供有力支持。因此,在烟草企业数据综合分析应用系统的建设与完善就显得尤为重要。
二、建设思路
三、建设目标
通过建立烟草数据综合分析应用系统,实现收集目前的营销系统、专卖系统、物流系统、财务系统、0A系统等以及其他业务系统的相关数据,并对数据进行整合,加工形成涵盖管理、采购、客服、物流、质管、运营、财务七大领域的信息域,并对信息进行多维度的综合展现,提供各业务所需的综合报表,从而充分挖掘利用现有信息资源,为领导提供决策支持,并更好的为各业务科室和一线业 务人员服务。
四、总体设计 4.1、设计原则
本项目在系统设计、软硬件采购、应用开发、系统集成和服务过程中应采用已有的国家标准、行业标准和主流国际标准,遵循但不仅限于下列标准体系和要求:
《烟草行业信息化标准体系》及其有关标准 《烟草行业信息化建设统一技术平台要求》 《烟草行业数字证书应用接口规范》 《烟草行业信息系统安全等级保护定级指南》 国家《SOA标准体系》
除了遵循上述标准,在整个项目设计开发过程中,需要遵守下面的5项原则。
1.技术的先进性
系统应采用先进成熟的技术,以保证投资的有效性和延续性。 支持常用的操作系统平台、常用的数据库系统、常用的应用服务器平台和常用的开发工具,与XX烟草现有系统互联互通,以保证系统的兼容性。2.系统的稳定性
保证系统能够正常运作, 系统应能够7×24小时连续稳定工作。 软件版本升级或改进应在不影响业务的情况下进行,保证系统可以稳定、平滑过渡。3.系统可维护性
系统应能使系统管理员集中方便地配置、监视、控制、诊断整个系统,并且能够监视和控制用户情况、提高效率、消除隐患。
对于系统各功能模块的配置、控制、监视、诊断等工作能够通过专用的系统管理工具方便的进行,无须进行专门的编码工作。
数据中心系统将按照集中的模式进行部署,因此对系统处理并发任务的 能力提出了很高的要求,投标方需要提供大规模并发流量的处理机制以及发生性能问题时的解决方案;并提供实时交易量(并发交易量及其硬件配置)和并发用户量(并发用户数及硬件配置)的相关测试报告和案例说明; 4.系统安全性
系统应保证信息的安全性,即保证此系统中的信息能够安全存储,并有良好的数据备份和快速恢复方案;
采用分级的安全体系,保证数据在处理和传输全过程的安全性。系统支持对关键的信息(如:用户密码)进行加密保存,同时支持对一些比较重要的业务数据在传送和存储过程中进行加密保护;
保证系统中的信息不被非授权用户访问,按组织结构划分操作人员的操作权限,使用烟草办公自动化系统的用户身份认证系统,且各种使用权限所能调用的应用软件模块可按要求灵活配置;
系统在身份认证方面支持多种的认证手段,如:口令认证、数字证书认证等;
系统支持基于角色和基于资源的授权方式,支持用户到角色的映射,并采用角色的身份来控制对特定操作的访问权,支持层次化,结构化和区域化的角色设定;
系统需要有对系统数据的关键操作(如授权操作、流程环节变更)进行追踪和回溯的能力;
4.2、设计思路
1、模块化的系统结构
系统结构采用三层(3-tier)或多层(N-tier)设计模型;设计模式为B/S 模式。由合理分划、边界清晰的子系统和模块组成,形成组装式、插件式的体系结构,以利于系统的升级、扩充和发展。支持业务流程的可调整性;支持业务信息的可调整性和延续性。
2、面向服务的整体架构(SOA)
系统模块都是向系统内部和外部提供服务的逻辑单元;采用标准的协议提供 服务。采用松耦合的机制与外部系统进行信息交换和系统之间的互操作。
3、无缝集成的应用
提供与其他相关信息系统的数据接口、支持开放的XML 标准接口规范。不同的异构系统之间可以无缝地实现数据集成,也可以无缝地实现业务流程的集成。
4.3、总体架构
系统基于SOA设计理念,架构信息采集、整合、展现信息系统,为增值服务管理奠定总体架构基础,并以“服务”方式,扩展将来主题业务数据分析、服务系统。
五、系统实现
5.1、整合内容
数据来源主要为营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统。5.2、采集处理方式
5.2.1、数据采集 5.2.1.1、功能设计
通过整合完善数据采集系统,更加高效的接收和处理来自各系统的数据,实现数据采集工作的灵活设置和快速部署,使数据采集工作更专业化和规范化,减轻数据提供单位的负担,提高数据采集效率和质量。支持基于事件发生时接收数据消息、支持数据库改变时数据同步、支持定时提取数据、支持外部文件导入、支持异地全局数据库。并且支持基于消息的数据传输,在前置机感知数据改变后,通过WebService机制项服务器传递消息;支持通过各类数据传输中间件进行消息的传递。
数据采集方式包括:自动采集、定时采集。
自动采集是指通过系统接口,自动实时从数据源采集数据,适用于实时性要求较高的数据信息。
定时采集是指在设定好的时间点对数据源数据进行采集,适用于数据源有规范的数据传输技术架构。
数据审核:在数据加载到数据库前对采集的数据的格式及数据内容进行校验和审核,保证数据采集平台采集的数据质量。
自动采集:支持自动采集和定时采集方式,实现采集系统自动获取数据源数据的功能。
数据加工处理:包括数据信息清洗、信息转换、信息加载等功能,将从数据源获取过来的数据进行规范化处理,实现多源数据组合、冲突数据处理、数据格式检查等功能。并将其转换成数据仓库需要的格式。数据加载功能是将经过规范化处理后的数据存放到数据仓库中。需要定义数据的加载频率和加载方式。数据的加载频率根据数据的产生频率和数据仓库对数据的分析粒度决定,可以根据需要来定义加载的间隔。
采集平台系统功能结构如下图:
5.2.1.2、技术实现
1、技术架构
通过各种采集方式把现有各部门、企业的诸多系统通过数据交换平台抓取进入数据中心,并可以通过业务报表填报的功能补充信息,支持暴扣文档、多媒体、XML、文件以及数据库等多种方式的数据采集。
2、数据接口
本系统采集通过建立数据口的方式与现有的营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统进行数据采集,并将采集数据进行审核与加工处理。与此同时考虑到与新系统的整合,系统将预留数据交互模块并建立数据交换机制,为新业务系统的接入提供准备。
5.2.2、数据整合
利用完善的ETL工具,通过节点控制库、信息共享与管理库把采集来的数据按照业务内在关联形成能够表述完整业务链信息的整合信息,并为下一步的数据应用打定基础。
5.2.2.1、技术架构
1、ETL工具介绍
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际项目应用。所以从项目应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行 一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。规范化数据格式 可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。拆分数据:依据业务需求对字段可进行分解。验证数据正确性:可利用Lookup及拆分功能进行数据验证。数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。Lookup 查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。建立ETL过程的主外键约束 对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
2、整体结构
系统将各个业务系统中采集到的销售、财务、物流、仓储等基本业务数据进行整合,形成节点前置库,并进行数据加载,形成结构化的综合信息共享库与管理数据库,最后通过加工处理形成数据集市,并通过综合分析、统计报表、智能分析、决策支持等方式展现给用户。如下图所示: 5.2.2.2、数据资源整合
主要功能是实现将分散、异构的数据和记录进行规范化整理并实现聚合处理,生成基本数据集所规范的、全面动态的企业业务综合数据信息(宏观或个案级别综合业务视图)共享库,该综合共享库支持动态、交互、智能的综合业务管理,可发布(提供)综合集成的“全景业务信息”以支持全局性同步信息共享。主要功能模块包括数据规范化整理(数据校验、语法学清洗、语义学清洗等)和数据聚合处理(数据解析、整合存储/主数据管理、展现预处理等)。
流程如下图:
1、数据校验清洗 数据质量问题分类:
根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层我们将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题,具体的质量问题表现如下:
1)缺少完整性约束,糟糕的模式设计,2)数据记录的错误,3)异质的数据模型和模式设计,4)冗余、互相矛盾或者不一致的数据,5)唯一性约束,⑾引用约束,6)拼写错误,7)相似重复记录,8)互相矛盾的字段,9)命名冲突,10)结构冲突,11)不一致的汇总,12)不一致的时间选择。
问题数据处理:
单数据源情形中出现的问题在多数据源的情况下会变得更加严重.多数据源没有列出在单数据源情形中就已经出现的问题.模式层次上的问题也会体现在实 例层次上.糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的数据模型、命名和结构冲突等,都属于该类问题.可以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题.实例层次上的问题在模式层次上不可见,一些可能的情况有数据拼写错误、无效的数据值、重复记录等。
对于第1种情形,由于在数据输入时不知道电话字段的值,因此在数据库中以存放一个无效值来表示.如果针对电话字段定义一个规则存放在数据清洗库中,清洗工具就能够根据这条规则判断出哪些是无效值.对于第2种拼写错误的情形,需要在数据清洗库中建立一个存放所有城市名的查找表,通过与该查找表中的城市名相比较,就可以判断出数据库中存放的本来应该是哪个城市.对于第3种情况,一般也需要利用外部的查找表才能检测出来并加以改正.在数据清洗工具中,一些典型的查找表应该是内建的,此外也应该具备可扩展性,允许用户加入新的查找表.对于第4种情形,在一个自由格式的文本类型的字段里包括了很多部分,每个部分都可以单独作为一个字段.如果每个部分的先后顺序一定,且互相之间有分隔符或者保留字,比如Street,Road等等,就比较容易处理.但是,实际中的情况往往不是这样,因此要通过机器学习或者其他办法来解决.由领域专家选定学习样本(相对于所要处理的数据集,样本数量少得多)来训练系统,等训练好了以后,再由系统自动处理大规模的数据集.由于采用机器学习的办法,因此一般来说,需要折衷考虑记忆率和准确率.我们将利用隐马尔科夫模型(HMM)的解决办法.第6种情形的问题是字段之间不对应.为了改正,需要知道哪个字段更可信,这必须利用其他信息才能决定。
第8种和第9种情形表示的是相似重复记录的情况.在第8种情形里,一个记录的name没有简写,而另一个记录的name被简写了,通过定义合适的编辑距离函数,或者内建常用的缩写规则,清洗工具可以检测出这类重复记录.在第9种情形中,同一个现实实体(两个记录的name值相同),但是两个记录的bdate值不一样,在合并这两条记录时,如何选择一个合适的bdate值,是一个棘手的问题.相似重复记录的匹配和合并,是数据清洗过程中一个很重要的问题.首先,选择一个好的距离函数很重要.另外,记录的匹配过程非常耗时.如果采用最简单的方法,所有记录之间两两进行比较,以此来决定是否匹配,其计算复杂度为O(n2),这里n为 数据库中的记录数.对很大的数据库来说,这样的时间开销是无法忍受的。
在检测相似重复记录之前,需要先对数据进行一些处理.典型的处理操作包括: 字段分裂.从自由格式的文本字段中抽取结构,分离各个部分.验证和改正.根据查找表来验证字段值的正确性,若发现错误,则加以改正.如果提供合适的领域知识,该过程也可以验证字段之间的依赖关系.数据标准化.将同一类型的数据用统一的格式来表示,比如日期、电话号码、性别等.在完成大部分的数据转化和其他清洗步骤以后,就可以执行相似重复记录的匹配和合并了。通常情况下,指向同一个现实实体的两条记录的信息是部分冗余的,它们的数据互为补充。因此,通过将其合并,能够更准确地反映该实体.相似重复记录清除可以针对两个数据集或者一个合并后的数据集.首先,需要识别出标识同一个现实实体的相似重复记录,即记录匹配过程.随后,将相似重复记录合并成一个包含该实体的更多属性,而且无冗余信息的记录,同时从数据集中删除多余的记录。
最简单的情况是,数据记录具有这样的属性集(或者属性),它总能够惟一标识一个实体.这时,只要对两个记录集在该属性集上作等值连接,就完成了记录匹配过程.对单个记录集的情形,先根据该属性集进行排序,然后通过检查相邻的记录,就可以判断出它们是否为相似重复记录.如果不存在这样的键属性集,而且数据中可能还存在错误,例如拼写错误等,上面的简单办法就不合适了.这时可以通过引入匹配规则来完成模糊匹配,规则是描述性的,而且可以利用用户自定义的函数.例如,可以有这样的规则:如果name字段相同,而且address字段相似度也很大,那么这两条记录是重复记录.字段之间的相似度,一般用0~1之间的数值来表示,而且不同的字段对记录之间总的相似度的贡献,具有不同的权值.相似度的定义和权值的分配,要由领域专家来确定.对字符串类型的数据,精确匹配或者基于通配符、词频、编辑距离、键盘距离和发音相似度的模糊匹配是很有用的,我们还考虑了字符串的缩写形式并结合信息检索的向量空间模型来定义文本元素之间的相似度。
在处理大的数据集时,匹配重复记录是一个非常耗时的过程.因为是模糊匹 配,所以整个过程相当于要对两个记录集做笛卡尔积.然后,根据相似度进行排序,那些相似度超过某一阈值的记录被认为是重复记录,低于某一阈值的记录则不被认为是重复记录,而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要用户作出决定。因为这类记录的数量不多,所以由用户来决定是可行的。
2、数据聚合处理
根据信息采集整合展现信息系统的建设需求,把清洗后的数据抽象为采购、客服、物流、质管、运营、财务6个业务域。
5.2.2.3、数据分类存储
1、标准数据
标准数据是系统运行的数据基础。标准数据包括业务数据的所有数据标准规范,通过这个库和数据校验机制对数据中心的数据进行标准化保障。由于数据标准存在着时效性,因此针对有时效性的数据进行版本控制,不同的版本有各自的生命周期,不同生命周期中的业务数据对应不同版本的数据。
2、业务数据
业务数据是指从各业务系统中各环节收集上来的业务数据,如财务信息、物流信息、采购订单信息等等。这些数据将会存储到相应的业务域中进行统一管理。
3、主题数据
业务数据以主题的方式进行整合和预处理,本系统主要包括的数据主题有:采购、客服、物流、质管、运营、财务。
5.2.2.4、中间库存储服务
是承接信息获取服务所加载的数据集并实现按数据提供将原始数据集归档。根据业务需求和技术能力其具体实现可做多种策略选择:“基于自定义建模的关系数据存储”,或“基于自定义建模的关系数据存储+基于主数据管理模式的操作数据存储”。区别在于对业务需求变化扩展的适应性和实施成本效益,另外基于主数据管理模式的操作数据存储可以直接支持面向全局同步信息共享视图展现,同时可相当程度支持数据利用业务需求变化。数据仓库存储服务是面向决策支持、基于决策模型的信息展现引擎。
当综合数据信息共享库(综合数据存储服务)包含基于主数据管理的操作数据存储和基于决策模型的面向主题存储时,综合管理信息平台对因业务需求变化(决策模型变化或信息共享规范扩展)的适应性和支持能力得以提高。
5.2.2.5、数据聚合
数据仓库是为了系统建立的数据库,其用来对业务进行统计分析、业务监督、绩效考核、应急指挥及决策支持等。其是通过从各系统数据中抽取归纳出来的,主要包括共享资源数据库和主题数据库。
5.3、数据应用
数据应用模块采用SOA构架,统一了Web应用构架,统一了元数据,能够访问企业资源系统的所有数据源,为所有用户提供了基于纯浏览器的全面的BI功能。
5.3.1、应用定制
系统主要应用定制方式为:报表定制、热点定制、图形定制、数据挖掘四部分,主要实现技术路线为下图: 5.2.1.1、定制类型
1、热点定制
定制文本数据混合的输出方式,简称热点定制。可提供可编辑页面,支持从WORD或网页直接黏贴内容以规范文本输出。提供指标选择功能,让用户可以自行选择汇总指标到编辑页面,并在选择时指定汇总指标的各种条件的默认值。保存热点名称和用到的汇总指标定义到数据库,把可编辑页面的HTML代码保存到数据库,并可以进行修改。如下图:
2、报表定制
通过指定汇总指标及其分组项、条件,形成各种类型的报表。树形结构列出所有的汇总指标以备用户选择,可以多选,并可以选择上月数、去年同期数。综合选择的汇总指标,列出其共有的分组因素,并分为三栏显示。根据用户指定的纵向分组因素和横向分组因素生成预览表。并可保存所有用户定义到指定的报表名称。如下图:
3、图形定制
通过指定汇总指标及其分组项、条件,形成各种类型的图形。树形结构列出所有的汇总指标以备用户选择,只能单选。分析用户用户选择的汇总指标并将其分组因素列为两栏。其一为输出分组项选择,选择后可以预览报表和图形、其二为条件或默认条件指定区域,在分组因素外多出时间范围条件。允许用户选择输出图形的类型——包括比例图、直方图、日线趋势图或月线趋势图,如果用户选择的是趋势图则分组项选择失效,只能按照时间进行分组。允许用户预览输出结果(不含数据或随机数据),并对图表位置进行调整。如下图:
4、数据挖掘
对展现的数据进行深入挖掘探索,一直到基础数据或相关链接系统。上级中规定了在数据输出的同时把每个数据项的元数据属性同时输出,该属性包括:该数据项对应的汇总指标的指标ID;该数据项已经包含的条件;该数据项已经包含体现的分组因素;该报表、图形或热点本身定义中规范的链接方向(可以为空)。
依据以上元数据的定义,有两种分支:
(1)如果该报表、图形或热点本身定义中规范的链接方向不为空,则 1)如果链接方向为本系统中的其他数据资源则把元数据属性中的1、2、3部分分别传递给该数据资源,并把当前点击的数据项的值和其分组项关系也作为条件传输给目标数据资源,然后调用数据输出功能对目标数据资源进行输出。
2)如果链接方向为其他业务系统中的页面资源,则利用单点登录功能模拟出登录效果,并打开该页面资源。
(2)如果该报表、图形或热点本身定义中规范的链接方向为空,则 1)分析该汇总指标已经体现了哪些分组因素,条件中考虑了哪些分组因素,从而获得没有涉及到的分组因素列表,并用弹出菜单的方式请求用户选择向下展开至哪个分组因素,菜单末尾为“基础数据”;如果没有未涉及到的分组因素则直接进入基础数据查询。
2)如果进入的还是汇总指标的查询,则系统形成新的临时图形分析定制,依据用户选择的分组项和原数据项含带的元数据生成,如果是绝对数指标则默认以比例图方式展现,如果是计算指标则默认以直方图展现。
3)如果进入的是基础数据查询,则判断该汇总指标通过哪些基础数据视图的数据汇总得来,并提取这些基础数据视图中列表显示的基础数据指标,配合汇总指标的分组因素(本次涉及到的)形成基础数据列表的输出表头,同时依据汇总指标的条件设置和基础数据视图的关联关系形成SQL语句,从而得到数据。
5.2.1.2、数据分析支撑
实现应用定制的支撑工具包括元数据模型设计和管理工具、多维分析服务器、报表工具、多维分析工具、数据管理工具
1、元数据模型设计和管理工具
本系统采用统一的元数据模型。应用统一的元数据模型设计和管理工具,通过图形化的界面,就可以对多数据源进行描述,并且能够同时描述DB,OLAP等各种数据源。为应用提供统一一致的数据访问。同时元数据模型设计和管理工具支持通用的CWM标准能够和各种第三方的工具实现元数据交换。可直接使用第三方工具生成的元数据模型。从而:
1、减小了开发工作量;
2、减小了系统维护 和修改工作量;
3、提高了应用开发效率;
4、具有良好的元数据的层状扩展性。
是应用和数据库之间的语义层,他封装数据库底层表和字段,建立表连接,为后续开发人员和最终用户提供一个贴合业务术语的数据库结构视图。在元数据模型中可以对已有的数据库结构进行描述,加入各种计算字段,绑定数据的过滤器等,同时可以采用动态SQL,使查询的语句根据不同的条件和情况灵活的适应数据库结构。他可以连接多个数据源,能够连接OLAP,DB等各种数据源。提供对元数据的定制和管理以及安全性控制等相关控制。可直接使用各种标准工具制作的元数据模型。
2、多维分析服务器
从各类数据源(数据库、数据仓库、平面文件)中精心筛选出来的“黄金”数据创建成称为PowerCubes的多维数据立方体。立方体是按探察业务的OLAP多维因素分析模型的设计创建,通过对多维数据立方体的OLAP分析,用户可以辨明趋势、跟踪业务运作、创建高效的统计汇总报表。
支持异构数据源访问,能够适应用户从简单到复杂的应用数据环境,支持虚拟Cube技术(可按时间生成不同的子Cube,可针对单个子Cube进行增量更新,通过虚拟Cube访问多个子Cube,支持虚拟Cube的各子Cube维度不同,以适应变化)。Cognos OLAP Modeling生成的Cube为压缩方式,通常为原始数据占用空间的十分之一甚至更小。同时具有足够的灵活性,支持手工自定义层次和节点,支持维度中不同层次节点之间的计算,支持指标层次灵活设计。
3、报表工具
可以通过其制作各种类型的报表,制作报表时不仅能够连接数据库,还能连接OLAP服务器,能够同时连接数据库,OLAP数据源。用户直接通过在没有插件,没有Applet的纯浏览器界面中鼠标托拽就可以实现各种列表,交叉表,图表,分段报表,主从报表等各种常用报表,以及中国特色的非平衡报表,动态仪表盘,KPI报表等各种高级报表报告。报表可以分页面设计,每页可以有多个查询,每个查询可以连接多个数据源,甚至异构数据源。报表的内容采用的是化繁为简的方式,可以精确控制报表中每一个对象的各种属性。可以通过鼠标拖拽方式将包括声音,视频,图形,表格,文字,关系型数据库内容,OLAP等任何有用的信息集成在报表中。还可以方便实现报表数据和GIS地图数据的无缝集成。报表布局可以精确控制和排版,支持所见即所得的打印。报表设计好之后可以批量生成,也可以通过用户交互条件生成,甚至基于时间以及事件等进行调度,也可以通过Email等方式主动推送给用户。同时采用直接保存即发布的方式,大大简化了报表的发布和管理。
对于报表应用,主要由即席报表工具和即席查询工具来实现。通过报表工具可以制作各种固定格式的报表报告等,通过即席查询工具用户可以方便的进行自助式报表的制作。工具提供了一个完全基于Web方式的交互式数据查询、报表定制和报表浏览界面,能够实现各种复杂的报表,并提供定时运行、报表数据监视预警、多渠道报表分发(如通过Email)等功能。本工具还提供了强大的仪表盘,多媒体报表,地图报表等各种报表报告功能。
工具支持用户直接在没有插件,没有Applet的纯浏览器界面中通过鼠标拖拽的方式进行报表的制作,同时报标志制作完成后,直接通过点击鼠标,就能够将报表进行发布,实现信息的共享。
由于系统采用统一的元数据,能够同时访问国药乐仁堂医药有限公司的各个数据源,所以用户在进行报表制作的过程中不需要了解数据源的具体结构,而只需要从业务的角度出发,通过鼠标拖拽就能够将多数据源的数据整合在一张报表中展现
通过统一的元数据模型设计之后,就可以支持用户直接通过纯浏览器界面,进行从简单到复杂的各种报表的制作,制作的过程中通过各种对象的拖拽,属性设置,不需要编写代码,同时用户通过点击鼠标就能实现报表的发布,真正做到了端对端的报表的展现。
4、多维分析工具
联机分析处理主要指的是多维分析。它提供将数据组织成多维立方体(不论逻辑的还是物理的),而用户可以对这些数据立方体进行切片、旋转、汇总等多角度的查询和统计。这种查询和统计可完全出自用户对业务的考虑,而不必关心数据的物理结构和技术上的组织形式。联机分析应用是业务智能应用中最主要,也是最广泛应用形式。
本方案中的OLAP应用主要由多维分析工具来实现。多维分析工具提供完全基于Web方式的OLAP应用界面,能实现不同主题Cube之间的钻取,并能与报表 工具构成穿透钻取环境,融合查询报表和OLAP应用,为用户提供一个贯穿宏观和细节的全景数据视图。
该工具是面向最终用户的多维分析展现,进行方便的多维度,多层次,多指标的分析。用户只需要在Web界面中通过简单的鼠标拖拽等操作,就可以进行各种OLAP分析,如上钻,下钻,切片,旋转,切块等,另外可以支持图表一起展现和图表联动,支持柱图,饼图,折线图,堆积图,面积图,散点图等各种二维、三维图形,支持用户自定义子集功能,支持同比,环比,百分比等各种比例分析,支持TOP N/ Bottom N 分析,支持2/8分析,支持压缩零。支持排名排序功能,支持维度中不同粒度的混合分析,支持不同维度的非平衡混合分析,支持不同层次维度节点之间的计算,支持用户在纯浏览器界面上进行各种OLAP分析,不需要安装插件,不使用Applet,确保数据安全性,支持用户使用简单的拖拽的方式进行多角度分析,支持从Cube和Cube信息之间的钻取支持Cube和关系型数据库信息之间的钻取,支持将分析结果导出EXCEL, PDF等各种格式,采用保存即发布的方式,不需要另外的发布工具它能够让系统中的每一位用户都能够轻松自如地访问对应权限的数据,从而更有效地管理其业务,作出正确决策。
5、数据管理工具
是个数据抽取、整合、传输、加载的(ETL)工具。它对所有的数据源提供唯一地点来定义元数据和业务规则,定义描述用户业务特征的信息目录,创建数据集市或数据仓库,形成数据中心。通过有效的单结构模型,实现了多种异构数据源、多数据源或多个应用的元数据定义。本工具主要提供数据转换、传输和加载服务,它能快速生成BI应用的信息目录,以及面向主题的数据集市。这种数据集市既可是关系型的数据库表也可是多维数据结构存储的数据立方体—OLAP数据源。这些数据将是信息系统用户在网上做数据访问分析的基础数据。它确保了所有用户能够迅速访问一致性的数据,进行全业务指标整体分析、报表制作和决策支持。
用来自任何普通关系型格式、ERP数据源、平面文件格式的数据或者可以通过ODBC(开放数据库连接)应用协议接口访问的数据。基于数据的集成性,本工具可以采用各种格式提供数据结果,例如维度框架、关系型表格等,用户还可以将数据从一个环境移动复制到另一个环境。可以简化IT部门的数据抽取、转换和加载工作。DataManager使用单一的界面,该界面具有用来架构数据仓库的生动的构造流程(build)图形,可以让穿透钻取关系更加清晰直观,使属性的显示和修改更加方便。自动化向导可以帮助开发人员分步骤的创建一个维度构造流程(dimension build)或事实构造流程(fact build)以及众多的转换函数。自动化的维度管理过程和支持汇总和合并的强大引擎可以简化IT的工作,为IT工作提供支持。
成功的数据仓库项目建立在维度框架结构基础之上。维度设计可以消除在数据集市或数据仓库环境的设计、实施和维护过程中最常见也是最重要的困难。
跨部门、流程和业务领域的共享或一致维度的使用意味着可以将分布式数据源集成到一个一致的视图中。为了实现这个目的,本工具会将公共描述符(descriptor)组织成维度表并将事实内容组织成事实表。
5.3.2、数据展现
系统展现采用基于JAVA平台、B/S应用模式,支持图、文、表集成输出,易于用户理解,同时有利于用户从多维度分析数据。系统数据挖掘简单易用,并支持形成动态报表,自动从后台提取数据,及时更新。
数据展现终端分为页面端展现与移动端展现。即用户可以通过PC机了浏览器获取数据,同时可以通过手机端安卓系统浏览数据。对于移动端展现系统同样支持图、文、表集成显示,并保证数据所产生的单位流量最低。
5.3.3、应用主题数据
系统可以根据用户的实际需求,快速建立应用主题数据库,将相关某一主题的数据进行集成展现,既方便高级管理者从公司全局层面获取数据,又方便针对公司某一业务线路进行数据挖掘。
以卷烟销售、财务管理、经济运行、专卖监管等业务领域为主线,满足公司中层以上对报表统计、业务分析、多维分析、辅助决策支持的需求。针对地市级用户的业务需求应用分析主题内容侧重较微观的业务操作层面。其应用主题主要包括:
客户主题分析 供应商主题分析 销售主题分析 库存主题分析 成本毛利主题分析 商品主题分析 市场投放主题分析。
5.4、主要功能
5.4.1、数据来源管理
数据来源是指系统的每一项基础数据的来源途径,包括逻辑概念的数据来源和物理概念的来源服务器,逻辑概念的数据来源包括各种系统、以及机构,例如专卖系统、营销系统、物流系统等;而物理概念的来源服务器主要是指服务器、数据库或应用服务等,例如位于192.0.0.2上的端口为1521的数据库;或者位于192.0.2.3上的端口为8020的getData服务等。
1、数据来源
提供对数据来源的增、删、改、查的功能,逻辑数据来源的信息项应当至少包括:名称、资源说明、注册者、注册时间、发布者、发布时间、失效时间等。
2、来源服务器
在数据来源下管理来源服务器,提供注册,修改和删除的功能,来源服务器的管理信息应当至少包括:名称、地址、端口、类别等信息,注册后作为系统实际的数据提取来源被管理起来。
5.4.2、主题和指标管理
提供树形关系的主题和域的管理,包括增加下级、增加同级、删除、修改等各种操作,管理的信息内容包括名称、说明信息、注册者、注册时间、发布者、发布时间、停用时间的基础信息。
作为对信息分类的基本管理单元,本功能应当能够把所有的指标——包括基础数据指标和管理指标均注册到分别的主题和域,系统支持注册基础数据指标、注册管理指标以及相应的反向操作。其中包括:主题树和主题管理、基层数据指标管理、管理数据指标管理、数据来源、来源服务器、基础数据视图等,如下图所示: 5.4.3、报表定制
主要实现报表定制,通过选择报表要查询的管理指标项,对报表的数据行的分组项,并且选择报表的查询条件和该查询条件的默认值进行定制,同时支持报表表样预览区域,可以根据业务变化方便快捷的调整所需要的报表,不需做任何程序改动。其如下图所示:
5.4.4、图表定制
通过设定图表要查询的管理指标项、图表的查询条件和默认值、图表关联的热点、图表展现的形式等条件进行图表的制定。其如下图所示:
5.4.5、热点定制
对热点内容进行编辑,并且进行定义,如定义“想得到门急诊人次是多少,选择门急诊人次,选择时间范围”等。
5.4.6、连接资源管理
本功能应用环境为应用端管理人员为信息资源本身进行编目管理,从而内接系统的主题和域等范畴,外连门户中的目录体系。
具体管理内容包括:
1、管理者能够对信息资源目录进行管理,建立目录、增加目录节点、修改节点名称等。
2、管理者能够对注册的信息资源进行审核,规范化注册内容,统一信息资源名称及唯一合法出处。
3、管理者能够对信息资源做发布、作废等管理处理。
为了实现以上功能,系统应能够进行:目录结构管理、编目、注册、发布、查询、维护。
5.4.7、页面定制
对于要展现的图表或报表在页面中的位置及结构进行设定,可以根据客户实 际需求,进行自定义。
5.4.8、用户及角色管理
实现系统用户的增、删、改操作,并且根据用户所需分配其角色和权限等。
六、系统价值 5.1、企业报表
数据综合分析应用系统提供的企业级报表定位为企业报表类数据信息发布的统一出口,企业级报表将为发布各类报表提供数据服务,包括上报国家局的报表,互通工商企业的报表,面向所属各级单位发布的报表,以及面向社会发布的报表等。原各业务系统报表将作为业务明细查询,辅助数据综合应用系统使用,并逐步减少使用,最终淘汰。
企业级报表可自定义各类业务报表,进行灵活展现。例如,对各类常用业务指标,诸如购进量,购进金额,销量,销售金额,毛利,毛利率,库存量,库存金额,需求量,协议量,单箱毛利,单箱毛利率,存销比,动销率,回转率,交叉比率,占有率、覆盖率的算法进行预定义,支持报表查询指标自由组合。5.2、主题分析
以卷烟销售、财务管理、经济运行、专卖监管等业务领域为主线,满足公司中层以上对报表统计、业务分析、多维分析、辅助决策支持的需求。针对地市级用户的业务需求应用分析主题内容侧重较微观的业务操作层面。
(1)客户主题分析。包括客户观察、市场细分、客户评价、客户关系、贡献度、客户保留度、规范度、信用度、客户获利性分析。
(2)供应商主题分析。包括进货分析、库存与未到货合同对比分析、厂商库存分析、库存与未执行合同对比分析、厂商毛利分析、厂商库存走势分析。
(3)销售主题分析。包括销售分析、销售趋势分析,采购分析、调拨分析、获利分析、进销存分析。
(4)库存主题分析。包括库存总量及资金占用分析、库存总量二八分析、库存资金占用二八分析、库存总量变化分析、库存资金占用变化分析、库存分布分析、库存结构分析、库存报警。
(5)成本毛利主题分析。包括毛利分析、毛利分布分析、毛利结构分析、销售毛利分析、配送成本分析、购进成本分析、营销成本分析、库存成本分析。
(6)商品主题分析。包括商品进销存分析、商品的竞争能力分析、卷烟(品牌)购买走势分析、商品销售分析、商品毛利贡献分析、卷烟促销分析、TOP(畅销)卷烟(品牌)分析、卷烟(品牌)末位淘汰分析。
(7)市场投放主题分析。包括市场需求总量分析、社会零售库存分析、价格档次投放分析、品种投放分析。
5.3、运营监控
通过实时监控,以便于采取相应措施,保证部门、个人的执行与公司的整体战略目标一致。
1、为企业决策层提供宏观层面关键指标监控和预警。利用驾驶舱和仪表盘,对企业关注的指标,通过生动而明确的图形和数据进行显示,使决策层和管理层领导能够有效了解当前经济运行的总体情况,并进行监控和预警,为制定和调整企业的战略提供依据。驾驶舱主要围绕KPI指标,通过电子地图、仪表盘、电子 报告、图表等方式给决策层和管理层提供最直观的数据展现。
2、为企业管理层提供业务经营层面的指标监控和预警。设置经营指标监控,对异常情况进行报警。从数据的角度,宏观监控企业运营状态,包括采购(合同个数、合同数量、合同金额、已到货数量)、库存(库存数量、库存控制线)、销售(预测销量、销量、销额、毛利)等,同时点击某一阶段指标可以进入到具体的分析中,使分析的数据更直观、更全面,也更容易帮助管理层发现问题。
第五篇:大数据在教育行业中的应用
1.大数据在实验室管理方面的应用
海量数据已经使我们进入了大数据时代,数据信息的来源、传播速度和传播数量正在影响、改变着人们的思维方式和生活、工作习惯。近年来,基于“大数据”的实验室管理系统的开发以及互联网的实验室管理技术正在兴起。但真正被业内人士承认的教育领域的大数据应用却为数不多,其中被公认的当数东华大学的智能实验室项目。
2009年,东华大学教务处处长吴良提出实验室智能化管理的思路,并将材料学院作为试点单位。实验室智能化管理即用物联网的方式把实验室里所有的仪器设备都管理起来。实验室智能管理过程中记录了学生在实验室内所有的活动情况,包含学生进入实验室的情况,使用的仪器设备情况,使用仪器设备时长等,以及所有仪器的电流、电压都可以监控。如今,东华大学所有学院的实验室都纳入了智能实验室的管理。东华大学通过实验室智能管理系统进行各个方面的数据采集,并对数据进行深度挖掘,形成了各种各样的图表。从图表中可以看出哪些实验室申请的设备根本不必购买,哪些实验室不再需要拨钱。实验室的使用率和第二年的经费完全挂钩,最后实现教育经费使用的集约高效;也可以结合大数据的分析和模拟,建立新型的实验教学课程。
另外,华东大学智能实验室利用云平台(东华云)通过服务器虚拟化和实验教学资源管理系统进行管理,简化了管理流程, 节约了管理成本, 提高了服务器资源申请的灵活性,实现了实验资源管理的信息化和透明化。目前,东华大学智能实验室还实现了24小时开放无人管理、跨学院使用等人工无法实现的管理,数据显示,智能实验室的管理对学生学习自主性的提高有显著影响,学生在实验室的时间甚至超过了在教室的时间。
2.大数据在校园网用户行为分析方面的应用
经过多年的积累,人类的数据量、数据处理技术和能力都得到了质的飞跃,大数据时代给人类社会带来了诸多具有革命性的变化,而校园网的出现则是传统“言传身教”教育的一次革命。中职学生思想尚不成熟,自律力和识别能力不强,对于开放式的网络有些迷茫。校园网学生用户行为分析的研究是通过对校园网络的测量和分析,挖掘和发现网络中呈现出来的各种行为规律,同时识别一些异常网络行为,最后将用户行为分析展示。这样以便学校采取对应的策略及措施引导中职学生健康上网,从而使校园网真正成为学生获取知识的平台,提高学生的整体综合素质。
广东省电子职业技术学校罗萍设计了一个基于大数据的校园网学生用户行为分析系统,该系统从网站浏览信息、网站发帖留言、搜索关键词、网络购物等四个维度来描述基于校园网的学生用户行为。通过对网络内容的分析,可以进一步细化到学生用户在网络中具体网络行为、发表的言论和帖子、对网络资源的兴趣偏好是什么等等,从而有效掌握学生的上网行为动态。
随着计算机技术的迅速发展,大数据时代的网络行为已经成为当前学生校园生活中的一项重要活动内容,正在悄然的改变着学生的学习和生活。因此,深入研究学生网络行为,理性分析学生网络行为特点,动机和需求,以及如何引导学生合理运用网络资源,树立健康的上网理念,构建有益的校园网络环境,已经成为目前学校研究的重要课题。
3.数据挖掘在学习分析及干预中的应用
教育领域已经开发和应用了多款学习分析系统,主要集中在绩效评估、学习过程预测与学习活动干预三个方面。
绩效评估: 如美国 Northern Arizona University 研发的 GPS(Grade Performance Status)系统,可实现全校在校大学生的课堂学习绩效评估。该系统能为教师提供最新的学生出勤情况、学生的反馈意见,为学生提供教师的最新评价以及重大事项的提醒。
学习过程预测: 如澳大利亚 University of Wol-longong 研发的 Snapp(Social Networks Adapting Ped-agogical Practice)系统。该系统可以记载和分析在线学习者的网络活动情况(如学生在线时间、浏览论坛次数、聊天内容等),使教师能深入了解学习者的行为模式,进而调整教学方式,最大化地为学习者提供适应的教学指导。
学习活动干预: 可分为人工干预和自动干预,现在主要集中在人工干预上,借助绩效评估工具和学习活动预测工具,由教师完成学习干预。自动干预是未来学习分析技术发展的方向,大数据将为这一目标的实现提供强大动力。
在教育管理改革方面,学习分析能为高职院校教育管理系统的方方面面提供指导教学管理活动的相关数据。依靠这些数据,高职院校管理部门可以有针对性地完善不足之处,修订教育管理方案,优化教学资源配置,并最终评估修订方案及资源配置情况。
在教学改革方面,学习分析技术能真正意义上营造信息化的教学环境,保证教师提供的学习服务契合学习者个性化学习、协作学习的需要。传统教学模式中,教师无法保证所提供的学习资源能真正满足学生的学习需求,无法适时调整和分配资源,无法提供个性化地学业指导,无法及时了解学习过程中出现的障碍与疑惑。这些问题都限制了高职院校教育改革的深度,而学习分析技术恰恰可以弥补这些缺陷。通过应用学习分析的相关工具和大数据技术,教师可以及时获取学生的学习行为数据,从而支持一种既能体现教师主导作用,又能兼顾学生主体地位的新型教学方式,以最大化地激发学生的潜能,为新世纪培养创新性人才。
在学习方式改革方面,学习分析技术的作用在于: 自动识别学习情境,能够从大量纷杂的数据中自动分析出学习者的特征信息,根据其需要推送适应的目标资源,并提供学习建议以协助学习者修订自己的学习任务;学习者可以实时调整自己的学习计划,预约辅导以解答学习疑惑;在特定情况下,还可以通过锁定学习者所在地理区域、学习特点等因素划分学习小组,以满足个别学习者的协作学习需求。此外,学习分析能为在校学生提供个性化的学习指导建议,以帮助学生规划在校学习路径,明确其学业成就的期望。
4.大数据在课程建设方面的应用
大数据时代学习者在数字化学习过程中留下很多数字碎片,通过分析这些数字碎片,我们将会发现学习者的各种学习行为模式。梁文鑫指出:大数据对课堂教学带来的主要影响是使教师从依赖以往的教学经验教学转向依赖海量数据教学分析进行教学,使学习者对自我发展的认识从依赖教师有限理性判断转向对个体学习过程的数据分析,从而使传统的集体教育转向对学习者的个性化教育。
目前流行的大规模在线开放课程(Massive Open Online Course,MOOCs)教育,MOOCs 教育被寄予厚望的主要原因是学习分析技术和大数据对它的支持,有了学习分析和大数据技术,优质的教学、课程资源和服务等通过数据真实客观的被呈现出来。比如:对每一门课程资源和支持服务系统的建设和维护都建立在学习者使用过程的数据分析基础上,从而使提供的课程内容更符合学习者的需求、教学指导更具有针对性,进而提高了学习者的学习积极性,促进了学习成功的实现。学习者在 MOOCs平台上学习时,教师和程序可以通过大数据对学习者的学习行为进行理性干预,比如:通过预测认知模型为学习者自动提供适合的学习内容和学习活动方案,通过作业情况、留言板以及讨论区的问题讨论情况可以发现存在学习困难的学习者,以确保可以及时对其学习进行有效干预等。
大数据的应用可以实现大规模在线教育的同时可兼顾学习者的个人需求,大数据对海量数据的高速实时处理技术可以为在线教育平台实时洞察学习者的变化、把握学习者的需求、提高学习效果提供支持,还可以对学习过程中产生的不相关信息进行深度分析,以预测和把握学习者的需求变化。
5.大数据在助学贷款方面的应用
国家助学贷款始于2000年,此后,全国各地普通高等院校陆续开办国家助学贷款业务。但由于政策设计的缺陷、学生个人的诚信缺失、银行的积极性等多方面的问题,贷款业务开展出现较大差异东部好于西部,南部优于北部,部属院校高于地方院校。年国家修正贷款政策,加大贷款工作力度和政策扶持力度,国家助学贷款工作才得以继续进行。但国家对家庭经济困难学生没有给出界定,更缺乏界定标准,因此各高校在确定助学贷款资助对象时,只能依靠学生个人陈述、老师自己的判断、同学之间的投票等方法对困难学生加以界定,以致帮困助学工作困难越来越多。同时,由于信息沟通缺乏有效的渠道,管理缺少统一的工作平台,很大程度制约了贷款工作的开展,影响了学校、银行工作的积极性。缺少信息的沟通,造成信息的不对称,也影响了工作的开展,出现管理的滞后。
2005年,郑爱华作为课题负责人,组织完成校内课题“济南大学帮困助学问题及对策研究”,主持申报了山东省科学技术发展计划软科学科学项目“山东省国家助学贷款中的问题成因及对策研究”,同年获得立项,项目编号:B2005016。
助学贷款决策支持系统是济南大学研究的山东省省级课题“山东省国家助学贷款中的问题成因及对策研究”的子课题之一。目的在于通过该系统,建立家庭经济困难状况指标评价体系,包括评价指标的设立、指标分值的量化、最后计算机进行决策计算,输出决策支持的结果,帮助学校确定贷款资助对象,建立贷款信息数据仓库,并将贷款信息通过计算机进行处理,实现快捷、方便、及时、准确的数据动态管理,克服银行、学校、学生、主管部门之间的信息不对称问题,实现科学决策、信息化管理的目标,有利于山东省助学贷款工作的健康发展,有利于减轻学校贷款工作的管理难度,降低贷款成本,为帮困助学工作开辟有效的途径。
河北省教育厅学贷中心河北省学生贷款管理中心于2007年开始实施助学贷款信息化建设,将先进的计算机技术应用到国家助学贷款管理工作中,建立“河北省国家助学贷款管理信息系统”,使学生对国家助学贷款的申请、学校对助学贷款的管理、银行对学生申请的审批以及其间的各种信息的交互等都实现网络化。6.基于大数据证据的教育教学决策
在美国,教育大数据为美国政府、教育管理部门、学校与教师做出合理的教育教学决策提供了可靠的证据。整体上,美国建立了严格的教育问责制度,包括利用州教育问责系统(State Accountability Systems)对各州教育发展情况进行全方位评价,借助于学区级评价系统(District-level Evaluation Systems)评价各学区、各学校的整体教育质量,并要求学校与学区要对后进生进行基于数据的支持性学习干预(Data-driven Interventions)。美国联邦政府以及各州政府基于对教育大数据的分析结果评价各州或州内学区的教育进展水平,并以此作为教育投入的依据以及教育政策制定的根据。
美国学校一般利用基于大数据的教育评价支持本校在规划学校整体发展、优化学生管理、制定教学质量改进计划等方面的教育教学决策。据统计,97%的美国中小学利用来自整个年级或整个学校的教育大数据确定学校需要提升的关键领域;分析学生的个体数据以便于分班或安排相关学习支持服务,包括了解哪些学生需要特殊支持或更多支持。47%的美国中小学通过专门的评价人员分析不同教师讲授同一教学内容或同一教师以不同教学策略讲授同一教学内容时产生的数据,评价教师的教学质量并提出教学方式变革计划。而83%的学校在利用教育大数据尤其是本校产生的大数据了解本校教师教学发展的现状与需求,并据此决策如何支持本校教师的教学发展。
学校教师可以利用教育大数据改进与优化自己的教学决策。整体上,教师可以利用大数据分析需要在何种时机对哪些学生以何种方式安排何种教学内容。教师利用本班学生产生的大数据,或同时借助与外部大数据的对比分析,可以深度评价本班学生的学习表现与学习效果,可以有效分析学生的学习偏好与个性化需求,分析学生群体的学习需求,同时也可以利用数据分析哪些学生更适合在一起进行小组学习,分析怎样分组才更合理。对于那些有学习困难的学生,通过对大数据的利用,可以分析出学生在什么环节、什么类型内容学习方面存在问题,分析哪些因素可能在影响学生的学习,这样便于给出适当的学习支持与干预。
那么,大数据从何而来?美国在教育评价的实施过程中主要依托覆盖全美的立体化教育数据网络,同时注重数据质量保障,有效地解决了教育评价“大数据从何而来”的问题。
国家级、州级(State-level)、学区级(District-level)以及校级(School-level)在内的各级各类教育数据系统(Educational Data System)均服务于教育问责体系。这些数据系统之间相互关联,数据互通,形成立体化数据网络,为美国教育评价用大数据的获取提供了基本的依托。
在国家层面,美国有由教育部与各州教育管理部门及一些企业协同创建与发展的教育数据机构EDFacts,建设了“教育数据快线(ED Data Express)”,还有美国国家教育统计中心(National Center for Education Statistics),主要任务在于与教育部内部各机构、各州教育管理部门、各地教育机构合作提供可靠的、全国范围内的中小学生学习绩效与成果数据,分析各州报告的教育数据以整合成为联邦政府的教育数据与事实报告,为国家层面的教育规划、政策制定以及教育项目管理提供了有力的数据支持。
2005年,美国教育部启动了“州级纵向数据系统项目(The Statewide Longitudinal Data Systems(SLDS)Program)”,旨在帮助全美各州“设计、开发与利用州级纵向数据系统以便有效地、准确地管理、分析、分类处理与利用每一位学生的数据”,至今全美有47个州至少获得过一次本项目资助。
州级与学区级数据系统主要为区域性教育评价提供数据支撑,其中主要包括本州/学区学生的成长数据,教育工作人员在工作方面的安排与准备等相关数据,以及其它关于学与教条件的关键数据,比如教师人数、学生入学率、学生与学生家长及学校教职员工对于学校氛围、条件等方面的评价数据等,认为这些数据直接反映学校与学区在让学生做好毕业准备方面取得的进展情况。各州的教育数据系统基本都具有测量学生的成长(Student Growth Measures)、提供高中学习反馈报告(High School Feedback Reports)、实施学业预警(Warning Systems)的功能。学校常常利用四种类型数据系统来收集、整合教学过程数据或评价数据:一是在校学生的实时信息系统(Student Information System),其中包括学生出勤率、人口学特征、考试成绩、选课日程等数据;二是数据软件坊(Data Warehouses),其中保存了学校当前或历史上的学生、教职员工、财政方面的信息;三是教学或课程管理系统(Instructional or Curriculum Management Systems),支持学校教师接入教学设计工具、课程计划模板、交流与协作工具,支持教师创建基准性评价;四是评价系统(Assessment Systems)支持快速地组织与分析基准性评价数据。7.大数据在招生方面的应用
数据挖掘是一项新兴的技术,是商业智能的重要组成部分。近年来,随着高校数据收集量的不断增加以及教育决策对量化分析结果的愈加依赖,数据挖掘在美国高校管理中的应用呈显著上升趋势。许多研究表明这项技术能帮助大学管理人员更好地分析数据,从而获取潜藏的、有用的信息和知识,最终提高决策效率。
加州大学9所分校在校长办公室的统一协调下通过“综合评审”的原则招收本科生。“综合评审”包括两个步骤:第一步是对申请学生的合格性通过多种方法进行确定;第二步是对合格学生的所有背景、特征及技能进行综合评定,并以此为标准做出录取决定。加州大学虽然保证录取所有合格的学生,但由于有的分校或专业竞争激烈,例如伯克利分校、工程专业等,因此不能保证完全按学生的报考志愿录取。在这种情况下,所有合格、但未被报考分校录取的学生,将被推荐到两所加州大学制定的分校,以确保尽可能录取每位合格的学生。另一方面,这两所分校也通过 录取这些“落榜”的学生来增加其入学人数。由于加州大学的录取审核工作是由各分校负责进行,招生的最后决定到四月初才能见分晓。这时许多学生可能同时接到其他大学的录取通知,并需要在短期内选择自己要上的大学。因此,从吸引合格学生入学的角度来说,这时再向学生推荐这两所大学为时已晚。为了提前做好这一工作,校长办公室招办在一月份申请截止日期之后就对申请学生的录取情况进行预测,并将这些合格但极有可能被拒的学生名单提供给这两所分校,供他们提前向学生宣传学校的情况,鼓励学生来这两所学校就读。校长办公室用来完成这项预测分析研究的工具就是SAS Enterprise Miner数据挖掘技术。
通过这项数据挖掘技术,加州大学可以更有效的招收合格的学生。8.大数据在学习成果评估方面的应用
随着大学教学模式由传统的“行为主义”方式向“构建主义”教学过渡,如何更有效地对学生成绩进行评估也成为广大教师和评估工作人员面临的挑战之 一。除了利用传统的考试方法对学生所学知识进行考核外,越来越多的授课教师侧重对学生的学习行为进行评价,譬如合作意识、创新精神、实践能力,等等。这些评价结果更有利于帮助学生提高学习效率,特别是应用知识的能力。但靠传统的评价方法很难有效地完成类似的评估工作,或者说评估结果的可靠性难以得到保证。近几年来,许多学者尝试利用数据挖掘技术提高评估效度。
哈佛大学的研究人员娇蒂·克拉克(Jody Clark)和克里斯·戴迪(Chris Dede)在这方面的尝试非常值得借鉴和参考。他们通过复杂的教育媒体收集丰富的与学生学习行为有关的数据,然后利用数据挖掘技术对其进行分析和研究。
评估结果的价值体现在:1)完成对学生的形成性评估,为教师及时提供信息反馈;2)完成对学生的总结性评估,以真实的实践表现为基础了解学生最终掌握知识的情况;3)根据学生的个性特征,深层了解学生的学习行为以及学习成效;4)合理评判学生合作学习和解决问题的能力;5)通过对学生的学习行为规律和学习成效之间的“路径”关系进行“挖掘”,洞察学生的学习动态。
9.衢州市柯城区依托大数据为学生“私人定制”成绩单
近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域,有人大胆地预测大数据将给教育带来革命性的变化。大数据技术允许中小学和大学分析从学生的学习行为、考试分数到职业规划等所有重要的信息。衢州市柯城区以大数据为依托,为学生“私人订制”成绩单。
2015年开始,衢州市柯城区启动教学质量诊断系统项目,采用CC教学测评系统对每个学生进行数据分析,为学生出具“学业诊断分析报告单”。“学业诊断分析报告单”基于对学生一个学期以来成绩的大数据分析,通过“单科成绩对比图”、知识点掌握情况分析表、知识点的个人掌握率和班级平均做对比表,将学生考试各科目考察的每一个知识点的掌握程度作出相应的分析,从数据中分析学生对知识点的掌握程度,对个人能力如识记能力、运用能力做出综合评价,为学生的学业作出一份细致全面的“体检诊断报告”。“学业诊断分析报告单”为学生提供了知识、能力掌握上的优势和不足信息,学生可通过分析原因,提高学习的针对性和有效性,减少重复的试题训练,进而有效减轻学习负担。教师可通过分析了解学生在知识、能力掌握方面存在的优势和缺陷信息,实施补教性教学,从而提高教学质量,促进学校教学、学生学习方式的改革和发展。10.大数据在学生扶贫方面的应用案列
西安交通大学学生处立足大学生资助工作实际,按照教育部“教育扶贫,十三五期间实现‘精准资助’”的要求,结合陕西省教育厅关于教育精准扶贫的工作思路,扎实开展了一系列“绿色通道”迎新工作:利用大数据完成学生贫困程度的精准识别,通过实地家访将绿色通道延伸到新生家中,开展“知心工程”让资助教育沁入学生心中,建立七位一体的资助系统让学生没有任何后顾之忧。西安交通大学提供给每个贫困生的,不仅是金钱的资助,更是被尊重及自信积极的人生态度。
资助大数据实现精确认定。在新生来校报到之前,通过“西安交通大学家庭经济困难学生综合认定系统”挖掘学生家庭经济困难指数,认定家庭经济困难学生情况,并以此为依据,主动引导特困新生在家中即可通过网上申请“绿色通道”并顺利入学,消除特困生家庭的后顾之忧,在此基础上与各书院共同主动开展有针对性的帮扶工作。
资助全覆盖实现精准帮扶。学校为每一位通过“绿色通道”入学的学生发放全套床上用品“爱心大礼包”,体现学校的关爱。新生入学后学校将陆续通过“奖、助、贷、补、勤、免、偿”七位一体的资助体系给予学生持续资助,确保每一位学生不会因为经济困难而影响学业。学工系统还通过“知心工程”工作体系,全面跟踪家庭经济困难学生情况,建立建全贫困生信息库。今年学校还将特别为建档立卡户新生每人发放一学期的生活费。11.希维塔斯学习”(Civitas Learning)利用大数据帮助学生提高成绩
在教育特别是在学校教育中,数据成为教学改进最为显著的指标。通常,这些数据主要是指考试成绩。当然,也可以包括入学率、出勤率、辍学率、升学率等。对于具体的课堂教学来说,数据应该是能说明教学效果的,比如学生识字的准确率、作业的正确率、多方面发展的表现率——积极参与课堂科学的举手次数,回答问题的次数、时长与正确率,师生互动的频率与时长。进一步具体来说,例如每个学生回答一个问题所用的时间是多长,不同学生在同一问题上所用时长的区别有多大,整体回答的正确率是多少,这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。
现在,大数据分析已经被应用到美国的公共教育中,成为教学改革的重要力量。为了顺应并推动这一趋势,美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于理解学生在个性化层面是怎样学习的。其中,“希维塔斯学习”建立了高等教育领域最大的跨学校数据库。
“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。Civitas Learning提供了一套应用程序,学生和老师可以在其中规划自己的课程和安排。“希维塔斯学习”各种基于云的智能手机第三方应用程序(APP)都是用户友好型的,能够根据高校的需要个性化。这意味着高校能聚焦于各自不同的对象,相互不同地用这家公司的分析工具开展大数据工作。
该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。
12.电子科大利用大数据寻找校园中最孤独的人
从硅谷到成都,大数据,这个新鲜的话题正在全球同步热传。一场关乎每个人生活、工作和思维的大变革正在悄然发生,大数据时代迎面袭来。
到底什么是大数据?大数据”是“数据化”趋势下的必然产物。数据化的核心理念是:一切都被记录,一切都被数字化。电子科大的周涛解释到,“大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值。”比如,国家电网智能电表的数据可以用于估计房屋空置率,淘宝销售数据可以用来判断经济走势,移动通讯基站定位数据可以用于优化城市交通设计,微博上的关注关系和内容信息可以利用于购物推荐和广告推送„„
他们做过一个有意义的课题——寻找校园中最孤独的人。他们从3万名在校生中,采集到了2亿多条行为数据,数据来自学生选课记录、进出图书馆、寝室,以及食堂用餐、超市购物等数据。通过对不同的校园一卡通“一前一后刷卡”的记录进行分析,可以发现一个学生在学校有多少亲密朋友,比如恋人、闺蜜。
最后,通过这个课题找到了800多个校园中最孤独的人,他们平均在校两年半时间,一个知心朋友都没有。这些人中的17%可能产生心理疾病,剩下的则可能用意志力暂时战胜了症状,但需要学校和家长重点予以关爱。