第一篇:高校教育大数据的分析挖掘与利用
高校教育大数据的分析挖掘与利用
摘 要,本文从高校教育大数据的汇聚融合与挖掘应用的角度,分析了如何运用教育大数据技术推动大学管理和人才培养的创新改革的思路和方法。首先,分析了教育大数据对高校现代化、精细化、规范化管理的4个价值,其次,给出了高等教育大数据技术平台的基本技术架构,第三,结合教育大数据实际应用,介绍了陕西省高等教育质量监管大数据中心、MOOC中国、西安交通大学教学质量综合监控与评价三个典型案例,最后,提出了教育大数据分析挖掘中的3项基础性关键技术
关键词,高等教育,大数据,分析,挖掘
一、教育大数据分析挖掘的价值
高校大数据分析挖掘至少有四个典型价值, 一是使得大学的管理更加精准高效,可以朝着智慧治理、分类管理、过程监控、趋势预测、风险预警的方向发展,真正实现基于大数据分析规律的精准治理,改变管理的模糊性, 二是可以更加准确地分析评价课堂教学的质量,过去我们对课堂、对老师的评价是定性和模糊的,而在大数据智慧课堂的模式下,可以真正实现采集样本的持久化,采集方式 的多元化,挖掘手段的多样化,分析技术多维度,通过这些方式可以提高课堂教学的质量, 三是使得教和学更加智慧,更加有效。对学生来说,老师可以了解学生学习的进展情况,发现学习兴趣点,以及对老师讲的哪些内容理解或者不理解,学习路径分析及课程推荐等等。对教师而言,不仅可以跨校跨地域分享他人的优秀课程,而且可以对学习者进行精准分类,进行个性化指导, 四是资源服务的个性化、精准化推荐与服务,学习绩效的个性化评价,以及个性化教学管理,个性化手机内容推送等等,这些功能将有效提升教与学的效率和质量
二、教育大数据技术平台的总体设计
首先,我们对高等教育大数据技术平台有一个总体的顶层设计,如图1所示。这不仅是学校自己要有一个大数据的管理平台或者是数据中心,而且也是面向区域乃至全国的平台。教育部评估中心正在努力建立国家级高等教育教学质量监控大数据中心,陕西省也是这样考虑的。数据来自高校、教育管理部门以及行业、第三方、企业用人单位等等各方面采集的数据,该数据平台既有大学的业务数据、课程资源,也有政府部门的统计数据,还有学生网上学习的日志数据,用户产生的UGC数据,比如微信、微博、论坛等等的数据,基于大数据平台,开展面向学习者、面向高等教育管理机构、教师、高校等提供服务,并和教育部评估中心、主管部门等
进行数据交换与对接
显然,这样一个大数据平台必须是一个高性能的计算平台,没有这样的基础设施一切无从谈起,所以去年我们学校花了很大的力气做了两件事,一个是把校内二级单位原来小的集群计算进行整合,形成学校统一的高性能云计算平台,既面向校内的科学研究、人才培养提供服务,其实也可以为社会提供合作共建共享模式。目前,我们已建立了一种自我造血机制,四两拨千斤,以这个平台吸引更多的外部资源,努力扩展平台的性能和应用
三、教育大数据分析挖掘的典型应用案例
目前,我校的高性能平台除了应用于材料、航天、能动、信息等大型科学计算之外,还开展了以下三项典型的大数据应用
案例1,陕西省高等教育质量监控与评估大数据应用
图2所示的是陕西省高等教育的整体架构。其数据基础是来自陕西省100多所高校的各种办学状态数据,有将近700个表格,以及陕西省教育厅各个职能部处的各种各样的管理数据,此外还有行业第三方提供的数据,包括招生、就业数据等等,这个平台上我们开展预测预警、查询在线分析、信息发布、统计决策等等,主要是为省级教育管理部门、评估机构、教育管理机构提供各种各样的办学状况的分析、统计、关联分析
建设全省高等教育大数据服务平台,实时采集各高校的办学状态数据,其根本目的是为了汇聚全省各高校的办学状态数据,打破数据孤岛,融合各方数据,实现横向关联比较、纵向历史分析,提供精准服务,支持科学决策
首先,该平台面向省教育厅提供了11项功能,从根本上解决了原来各处室间的数据孤岛的问题,实现了数据融合,横向关联,纵向融通,这个数据和各个高校是实时融通的,为省教育厅领导和职能部处提供了领导仪表盘、各职能处室的专项服务、81张高基表及年报年鉴表格的自动生成、绩效分析、招生就业及办学指标计算、教育评估等功能,从根本上解决了数据碎片化及其治理问题
其次,面向全省高校辅助决策,为高校领导以及校内各个职能部处提供了系列功能,包括办学情况综合分析和在线查询,专业结构分析比较,校级的教学质量监控评测体系,教师管理等等,这些功能非常实用,这是大学实现精细化、规范化、现代化管理的必备基础。以我校为例,我们过去教师的数据可能在人事处、教务处、科研院等学校的职能部门,采取本平台以后,把教师有关的所有数据都进行了融合,打通了所有原来割裂的数据。从去年开始,我们学校的职称评聘,年度考核全部基于这一平台,全部在大数据里,建立健全了基于数据驱动的精准化服务,解决了数据碎片化历史遗留问题,实现了从管理信息化向服务信息化的根本转变
第三,为本科教育教学评估及专业认证提供技术支撑。鉴于本平台能提供比较全面的高校办学状态数据,便于专家在进校之前全面系统地掌握学校办学的情况,找到问题,精准查看验证,提高效率,给高等教育评估提供了重要支持。基于本平台,我们成立了中国西部高等教育评估中心,接受陕西省教育厅指派的省属本科高校的审核评估和专业论证。如果没有这一高等教育大数据平台的支撑,工作量和难度是极其巨大的,甚至难以实现
案例2,MOOC中国技术平台
MOOC中国成立于2015年1月,到目前为止已经有121所高校加入,理事单位40家,会员单位80家。该平台的宗旨是,做政府想做的,做社会愿意做的,做单一高校做不了的事情。例如,真正解决校际资源共享、学分互认等,开拓远程教育国际化等未来发展的难题。图3给出了MOOC中国的技术框架。其核心是互联网+教育,实现互联网教育从1.0到2.0的升级。基于这一平台,既要开展网络教育业务的国际化,比如我们牵头成立的“丝路大学联盟”,其目的之一是借助MOOC中国平台,实现网络教育业务的国际化,通过MOOC中国平台,面向“一带一路”国家开展开放教育和技能培训
到目前为止,MOOC中国已经有了9911门课程,用户将近600万,其中光IT培训的有500多万,学历教育在读
学生50多万
案例3,西安交大教育教学大数据分析挖掘与应用
学校非常重视教育信息化技术融入和应用到教育教学之中,去年一次性建成了80个智能教室,把物联网技术、云计算技术应用于智能教室和教学一线,基于物联网技术实现教室设备的集中管理、智能控制,同时,将互联网技术深度融入到教室的管理当中,除了多媒体的直播录制功能以外,还提供了学生考勤和专家的精准督导,通过云平台来集中管理各个教室,比如说开投影机、关电源、关多媒体设备等等,都可以通过后端的云平台集中管控,真正实现教室管理的数字化、智能化、精细化,提升了教学保障的能力,也大大提高了教室管理的效率。更重要的是,这些教学的过程数据可以全程采集下来,获得数据,有了这些数据,就可以做精准化分析服务,建立西安交大教学质量大数据监测中心 目前,我校的教学大数据主要包括两大部分,一是教师在授课过程中的全程录制的课堂实况,二是学生在学习过程中产生的大量日志数据。基于这个平台,我们可以开展教育教学的大数据关联分析,开展课堂教学质量的综合评价,实现正面激励、负面惩戒、精准督导,实现教学评价从模糊宏观到量化精准、从每学期制到持续常态、从部分随机到全面覆盖、从事后评价到实时动态的根本转变。通过评价激励老师敬畏课堂,评选精品课堂、示范课堂,在全校内进行正面
表彰,另外也作为教学质量评价的重要依据,包括教师的职称晋升,评选最喜爱的老师等等
此外,本系统还为学院领导和管理部门提供了针对性的信息服务与决策支持,以数据说话,量化分析,改变了以前我们的模糊评价,采取多维度、全覆盖、持续化、精细化的过程评价与监控
四、教育大数据分析挖掘的若干关键技术
首先,介绍一下大数据人工智能的基本原理。前段时间,AlphaGo战胜世界围棋冠军这一故事炒得很热。这对我们的教育科研工作者提出了一个重要的课题,到底人工智能会不会战胜人类的智能,将来教师存在的主要价值是否还有必要,863计划正在研究一个项目,到2020年,人工智能软件参加高考得分要超过一本线,这就是说,计算机教出来的机器软件参加高考都能达到一本线以上。这就引起我们的思考,这是一个深层次的方向性问题。当然我们今天不是谈这个问题,而是我们要看看AlphaGO的原理,其核心是价值计算函数,用收益函数来判断围棋下一步该落子到哪里其收益是最大的,其中采用了人工智能深度学习方法。AlphaGO并非天生聪明,其实他的智慧是分三步完成的, 第一步,给AlphaGO输入了3000万个人类围棋高手的棋谱和走法,任何一个人是不可能记住3000万个棋局的,只有人工智能才能记住 第二步,AlphaGO自己和自己对弈,在对弈过程中找到自己的薄弱点,进而改进和完善,这其实和人的学习原理类似
第三步,才是人机对弈,从职业选手到世界围棋冠军,通过这样不断的对弈完善算法,校正学习,使得AlphaGO具有强大的智能计算能力。AlphaGO的难点在哪,其关键在于在一个巨大的落子空间选一个最大的收益点,或者落子点,称之为MovePicker,函数,这个空间很大,有10170次方,在如此庞大的计算空间中选择最优函数,只能依靠高性能计算平台
AlphaGo为我们研究大数据问题提供了思路和启发。我们在研究教育大数据问题中需要着力攻克以下理论与技术难题
第一,大数据造成了严重的认知碎片化问题。比如,大家在百度搜糖尿病会检索出4440万个数据源,谁也看不过来,并且里面还有一大堆真假难辩的数据。所以,碎片化知识的聚合是一个非常基础的难题,高度的碎片化降低了知识的可用性,造成了分布性、动态化、低质化、无序化等典型的问题
一方面是知识的碎片化,另一方面是每个人的兴趣和需求还不一样。所以,资源的碎片化整合以及个性化推荐是今后人工智能中的关键问题。我们的思路是,一方面,我们要
从资源的角度把无序、分散、低质的资源进一步重组以后形成知识点,形成有序的知识地图,另一方面,要对学习过程进行跟踪,实现兴趣、个性、情感等方面的动态分析与挖掘,两者结合起来,建立基于用户兴趣和个性的资源推荐,最后实现个性化精准过滤,通过知识地图面向用户提供导航学习,从而缓碎片化知识的问题。开展这一研究也要建立庞大的基础数据,就像刚才讲的AlphaGO,光靠智能软件肯定不可能那么聪明,需要建立庞大的知识地图、知识图谱,并将其放到了国际开源社区和开放数据平台之上 第二,碎片化知识的聚合问题。其目的是解决“既见树木,又见森林”的问题,破解“学习迷航”、“认知过载”的问题。我们正在承担国家自然科学基金重点项目,研究如何将多源、片面、无序的碎片化知识聚合成符合人类认知的知识森林,找出主题与主题之间的认知关系,最后形成一个知识森林,其中需要解决主题分面树的生成、碎片化知识的装配、知识森林生成、学习路径选择与导航等有关知识地图、知识图谱构建与应用等许多基础性关键技术
第三,学习行为的分析和挖掘技术。网上学习最大的好处我们可以把教师和学生所有的教与学的行为记录下来,讨论、作业、习题、笔记及进度记录下来,有了这些数据,我们可以进行后续分析,开展学习行为的特征识别和规律发现等等,既可以跟踪挖掘某个个体的学习规律,也可以找出一
个群体、一个小组的特征和规律。针对不同的课程,开展课程点击率、学习人群、知识关注点、学习时间等的分析与跟踪,刻画一个学生学习的过程,从时间、空间和课程知识导航的角度,甚至围绕某个知识点,研究学习者的特征、行为、交互等相互之间的关系,为老师深化课程改革、探索以学生为中心的教学设计具有非常重要的意义
教育是全人类、全社会发展的基础性事业,随着互联网+技术全面渗透和深度融入教育教学,不仅产生了大量的课程资源和学习内容,而且还产生了巨量的教育教学管理数据、行为数据、服务数据,蕴藏着巨大的价值,亟需我们开展深入研究,可谓前景广阔,挑战巨大,,编辑,王晓明,
第二篇:C02 利用Python实现大数据分析与数据挖掘技术培训(5天)
Python实现大数据挖掘技术培训
【课程目标】
Python已经成为数据分析和数据挖掘的首选语言,作为除了Java、C/C++/C#外最受欢迎的语言。
本课程基于Python工具来实现大数据的数据分析和数据挖掘项目。基于业务问题,在数据挖掘标准过程指导下,采用Python分析工具,实现数据挖掘项目的每一步操作,从数据预处理、数据建模、数据可视化,到最终数据挖掘结束,帮助学员掌握Python用于数据挖掘,提升学员的数据化运营及数据挖掘的能力。
通过本课程的学习,达到如下目的:
1、全面掌握Python语言以及其编程思想。
2、掌握常用扩展库的使用,特别是数据挖掘相关库的使用。
3、学会使用Python完成数据挖掘项目整个过程。
4、掌握利用Python实现可视化呈现。
5、掌握数据挖掘常见算法在Python中的实现。【授课时间】
5天时间
(全部模块讲完需要5天时间,可以根据时间需求拆分内容模块)。【授课对象】
业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。【学员要求】
课程为实战课程,要求:
1、每个学员自备一台便携机(必须)。
2、便携机中事先安装好Excel 2010版本及以上。
3、便携机中事先安装好Python 3.6版本及以上。
注:讲师现场提供开源的安装程序、扩展库,以及现场分析的数据源。
【授课方式】
语言基础 +挖掘模型 +案例演练+开发实践+可视化呈现
采用互动式教学,围绕业务问题,展开数据分析过程,全过程演练操作,让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。【课程大纲】
第一部分:Python语言基础
目的:掌握基本的Python编程思想与编程语句,熟悉常用数据结构的操作
1、Python简介
2、开发环境搭建 Python的安装 扩展库的安装
3、掌握Python的简单数据类型
字符串的使用及操作 整数、浮点数
4、掌握基本语句:
if、while、for、print等 基本运算:
函数定义、参数传递、返回值
5、掌握复杂的数据类型:列表/元组
列表操作:访问、添加、修改、删除、排序 列表切片、复制等 列表相关的函数、方法 元组的应用
6、复杂数据类型:字典 创建、访问、修改、删除、遍历 字典函数和方法
7、复杂数据类型:集合
8、掌握面向对象编程思想 创建类、继承类 模块
9、函数定义、参数传递、返回值10、11、标准库与扩展库的导入 异常处理:try-except块
演练:基本的Python编程语句
第二部分:Python语言与数据挖掘库
目的:掌握数据集结构及基本处理方法,进一步巩固Python语言
1、数据挖掘常用扩展库介绍 Numpy数组处理支持 Scipy矩阵计算模块
Matplotlib数据可视化工具库 Pandas数据分析和探索工具 StatsModels统计建模库 Scikit-Learn机器学习库 Keras深度学习(神经网络)库 Gensim文本挖掘库
2、数据集读取与操作:读取、写入 读写文本文件 读写CSV文件 读写Excel文件 从数据库获取数据集
3、数据集的核心数据结构(Pandas数据结构) DataFrame对象及处理方法 Series对象及处理方法
演练:用Python实现数据的基本统计分析功能
第三部分:数据可视化处理
目的:掌握作图扩展库,实现数据可视化
1、常用的Python作图库 Matplotlib库 Pygal库
2、实现分类汇总
演练:按性别统计用户人数
演练:按产品+日期统计各产品销售金额
3、各种图形的画法 直方图 饼图 折线图 散点图
4、绘图的美化技巧
演练:用Python库作图来实现产品销量分析,并可视化
第四部分:数据挖掘基础 目的:掌握数据挖掘标准流程
1、数据挖掘概述
2、数据挖掘的标准流程(CRISP-DM) 商业理解 数据准备 数据理解 模型建立 模型评估 模型应用
3、数据挖掘常用任务与算法
案例:用大数据实现精准营销的项目过程
第五部分:数据理解和数据准备
目的:掌握数据预处理的基本环节,以及Python的实现
1、数据预处理
异常值处理:3σ准则,IQR准则 缺失值插补:均值、拉格朗日插补 数据筛选/抽样 数据的离散化处理 变量变换、变量派生
2、数据的基本分析
相关分析:原理、公式、应用 方差分析:原理、公式、应用 卡方分析:原理、公式、应用 主成分分析:降维
案例:用Python实现数据预处理及数据准备
第四部分:分类预测模型实战
1、常见分类预测的模型与算法
2、如何评估分类预测模型的质量 查准率 查全率 ROC曲线
3、逻辑回归分析模型 逻辑回归的原理 逻辑回归建模的步骤 逻辑回归结果解读
案例:用sklearn库实现银行贷款违约预测
4、决策树模型
决策树分类的原理 决策树的三个关键问题 决策树算法与实现 案例:电力窃漏用户自动识别
5、人工神经网络模型(ANN) 神经网络概述 神经元工作原理
常见神经网络算法(BP、LM、RBF、FNN等)案例:神经网络预测产品销量
6、支持向量机(SVM) SVM基本原理 维灾难与核心函数
案例:基于水质图像的水质评价
7、贝叶斯分析 条件概率 常见贝叶斯网络
第五部分:数值预测模型实战
1、常用数值预测的模型 通用预测模型:回归模型
季节性预测模型:相加、相乘模型 新产品预测模型:珀尔曲线与龚铂兹曲线
2、回归分析概念
3、常见回归分析类别
第六部分:聚类分析(客户细分)实战
1、客户细分常用方法
2、聚类分析(Clustering) 聚类方法原理介绍及适用场景 常用聚类分析算法 聚类算法的评价
案例:使用SKLearn实现K均值聚类 案例:使用TSNE实现聚类可视化
3、RFM模型分析
RFM模型,更深入了解你的客户价值 RFM模型与市场策略 案例:航空公司客户价值分析
第七部分:关联规则分析实战
1、关联规则概述
2、常用关联规则算法
3、时间序列分析
案例:使用apriori库实现关联分析 案例:中医证型关联规则挖掘
第八部分:案例实战(学员主导,老师现场指导)
1、电商用户行为分析及服务推荐
2、基于基站定位数据的商圈分析
结束:课程总结与问题答疑。
第三篇:大数据分析
1什么是大数据? 云中大数据:融合技术
如今,大数据分析和云计算是全球企业最为关注的两大 IT 话题,大数据分析提供独具价值的洞察,帮助企业打造竞争优势,启迪创新,推动收益增长。作为 IT 服务的交付模式,云计算可以增强业务灵活性,提高生产力,同时增加效率,降低成本。
2大数据能给我们带来什么?
中国社会的急剧发展带来了数据的暴增,从街头的交通摄像头到商场的打折信息,再到网商的用户资料、信息,无不充斥着大量的数据,而在这背后,如何找出有用数据,如何发现规律,如何找到新的商业机会?
大数据究竟能给我们带来什么?
信息时代的特征之一就是数据的密集爆发,而这种数据的变化没有一个循序渐进的过程,呈现跨越式的特征。比如手机里的信息不断地堆积,从最开始的通讯录到短信、彩信,再发展到现在的智能手机时代,更多的来自于应用的数据如微博等正在积累起大量的数据信息。放大到社会而言,产生的数据更是异常庞杂。毫无疑问,大数据时代已经来了。
什么是大数据?,数据已从 TB 级别跃升至 PB 级别;对大数据,现在比较流行的是用 4 个“V”来总结其四个层面的含义:容量巨大(Volume)
数据类型多(Variety),从普通的文字、视频、图片到逐渐增多的地理位置信息等,类型纷繁,已无规律可循;价值密度低(Value),以视频为例,在连续不间断监控过程中,可能有用的数据也许只有一两秒;处理速度快(Velocity),实时分析对某些应用才更有意义,而不是批量式分析,即时处理已经成为趋势之一。
大数据的发展趋势和带来的机会
在大数据概念出来之前,个人制造的数据往往被忽略,企业数据被谈及的更多。企业内部的数据多数都是结构性数据,并被企业在或多或少地利用着,无论是数据挖掘还是商业智能化应用都已经初露端倪。面对这些应用需求,企业依托自身的数据库系统就可以解决,例如应用少量 x86 服务器、客户端,再加上 Sybase 系统、Oracle 系统、Unix 系统等。
随着互联网的快速发展,在企业数据还没有井喷的时候,我们就发现个人用户以及社会应用产生的数据已经开始爆发了,比如社交、交互式应用带来了大量的网络数据,这种非对称性数据充斥在我们周围,包括网络日志、点击流、电话记录、医疗记录、传感器和监控摄像头等等,各种来源的巨量数据种类丰富,让人无所适从。此时传统的硬件设备开始显得捉襟见肘,无法满足这种庞杂数据带来的应用需求。很多时候,也许我们会认为这些数据里会有价值,但是却不知道如何挖掘这些数据的内在价值,数据成为了堆砌。因此,对于数据精准分析的需求正在呼唤做数据分析的厂商们拿出下一步的举动。
比如说,在淘宝庞大的用户群中,淘宝卖家如何精准掌握一个新用户的需求?一家饭馆如何利用细节满足每一个食客对于美味的需求?越来越多的应用需求推动着大数据的发展。更主要的是,未来可能各种传感器会出现在社会的各个地方,数据会更多,比如交通、医疗等等,数据的采集已经不是问题,难点已经转换为处理和分析。如此巨量的数据,处理难度可想而知。
大数据给中国市场带来什么?
大数据应用需求在中国更加明显。中国人口众多,各行各业都呈现出极快的增长速度,电商、快递、微博、社交等都承载了大量的个人信息;大型超市、卖场、商场、银行等集聚了大量交易信息,日新月异的城市建设中,连接着更多数据采集传感器和嵌入式设备的物联网开始成型……大数据的时代正在到来,不仅有机遇,也存在挑战,且机遇大于挑战。
目前,网络搜索曾经在数据分析方面获得了一些机会,但远远不够,而且也是在相对偏窄的一个区域内利用信息,更多的数据散落在社会各个环节中,梳理分析出这些大数据带来的商业机会逐渐凸显价值。在中国市场,工信部发布的物联网“十二五”规划上,把信
息处理技术作为4项关键技术创新工程之一提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。
大数据背后的商业机会
在实现大数据的过程中,硬件和软件供应商都可以找到合适的位置和方法来实现自身的价值,因为大数据的实现需要硬件具备足够的性能、灵活性以及可靠性和软件层面的优化支持。从目前的企业计算领域来看,IA架构是承载和实现大数据的理想平台。对于数据分析来说,基于英特尔至强处理器的双路/多路平台具备开放式、普及性、易优化、灵活易扩展等特点,是实现大数据应用的出色载体。英特尔的双路至强处理器已经通过实践验证了自身在计算能力的领先性,而以其为基础的主流服务器和存储系统具备无可比拟的扩展性。对于商业智能来说,基于英特尔至强处理器的多路平台则具备高性能、高能效、灵活扩展以及高性价比等优势。
此外,英特尔还拥有类似于英特尔发行版 Hadoop 这样的开源分布式架构以及相关的软件工具如编译器、函数库等,英特尔已经形成了完整的大数据解决方案。英特尔提供经过验证的方法和工具来优化 Hadoop 部署,包括具有代表性的 Hadoop 应用集合 HiBench,和基于数据流的 Hadoop 性能分析工具 HiTune 等等。Hadoop 对海量数据处理的支持,可以让用户不再依赖价格高昂的大型专有设备,而是通过大量 x86 服务器集群就可解决——利用较高性价比的 x86 服务器来搭配并行计算架构,从而可以以最符合经济效益的方式完成庞大的计算任务。
对于国内市场而言,对于大数据应用机会的重视和抓取已经越发明显,作为世界上人口最多的国家,中国产生数据的潜力可想而知,即便能掌握其中一部分大数据,对于企业发展也具有不可估量的价值。比如微博等社交网络平台上产生的大量碎片化信息,如果被合理应用,并精准分析、管理、挖掘这些数据的内在价值,那么就能掌握下一个互联网发展机会抑或革命,这还仅仅是互联网层面,放眼到全行业,可以利用的机会则更多。而英特尔与产业合作伙伴的强大产业生态链能够满足行业需求的同时在大数据时代用创新技术将大数据背后的价值一一呈现,并促进更多商业机会的出现。
3大数据:落地正当时我们正处于一个信息大爆炸的时代:宽带普及带来的巨量日志和通讯记录,社交网络每天不断更新的个人信息,视频通讯、医疗影像、地理信息、监控录像等视频记录,传感器、导航设备等非传统 IT 设备产生的数据信息,以及持续增加的各种智能终端产生的图片及信息,这些爆炸性增长的数据正在充斥整个网络。据权威市场调查机构IDC预测,未来每隔 18 个月,整个世界的数据总量就会翻倍;到 2020 年,整个世界的数据总量将会增长 44 倍,达到 35.2ZB(1ZB=10亿TB)。“大数据”时代正在来临!
“大数据”的价值
所谓“大数据”,一般具有几个特点:首先是数据量很大,已经从 TB 级跃升至 PB 级;其次是区别于传统的数据结构,“大数据”时代的数据结构比较复杂,超过 80% 都是非结构化数据,比如道路上的视频监控数据、网上的流媒体数据、物联网中 RFID 的感应数据,以及社交网络上产生的各种数据等。这两个特点,给数据存储、管理和挖掘带来了困难。第三,数据更新快,比如视频监控每秒钟都在进行,微博随时都有人在更新;最后,是对数据的随机访问,这些更个人化的数据在存储后被再次访问的时间是不确定的。这两点就要求新的IT系统更够更快地处理数据,并且能够更智能地保存和管理数据。比如在某一天,你需要从监控录像中找出某个人,那么就需要能够迅速地查找、调用、分析之前保存的海量数据。“大数据”的这些特点,对数据搜索及管理提出了更高要求,因为在“大数据”时代只有经过分析提炼的关键数据才有价值。
全球知名咨询机构麦肯锡在关于“大数据”时代的研究报告中指出,数据已经渗透到了每一个行业和业务职能领域,逐渐成为重要的生产因素;人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。在互联网时代,数据本身就是资产,而“大数据”则意味着这些资产正在变得庞大无比。虽然云计算可以为数据资产提供保管的场所和访问的渠道,但如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是“大数据”时代的核心问题。这就好比一座日益膨胀的矿山,虽然其中蕴含着大量的贵金属,但是要想获得这些价值,就必须解决筛选冶炼的问题。
“大数据”对IT解决方案提出更高要求
在“大数据”时代,超过 80% 的数据都呈现非结构化状态,这些数据正在持续不断地增加,并且需要长时间存储,非热点数据也会被随机访问。这种情况与传统的、基于关系型数据库的核心数据存储方式有显著的差异。这种差异,使得传统的数据存储和管理解决方案无法胜任“大数据”时代的分析、管理和挖掘工作。传统的关系型数据库以及数据分析软件处理的结构化数据通常是GB级别的,很难适应“大数据”时代 TB、PB 级复杂数据类型的检索分析。同时,因为“大数据”时代数据每时每刻都在快速增长,传统解决方案也无法适应这种近乎无限的扩张性。为了适应“大数据”时代的到来,企业需要从技术、应用、硬件等各个层面做好准备,采用更新的IT解决方案,才能满足“大数据”收集、存储、管理和分析的要求。
“大数据”时代的IT解决方案,需要容纳数量庞大的用户和数据生产者,能够从企业及社区网络、移动智能终端、传感器及物联网、定位及地理信息设备中获得大量的视频、语音、图片、文字、产品信息、地理信息、时间信息等非结构化数据,并对这些海量复杂数据进行分析和挖掘,从而获得真正有价值的数据用于后续的经营。这种应用模式,要求“大数据”时代的IT解决方案具备可变的数据接口和高效的数据导入、管理、分析、统计技术;能够支持PB级别的数据、支持非结构化以及结构化数据、支持每秒万次级查询,拥有更高的系统可靠性以及更高的统计分析效率,这就对计算能力、内存数据处理能力和管理能力提出了非常高的要求。
对于企业而言,“大数据”时代爆炸性增长的数据既是巨大的机遇,也将是巨大的挑战。在“大数据”时代,IT解决方案既要能够更高效、低成本的存储和管理,也要能够更快速、灵活及稳定的检索和分析。而在这些方面,已经有不少厂商在努力围绕大数据整合解决方案,英特尔就是其中的佼佼者。首先,IA 架构广泛的普及率可以为企业提供更高的一致性,是承载和应对“大数据”的理想平台。英特尔® 至强® 处理器拥有更高的计算性能和内存数据处理能力,以其为核心的服务器和存储系统具备开放式、普及性、易优化、灵活等特点,具备无可比拟的扩展性,非常适合应对“大数据”的挑战。除此之外,英特尔还有包括 Hadoop 这种开源架构等软件方案(如编译器、函数库等),也将对“大数据”的处理提供了更高的效能。这些软件方案通过优化底层算法,可实现更高的应用效率和更均衡的计算存储分布;与英特尔硬件技术相结合,可以提供更高的平台性能。同时,还能提供跨数据中心的HBase数据库虚拟大表功能,并且实现了 HBase 数据库复制和备份功能,在功能方面也更适应“大数据”时代管理分析的需要。这一切,都为收集数据、分析数据、优化数据、利用数据提供了坚实的基础。
中国的“大数据”时代
“大数据”时代的核心应用就是对已知的数据进行分析来为未来发展和企业经营提供参考。作为一个人口大国,中国在“大数据”时代拥有巨大的机会和挑战。机会在于,我国拥有世界上最多的人,从而可以提供最多的数据以供分析挖掘。而挑战则是,我们怎样才能从海量的数据中找出价值。凭借庞大的人口基数和市场,我国各行各业的规模都在不断扩大,从而制造出庞大的数据。电商、快递、企业的网站和IT系统都承载了大量的数据;传统的大型超市、卖场、商场也集聚了大量的信息。特别是移动互联浪潮下各种手持智能终端的普及和定位设备的应用,也在不断产生大量的数据。如果能够对这些数据进行分析挖掘,找出有价值的信息,就能够大大促进中国企业的发展。比如,电信运营商可以对客服中心的数据进行分析来建立客服中心智能辅助平台,帮助运营商把客服中心从成本中心转变成营销中心;汽车厂商可以分析各大汽车论坛用户的海量评论来监控品牌口碑及舆情;电商企业可以分析用户的各种历史数据来挖掘用户的喜好,从而实现精准营销。面对“大数据”带来的机遇和挑战,我国政府在物联网“十二五”规划上把信息处理技术作为 4 项关键技术创新工程之一提出,其中就包括了海量数据存储、数据挖掘、图像视频智能分析等“大数据”相关的重要技术。而另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
“大数据”的未来
“大数据”的到来已经无可阻挡,这将考验我们的技术是否跟得上数据的爆炸。比如,智慧城市的建立将改变现在的城市生态,但是作为信息采集源头的数万个摄像头,如果通过实时高效的图像分析而实现有机结合,就是我们需要解决的问题。英特尔作为IT上游领导厂商,通过深入了解 OEM 厂商、ISV、SI 甚至用户的需求,将产业链上的每一环都紧紧扣在生态系统周围,使之发挥最大的能动性,来应对“大数据”时代的挑战。在电信、石油、交通、医疗以及制造等行业,英特尔以开发的架构支持新型的商业智能,将这一生态系统的力量发挥到极致。信息就是资源,谁掌握了“数据”,谁就掌握了未来。掌握大数据,就在当下。英特尔将利用各种软硬件技术资源,帮助合作伙伴发掘数据价值,从而应对“大数据”时代的挑战。
4大数据背后隐含的“商业秘密”
信息的密集爆发,带来了大量的数据堆积,数据的变化几乎没有一个循序渐进的过程,砰然爆发的速度太快了,从居家到社交,从生活到工作都会形成大量的数据,无论是有用的还是无用的数据都围绕在我们周围。我们不会在意大量的数据,但是对自己有用的数据是很在意的,最简单的一个例子,我们手机里的信息就不断地堆积,通讯录在增加,还有邮箱,如果说以前仅仅是短信息,那么现在还有彩信,照片,包括微博等等都堆积起大量的数据信息。
数据多了就显得凌乱,甚至乱序,而这仅仅是我们个人的一些信息就显得如此驳杂和繁多。那么对于社会公共信息来说,堆积起来的数据信息是超海量的,汇总进而分析这些数据的价值就变得非常关键,而且也潜在着非常巨大的商机。
大数据应用场景之一
每天开车上街,司机们很在意的是测速摄像头,对于公共资源维护者来说也在意这些数据,当然他们不仅仅是测速,更多的是道路信息采集。什么路段拥堵了,哪个路口出交通事故了,一些城市已经树立了交通指示屏,可以非常清晰明了地为司机提示哪条路段现在是什么情况,拥堵还是畅通,有没有交通事故等等,这都是对数据采集后的分析结果呈现。之前,我们在城市的路口常常可以看到很多交通地图,不过现在这种平面单一的指示正在被数字标牌所取代。当然不仅仅是路口,在商场、电梯,地铁、候机楼、包括楼宇的户外广告等等,都已经不再是简单的一个平面美女,更多地已经开始呈现数字化了。
大数据应用场景之二
各种尺寸的屏幕动态化呈现更多信息,如果说以前我们还惊奇于滚动的数字屏幕,那么随着信息化的快速发展,单纯地动感已经无法满足我们的需求,更广泛的信息呈现才是更迫切的一种需求。而且这种需求是双向的,对大众和商家都很重要。于是智能化数字标牌出现了。这类产品具备了互动的功能,用户可以用触摸或者体感的方式和它们进行交互操作,同时,它们都是联网的设备,可以与数据中心或者其他的数字标牌进行数据的传递,还可以搜集并分析数据,为不同的人群进行定制化的互动展示。这就是大数据的一种应用。英特尔还推出了一套智能系统,通过在数字标牌上的应用,实现丰富的功能。
大数据应用场景之三
在大量数据的背后,如何找出有用数据,如何发现规律,如何找到新的商业机会?大数据,带来了一个全新的机会,这个机会需要软硬件的结合,需要大型数据的分析能力。在这方面,英特尔给予了硬件方面的强力支持,这里的硬件不仅仅是服务器端的,还有更多的终端产品,包括微小终端等等,都呈现数据分析后的结果以及快速分析的过程。
比如,英特尔的一款采用了酷睿 i5/i7 处理器的虚拟试衣镜 K-mirror。它能够通过红外线感应器,将试衣者的人体轮廓抓取出来,配合深度感应器测算人体与屏幕的距离,最后将预先存储在魔镜里面的虚拟衣服自然地搭配到试衣者的身体上。借助 K-mirror,试衣者无需穿上婚纱,便可以轻松、快速地进行选择与搭配,使得以往复杂繁琐的婚纱挑选与试穿过程变得简单随意且妙趣横生。目前已有众多婚纱影楼、服装零售店铺安装了这款体感式虚拟试衣镜,吸引了大量顾客体验这种高科技的试衣感受。
大数据应用场景之四
在移动市场我们常常听到精准营销,包括广告的投放等等。但是广告投资商非常在意的是自己的投放究竟获得了多少的回报和收益,或者自己的投放带来的反馈又是什么,在哪里的投放获得最大的回报率?这都存在着大量数据的分析和归纳。有国外媒体报道,eBay 的数据库每天增加 50TB,每天最少都有数百万次的商品查询,数据库每日增加 1.5 兆笔记录,数据库的总容量则已超过 9PB。每天新增的数据量庞大,数据库也极其庞大,从中分析顾客的浏览、消费行为就变成了一件很困难的事情。
大数据应用场景之五
再比如 Facebook,每天都有数亿用户留下庞大的数据,包括大量的图片、影片等传统数据库系统较不擅长的非结构化数据。针对网络社交平台,一些公司已经开始研究和布局大数据的关键技术──Hadoop。基于 Hadoop 的海量数据分布式处理,可以不再依赖价格高昂的大型专属设备,而通过自建大量 x86 服务器群集来解决。它利用大量平价的服务器,搭配并行计算架构,以最符合经济效益的方式创造庞大的计算量。而且,英特尔可以提供经过验证的方法和工具来优化 Hadoop 部署,包括具有代表性的 Hadoop 应用集合 HiBench,和基于数据流的 Hadoop 性能分析工具 HiTune 等等。
大数据应用之中国机遇
上述五个应用场景代表着现在市场和行业里对于大数据时代的典型描述,而对于国内市场而言,大数据分析和应用的机会也颇大,因为中国的用户量太庞大了,产生数据的潜力不可估量,如果能掌握其中一部分大数据就对企业发展具有意想不到的价值。我们正面临着大数据工业革命,不仅包含传统的结构化(或关联型)数据,而且也包含各类非结构化、非对称性数据。这些数据不仅尺寸庞大,而且增
长速度更快于摩尔定律。可以说,谁能合理地分析、管理、挖掘这些数据的内在价值,谁就有可能成为下一个行业巨头。
大数据之背后的故事
基于大数据的盛行,很多软硬件厂商都在寻求着适合自己的方向,而英特尔利用不同级别的处理器架构,不同的数据应用架构,以及相关的解决方案,帮助用户从端到端找到完整的解决办法。在大数据分析方面,灵活、强大和开放的解决方案更容易来实现现有需求以及未来的升级扩展。而英特尔正在利用开放的架构联合业界合作伙伴一同为大家打造不同的大数据方案,帮助用户解决实际难点。无论从应用、需求还是解决方案层面,大数据都已经到了“应时而生”的时代,而在这背后,从后端数据挖掘分析的厂商到应用的供应商都能从中找到黄金机会,在促进大数据时代的同时完成自己的商业目标。
第四篇:利用大数据分析绩效
利用大数据分析绩效
一般来说,在公司中对员工的绩效考评标准主要有2种:上级评价和业务数据体现(如果有的话)。不仅有主观评论也有客观数据,使得考评结果不倾向于任何一方。
然而,大部分情况下,业务数据很难用数字表示,只有少数特定职位可以有精确业务数据,而这些数据也很容易被变通的理解。
如果要使绩效数据真正帮助到公司发展,来确认哪些部门为公司做出重要贡献,哪些员工的工作真正起到实际作用,就要在部门间和部门内做横向和纵向对比。
而这些对比不能以业务数据来分析,因为每个部门功能不同,工作情况也不同,并且业务数据无法体现真实的工作效率,只能做总结性的对比,特别是销售业绩,也许某个部门或员工为产品市场推广做了大量工作并起到积极作用,最终导致了他人销售业绩增长,如果业绩分析错误也就等于误判了市场发展方向。
如果要真实的体现所有员工或部门的效率,就要用一种标准化且统一的方式,那就是记录每一个员工的每一个工作情况,计算其平均或合计工作数量,实际完成速度,有效完成数量。拿上面说到的销售部和市场部的例子来讲,市场部本月工作数量和效率明显高于上一个月,而销售部的工作量却保持持平状态,如果销售业绩提高了,则说明市场推广起到明显作用。当然,这只是一个简单的例子,其中还要考虑其他各种因素,这时,最好的方法还是要去确认关键项目的实际工作内容。
PACKS办公管理(搜索)的设计不仅为员工提供了更有效的工作方式,还能为业绩提供有效的数据支撑,在需要确认项目工作明细时,也能发现工作中的细节问题,同时还保证了员工个人事务的隐私。
第五篇:大数据分析政府工作报告
大数据分析政府工作报告: 那注定牵动生活的十大新词
有权不可任性 【出处】
在今年的政府工作报告中,国家总理李克强在谈及简政放权时强调:“大道至简,有权不可任性。”
大数据分析:
2014年,政府交出了一张漂亮的简政放权成绩单:10多次国务院常务会议进行专题研究,2次电话会议全国动员,246项行政审批事项被取消和下放、149项职业认证被取消。获得感 【出处】
两会前夕,习近平再次强调,要把改革方案的含金量充分展示出来,让人民群众有更多获得感。政府工作报告提出基本实现高速公路电子不停车收费联网、综合治理农药兽药残留问题、大幅提升宽带网络速率等细节,力图让群众获得实实在在的获得感。健康中国 【出处】
“健康是群众的基本需求,我们要不断提高医疗卫生水平,打造健康中国。”李克强总理在作政府工作报告时,这句承诺得到了热烈的掌声。大数据分析:
“健康中国”最核心的是加快健全基本医疗卫生制度,让民众看得上病、看得起病、看得好病。《报告》提出要全面推开县级公立医院综合改革,在100个地级以上城市进行公立医院改革试点,破除以药补医,降低虚高药价,合理调整医疗服务价格,通过医保支付等方式减轻群众负担。互联网+ 【出处】
李克强总理提出“互联网+”行动计划,可以预见这将成为新兴产业和新兴业态的竞争高地。大数据分析:
互联网+新媒体=网络媒体 互联网+娱乐=网络游戏 互联网+零售=电子商务 互联网+金融=互联网金融 目前,“互联网+金融”已走入正轨,“互联网+交通”各方仍在博弈磨合。今年春节的全民“抢红包”就是互联网金融移动支付暗战传统金融的典型案例。仅除夕当天,微信红包的收发总量就达10.1亿个,1541万微博网友分享了由央视春晚及39位明星与商家送出的1.01亿个红包。书香社会 【出处】
书香社会今年第一次出现在《政府工作报告》中,李克强指出,要提供更多优秀文艺作品,倡导全民阅读,建设书香社会。大数据分析:
一个民族的文化自信离不开崇尚阅读、尊重文化的氛围,让阅读成为一座城市高贵的坚持。3月2日,国家新闻出版广电总局发布通知,将加快全民阅读立法进程,其中,“深圳读书月”作为“书香中国”的活动品牌,截至2014年已坚守了15年,15年参与总人次达1.06亿。创客 【出处】
今年“创客”一词第一次被写入《政府工作报告》。《报告》指出,互联网金融异军突起,电子商务、物流快递等新业态快速成长。李克强鼓励众多“创客”脱颖而出,文化创意产业蓬勃发展。大数据分析:
“创客”一词来源于英文单词"Maker”,指把各种创意转变为现实的人。创客与众创、众包、众筹紧密结合,正在发挥经济新引擎的作用。
李克强总理今年1月初参观了深圳的柴火创客空间。《报告》中提到,2015年高校毕业生将达749万人,为历史最高。因此今年《报告》特别鼓励大学生大众创业、万众创新,有创新式解决就业问题的考量。中国已形成以北京、上海、深圳为三大中心的创客生态圈。深港通 【出处】
2015年政府工作报告首次提到深港通,并表示2015年将适时启动深港通的试点工作。大数据分析:
有评论认为,深港通核心不在于“通”,而在于“融”,不仅是深圳、香港两地股市的互联互通,更是金融、会计、法律等众多高端产业全面融合。“通”是领导一句话,“融”得市场十年功。南上资金依然会显得火热,北下资金则要看政策的安排。领跑者 追赶者 准备者
沈阳、株洲、伊犁、江阳 智慧城市6大关键词
城镇化、工业化、信息化、低碳、绿色、可持续。
北京、上海、广州、深圳、天津、武汉、宁波、南京、佛山、扬州、浦东新区 重庆、无锡、大连、福州、杭州、青岛、昆明、成都、嘉定、莆田、江门、东莞 智慧城市 【出处】
李克强在政府工作报告中提出,发展智慧城市,保护和传承历史、地域文化。大数据分析:
物联网、电子支付、云计算、4G网络„„2015年“两会”上,构建智慧城市成为代表委员关注的热点。事实上,“智慧城市”已成为全国新型城镇化的一种战略选择。据《中国智慧城市发展水平评估报告》,当前国内“智慧城市”发展水平可大致分为3种类型。为官不为 【出处】
政府工作报告指出:“目前少数政府机关工作人员乱作为,一些腐败问题触目惊心,有的为官不为,在其位不谋其政,该办的事不办。”这是政府工作报告中首次纳入治理庸官懒政内容。
大数据分析:
“为官不为”20年来首次写入政府工作报告,与反腐高压下少数官员群体“懒政”有关系。《报告》提出,要完善政绩考核评价机制,分3类对待:对实绩突出的,要大力褒奖;对工作不力的,要约谈诫勉;对为官不为、懒政怠政的,要公开曝光、坚决追究责任。7% 【出处】
政府工作报告中表示,2015年GDP增长目标在7%左右,居民消费价格涨幅3%左右,城镇新增就业1000万人以上。GDP“7%左右”不再是硬指标。大数据分析:
过去十年《政府工作报告》中GDP增长目标从8%缓慢降至2015年的7%,体现了自2013年以来中央强调的不简单以GDP论英雄。据报道,全国已有29个省主动降低了GDP的增长目标,上海甚至取消了GDP的增长目标。
回望
2014年政府工作报告 已改变生活的“新词” ● 互联网金融
“互联网金融”或许是最快被写入政府工作报告的经济新词汇之一。虽然在2014年的政府工作报告中只有一句“促进互联网金融健康发展”,但其火爆态势“一发而不可收拾”。最盛行领域:
1、打车服务;
2、网上购物;
3、网上银行;
4、互联网理财。
优点:起步门槛低;手续简单,无时间地域限制;收益高。风险:法律法规不健全;能否达到承诺的收益;监管和立法。● 舌尖上的安全
2014年“两会”政府工作报告提出了“一个严守、三个最严”,坚决治理餐桌上的污染,切实保障“舌尖上的安全”。
亿赞普(IZP)大数据显示,2013年人们对食品安全的平均关注指数是40,2014年这一数据降为34,远低于2014年人们对汽车(98)、住房(85)、教育(80)、养老(73)和空气污染(61)问题的关注度。
2014年,排在食品安全搜索首位的始终是“食品安全法”。过去人们关心的是地沟油、三聚氰胺、地沟油等重大食品安全事件本身,现在则把目标从治标转向治本——监管和立法。● 企业黑名单
哪些企业会上黑名单?2014年“两会”政府工作报告中给出了答案:违背市场竞争规则,侵害消费者权益的企业。
最常出诚信问题黑名单的行业:
1、食品行业;
2、餐饮行业;
3、药品行业。
调查显示,近70%的人不了解什么是黑名单制度。大家最关心的问题包括:企业黑名单制度怎么建立?企业上黑名单的标准是什么?上了黑名单的企业要承担什么后果?