第一篇:C02 利用Python实现大数据分析与数据挖掘技术培训(5天)
Python实现大数据挖掘技术培训
【课程目标】
Python已经成为数据分析和数据挖掘的首选语言,作为除了Java、C/C++/C#外最受欢迎的语言。
本课程基于Python工具来实现大数据的数据分析和数据挖掘项目。基于业务问题,在数据挖掘标准过程指导下,采用Python分析工具,实现数据挖掘项目的每一步操作,从数据预处理、数据建模、数据可视化,到最终数据挖掘结束,帮助学员掌握Python用于数据挖掘,提升学员的数据化运营及数据挖掘的能力。
通过本课程的学习,达到如下目的:
1、全面掌握Python语言以及其编程思想。
2、掌握常用扩展库的使用,特别是数据挖掘相关库的使用。
3、学会使用Python完成数据挖掘项目整个过程。
4、掌握利用Python实现可视化呈现。
5、掌握数据挖掘常见算法在Python中的实现。【授课时间】
5天时间
(全部模块讲完需要5天时间,可以根据时间需求拆分内容模块)。【授课对象】
业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。【学员要求】
课程为实战课程,要求:
1、每个学员自备一台便携机(必须)。
2、便携机中事先安装好Excel 2010版本及以上。
3、便携机中事先安装好Python 3.6版本及以上。
注:讲师现场提供开源的安装程序、扩展库,以及现场分析的数据源。
【授课方式】
语言基础 +挖掘模型 +案例演练+开发实践+可视化呈现
采用互动式教学,围绕业务问题,展开数据分析过程,全过程演练操作,让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。【课程大纲】
第一部分:Python语言基础
目的:掌握基本的Python编程思想与编程语句,熟悉常用数据结构的操作
1、Python简介
2、开发环境搭建 Python的安装 扩展库的安装
3、掌握Python的简单数据类型
字符串的使用及操作 整数、浮点数
4、掌握基本语句:
if、while、for、print等 基本运算:
函数定义、参数传递、返回值
5、掌握复杂的数据类型:列表/元组
列表操作:访问、添加、修改、删除、排序 列表切片、复制等 列表相关的函数、方法 元组的应用
6、复杂数据类型:字典 创建、访问、修改、删除、遍历 字典函数和方法
7、复杂数据类型:集合
8、掌握面向对象编程思想 创建类、继承类 模块
9、函数定义、参数传递、返回值10、11、标准库与扩展库的导入 异常处理:try-except块
演练:基本的Python编程语句
第二部分:Python语言与数据挖掘库
目的:掌握数据集结构及基本处理方法,进一步巩固Python语言
1、数据挖掘常用扩展库介绍 Numpy数组处理支持 Scipy矩阵计算模块
Matplotlib数据可视化工具库 Pandas数据分析和探索工具 StatsModels统计建模库 Scikit-Learn机器学习库 Keras深度学习(神经网络)库 Gensim文本挖掘库
2、数据集读取与操作:读取、写入 读写文本文件 读写CSV文件 读写Excel文件 从数据库获取数据集
3、数据集的核心数据结构(Pandas数据结构) DataFrame对象及处理方法 Series对象及处理方法
演练:用Python实现数据的基本统计分析功能
第三部分:数据可视化处理
目的:掌握作图扩展库,实现数据可视化
1、常用的Python作图库 Matplotlib库 Pygal库
2、实现分类汇总
演练:按性别统计用户人数
演练:按产品+日期统计各产品销售金额
3、各种图形的画法 直方图 饼图 折线图 散点图
4、绘图的美化技巧
演练:用Python库作图来实现产品销量分析,并可视化
第四部分:数据挖掘基础 目的:掌握数据挖掘标准流程
1、数据挖掘概述
2、数据挖掘的标准流程(CRISP-DM) 商业理解 数据准备 数据理解 模型建立 模型评估 模型应用
3、数据挖掘常用任务与算法
案例:用大数据实现精准营销的项目过程
第五部分:数据理解和数据准备
目的:掌握数据预处理的基本环节,以及Python的实现
1、数据预处理
异常值处理:3σ准则,IQR准则 缺失值插补:均值、拉格朗日插补 数据筛选/抽样 数据的离散化处理 变量变换、变量派生
2、数据的基本分析
相关分析:原理、公式、应用 方差分析:原理、公式、应用 卡方分析:原理、公式、应用 主成分分析:降维
案例:用Python实现数据预处理及数据准备
第四部分:分类预测模型实战
1、常见分类预测的模型与算法
2、如何评估分类预测模型的质量 查准率 查全率 ROC曲线
3、逻辑回归分析模型 逻辑回归的原理 逻辑回归建模的步骤 逻辑回归结果解读
案例:用sklearn库实现银行贷款违约预测
4、决策树模型
决策树分类的原理 决策树的三个关键问题 决策树算法与实现 案例:电力窃漏用户自动识别
5、人工神经网络模型(ANN) 神经网络概述 神经元工作原理
常见神经网络算法(BP、LM、RBF、FNN等)案例:神经网络预测产品销量
6、支持向量机(SVM) SVM基本原理 维灾难与核心函数
案例:基于水质图像的水质评价
7、贝叶斯分析 条件概率 常见贝叶斯网络
第五部分:数值预测模型实战
1、常用数值预测的模型 通用预测模型:回归模型
季节性预测模型:相加、相乘模型 新产品预测模型:珀尔曲线与龚铂兹曲线
2、回归分析概念
3、常见回归分析类别
第六部分:聚类分析(客户细分)实战
1、客户细分常用方法
2、聚类分析(Clustering) 聚类方法原理介绍及适用场景 常用聚类分析算法 聚类算法的评价
案例:使用SKLearn实现K均值聚类 案例:使用TSNE实现聚类可视化
3、RFM模型分析
RFM模型,更深入了解你的客户价值 RFM模型与市场策略 案例:航空公司客户价值分析
第七部分:关联规则分析实战
1、关联规则概述
2、常用关联规则算法
3、时间序列分析
案例:使用apriori库实现关联分析 案例:中医证型关联规则挖掘
第八部分:案例实战(学员主导,老师现场指导)
1、电商用户行为分析及服务推荐
2、基于基站定位数据的商圈分析
结束:课程总结与问题答疑。
第二篇:A31 大数据分析与数据挖掘能力提升实战(5天)
大数据分析与数据挖掘能力提升实战
【课程目标】
本课程为综合课程,包含基本的数据分析,到高级的数据挖掘,数据建模,以及大数据在市场营销方面的应用,帮助企业的相关人员提升数据分析的综合能力,解决业务问题和企业决策问题。
本课程从实际的业务需求出发(特别是市场营销领域的业务),结合行业的典型应用特点,围绕实际的商业问题,对数据分析及数据挖掘技术进行了全面的介绍(从数据收集与处理,到数据分析与挖掘,再到数据可视化和报告撰写),通过大量的操作演练,帮助学员掌握数据分析和数据挖掘的思路、方法、表达、工具,从大量的企业经营数据中进行分析,挖掘客户行为特点,帮助运营团队深入理解业务运作,以达到提升学员的数据综合分析能力,支撑运营决策的目的。
通过本课程的学习,达到如下目的:
1、了解大数据的核心理念,以及大数据思维。
2、掌握数据分析的基础知识,掌握数据分析的基本过程。
3、学会数据分析的框架和思路,掌握常用数据分析方法来分析问题。
4、掌握数据挖掘,数据建模,以及模型优化,能够解决商业问题。
5、掌握常用分析和挖掘工具,学习使用Excel、SPSS、Modeler工具来做数据分析、数据挖掘,以及数据预处理和建模。
【授课时间】
5天时间
【授课对象】
市场营销部、业务支撑、经营分析部、网管/网优中心、数据分析部等对业务数据分析有要求的相关人员。
【学员要求】
1、每个学员自备一台便携机(必须)。
2、便携机中事先安装好Excel 2010版本及以上(常规分析)。
3、便携机中事先安装好IBM SPSS Statistics v19版本及以上(数据挖掘)。
4、便携机中事先安装好IBM SPSS Modeler v19版本及以上(数据预处理和建模)。注:讲师可以提供试用版本软件及分析数据源。
【授课方式】
数据分析/挖掘基础 + 思路分解 + 方法讲解 + 实际业务问题分析 + 工具操作 采用互动式教学,围绕业务问题,展开数据分析过程,全过程演练操作,让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。
不空谈理论,不空谈方法,以业务分析为核心,以解决问题为目的。
一切不以解决业务问题的数据分析/挖掘都是耍流氓!
【课程大纲】
第一部分:解构大数据
1、大数据时代已经来临
2、大数据的三层理解
理论层:以数据为基础 技术层:以平台为手段 应用层:以应用为导向
3、大数据的4V特征
4、大数据的核心价值
发现业务运行规律 预测事物未来
5、大数据在各行业是如何应用的
医疗卫生 政治军事 行政执法 金融银行 ……
6、数据分析的核心理念
数据变化意味着业务变化 数据间关系意味着因素间的关系
7、大数据战略 大数据成为企业的核心资产 大数据成为业务创新的核心引擎 从数据化运营到运营数据
8、大数据的思维变革
定量思维 相关思维 实验思维 ……
9、大数据的商业模式分析
10、大数据的人才培养
第二部分:数据分析篇
问题:数据分析是神马?数据分析基本过程?
1、数据分析面临的常见问题
2、认识数据分析
什么是数据分析 数据分析的三大作用 数据分析的三大类别 案例:喜欢赚“差价”的营业员
3、数据分析的六步曲
明确目的 收集数据
处理数据(预处理) 分析数据
呈现数据(可视化) 撰写报告
案例:终端精准营销项目过程讨论
4、数据分析师需要什么样的能力 懂业务、懂管理、懂分析、懂工具、懂呈现
5、大数据应用系统的四层结构
数据基础层、数据模型层、业务模型层、业务应用层
6、数据分析方法的层次
基本分析法(对比/分组/结构/趋势/…) 综合分析法(交叉/综合评价/杜邦/漏斗/…) 高级分析法(相关/方差/验证/回归/时序/…) 数据挖掘法(聚类/分类/关联/RFM模型/…)
7、基本分析方法及其适用场景
对比分析(查看数据差距)
演练:按性别、省份、产品进行分类统计 分组分析(查看数据分布)演练:银行信用卡月消费分析(银行)演练:呼叫中心接听电话效率分析(呼叫中心)演练:客服中心科学排班人数需求分析(客服中心)演练:客户年龄分布分析 案例:排班后面隐藏的猫腻 结构分析(评估事物构成)案例:用户市场占比结构分析
案例:物流费用占比结构分析(物流) 趋势分析(发现变化规律)案例:破解零售店销售规律
8、综合分析方法及其适用场景
交叉分析(两维分析)演练:用户性别+地域分布分析 综合评价法(多维指标归一)演练:人才选拔评价分析(HR)案例:南京丈母娘选女婿分析表格
杜邦分析法(关键因素分析-财务数据分析)案例:电信市场占有率分析
演练:服务水平提升分析(呼叫中心)案例:销售额的影响因素分析(零售店/电商)
漏斗分析法(关键流程环节分析-流失率与转化率分析)演练:终端销售流程分析(电信营业厅)案例:业务办理流程优化分析(银行营业厅)案例:物流配送效率分析(物流)
矩阵分析法(产品策略分析-象限图分析法)案例:工作安排评估 案例:HR人员考核与管理 案例:波士顿产品策略分析
9、最合适的分析方法才是硬道理。
10、数据分析思路(如何细化业务问题)
案例:利用5W2H来分析产品销售情况
第三部分:概率与数理统计篇
1、数据统计指标
集中程度:平均数/中位数/众数
离散程度:全距/四分位距/标准差/四分位 分布形态:偏度/峰度 正确理解各指标的含义 案例:如何用Excel计算统计指标 案例:如何用Excel画直方图
2、概率论基本知识
随机事件与概率 古典概率与条件概率 全概率公式与贝叶斯公司 概率分布函数 数学期望与方差 大数定律与中心极限定理
3、参数检验分析
假设检验概述 假设检验步骤
样本T检验(单样本、两独立样本、两配对样本)及适用场景 案例:电信运营商ARPU值评估分析(单样本)案例:营销活动前后分析(两配对样本)案例:吸烟与胆固醇升高的分析(两独立样本)
4、非参数检验分析
非参数检验概述
样本检验(单样本、两独立样本、两相关样本)案例:产品合格率检验(单样本-二项分布)
案例:训练新方法有效性检验(两配对样本-符号/秩检验)案例:促销方式效果检验(多相关样本-Friedman检验)案例:客户满意度差异检验(多相关样本-Cochran Q检验)
第四部分:高级数据分析
本篇包含三大内容:影响因素分析,数值预测模型。
1、相关分析(衡量变量间的的相关性)
问题:营销费用会影响销售额吗?影响程度大吗? 什么是相关关系
相关系数:衡量相关程度的指标 相关分析的步骤与计算公式 相关分析应用场景 演练:体重与腰围的关系 演练:营销费用与销售额的关系
2、方差分析 问题:哪些才是影响销量的关键因素? 方差分析解决什么问题
方差分析种类:单因素/双因素可重复/双因素无重复 方差分析的应用场景 如何解决方差分析结果
演练:产品摆放位置与销量有关吗?(单因素方差分析)案例:2015年大学生工资与父母职业的关系
3、回归分析(预测)
问题:如何预测未来的销售量(定量分析)? 回归分析的基本原理和应用场景
回归分析的种类(一元/多元、线性/曲线) 回归分析的几种常用方法 回归分析的五个步骤与结果解读
回归预测结果评估(如何评估预测质量,如何选择最佳回归模型)演练:散点图找推广费用与销售额的关系(一元线性回归)演练:推广费用、办公费用与销售额的关系(多元线性回归)演练:最佳选择的预测销售额的回归模型(一元曲线回归) 回归分析(带分类变量)案例:汽车销量的季度预测
演练:工龄、性别与终端销量的关系 讨论:终端销售预测分析(营业厅)
4、时序分析(预测)
问题:随着时间变化,未来的销量变化趋势如何? 时序分析的应用场景(基于时间的变化规律) 移动平均的预测原理 指数平滑的预测原理
案例:销售额的时序预测及评估 演练:产品销量预测及评估 第五部分:建立预测模型与模型优化(Excel工具)
本篇包含内容:数值预测建模、模型优化,季节性预测模型、S曲线预测模型。
1、常见预测模型类别
数值预测 分类预测
2、回归分析建模
寻找最佳回归拟合线来判断和预测
模型优化七步法(因素、异常值、相互作用、非线性关系…)案例:汽车销量预测分析
案例:工龄、性别与销量的回归分析
3、季节性预测模型
季节性预测模型的参数
常用季节性预测模型(相加模型、相乘模型)案例:美国航空旅客里程的季节性趋势分析 案例:产品销售季节性趋势预测分析
4、新产品销量预测与S曲线
如何评估销量增长的拐点
常用模型(珀尔曲线、龚铂兹曲线)
案例:预测IPad产品的销售增长拐点,以及销量上限
5、规划求解与自定义模型 案例:大数据下的产品定价方法
案例:如何对客流量进行建模及模型优化
第五部分:数据挖掘篇(SPSS工具使用)
1、数据挖掘概述
2、数据挖掘的标准流程
商业理解 数据准备 数据理解 模型建立 模型评估 模型应用
案例:通信客户流失分析及预警模型
3、聚类分析(市场细分与客户细分)
问题:如何实现客户细分,开发符合细分市场的新产品? 聚类分析及其作用 聚类分析的种类 层次聚类:发现多个类别 R型聚类与Q型聚类的区别
演练:中国省市经济发展情况分析(Q型聚类)演练:裁判评分的标准衡量(R型聚类) K均值聚类
演练:宝洁公司如何选择新产品试销区域? 演练:如何评选优秀员工?
4、分类分析
案例:美国零售商(Target)如何预测少女怀孕
问题:如何提取客户流失者、拖欠货款者的特征?如何预测其流失的概率?
分类与聚类 决策树分类的原理 如何评估分类性能
演练:识别银行欠货风险,提取欠货者的特征
5、关联分析
案例:啤酒与尿布、飓风与蛋挞
问题:购买面包的人是否也会购买牛奶?他们同时购买哪些产品? 关联分析解决什么样的问题 如何提取关联规则 关联规则的应用场景
案例:超市商品交叉销售与布局优化(关联分析)
6、RFM模型
问题:如何评估客户的价值?如何针对不同客户采取不同的营销策略? RFM模型介绍
RFM的客户细分框架理解 演练:淘宝客户选择促销客户的方式
演练:结合响应模型,宜家IKE实现最大化营销利润
第六部分:数据挖掘实战篇(Modeler工具实操)
1、数据挖掘处理的一般过程
数据源数据理解数据准备探索分析数据建模模型评估
2、数据读入
3、数据集成
变量合并(增加变量) 数据追加(添加记录)
4、数据理解
取值范围限定 重复数据处理 缺失值处理 无效值处理
离群点和极端值的修正 数据质量评估
5、数据准备:数据处理
数据筛选:数据抽样/选择(减少样本数量) 数据精简:数据分段/离散化(减少变量的取值) 数据平衡:正反样本比例均衡 其它:排序、分类汇总
6、数据准备:变量处理
变量变换:原变量值更新 变量派生:生成新的变量 变量精简:降维,减少变量个数
7、基本分析
单变量:数据基本描述分析
双变量:相关分析、方差分析、卡方检验(列联检验) 变量精简:特征选择、因子分析 案例:通信基本费用与开通月数的相关分析 案例:开通月数对客户流失的影响分析 案例:套餐类型对对客户流失的影响分析
8、特征选择
特征选择方法:选择重要变量,剔除不重要的变量 从变量本身考虑
从输入变量与目标变量的相关性考虑
9、因子分析(主成分分析)
因子分析的原理 因子个数如何选择 如何解读因子含义
案例:提取影响电信客户流失的主成分分析
10、常见分类预测模型 分类预测基本过程
如何评估分类模型的性能(查准率、查全率)
11、决策树分类 决策树分类原理
决策树构建的三个关键问题 决策树算法
案例:识别银行欠货风险,提取欠货者的特征 案例:客户流失预警与客户挽留模型
12、神经网络 神经网络概述 神经元工作原理 BP反向传播网络(MLP) 径向基函数网络(RBF)13、14、实战:电信客户流失分析与预警模型 支持向量机 贝叶斯分类
结束:课程总结与问题答疑。
第三篇:高校教育大数据的分析挖掘与利用
高校教育大数据的分析挖掘与利用
摘 要,本文从高校教育大数据的汇聚融合与挖掘应用的角度,分析了如何运用教育大数据技术推动大学管理和人才培养的创新改革的思路和方法。首先,分析了教育大数据对高校现代化、精细化、规范化管理的4个价值,其次,给出了高等教育大数据技术平台的基本技术架构,第三,结合教育大数据实际应用,介绍了陕西省高等教育质量监管大数据中心、MOOC中国、西安交通大学教学质量综合监控与评价三个典型案例,最后,提出了教育大数据分析挖掘中的3项基础性关键技术
关键词,高等教育,大数据,分析,挖掘
一、教育大数据分析挖掘的价值
高校大数据分析挖掘至少有四个典型价值, 一是使得大学的管理更加精准高效,可以朝着智慧治理、分类管理、过程监控、趋势预测、风险预警的方向发展,真正实现基于大数据分析规律的精准治理,改变管理的模糊性, 二是可以更加准确地分析评价课堂教学的质量,过去我们对课堂、对老师的评价是定性和模糊的,而在大数据智慧课堂的模式下,可以真正实现采集样本的持久化,采集方式 的多元化,挖掘手段的多样化,分析技术多维度,通过这些方式可以提高课堂教学的质量, 三是使得教和学更加智慧,更加有效。对学生来说,老师可以了解学生学习的进展情况,发现学习兴趣点,以及对老师讲的哪些内容理解或者不理解,学习路径分析及课程推荐等等。对教师而言,不仅可以跨校跨地域分享他人的优秀课程,而且可以对学习者进行精准分类,进行个性化指导, 四是资源服务的个性化、精准化推荐与服务,学习绩效的个性化评价,以及个性化教学管理,个性化手机内容推送等等,这些功能将有效提升教与学的效率和质量
二、教育大数据技术平台的总体设计
首先,我们对高等教育大数据技术平台有一个总体的顶层设计,如图1所示。这不仅是学校自己要有一个大数据的管理平台或者是数据中心,而且也是面向区域乃至全国的平台。教育部评估中心正在努力建立国家级高等教育教学质量监控大数据中心,陕西省也是这样考虑的。数据来自高校、教育管理部门以及行业、第三方、企业用人单位等等各方面采集的数据,该数据平台既有大学的业务数据、课程资源,也有政府部门的统计数据,还有学生网上学习的日志数据,用户产生的UGC数据,比如微信、微博、论坛等等的数据,基于大数据平台,开展面向学习者、面向高等教育管理机构、教师、高校等提供服务,并和教育部评估中心、主管部门等
进行数据交换与对接
显然,这样一个大数据平台必须是一个高性能的计算平台,没有这样的基础设施一切无从谈起,所以去年我们学校花了很大的力气做了两件事,一个是把校内二级单位原来小的集群计算进行整合,形成学校统一的高性能云计算平台,既面向校内的科学研究、人才培养提供服务,其实也可以为社会提供合作共建共享模式。目前,我们已建立了一种自我造血机制,四两拨千斤,以这个平台吸引更多的外部资源,努力扩展平台的性能和应用
三、教育大数据分析挖掘的典型应用案例
目前,我校的高性能平台除了应用于材料、航天、能动、信息等大型科学计算之外,还开展了以下三项典型的大数据应用
案例1,陕西省高等教育质量监控与评估大数据应用
图2所示的是陕西省高等教育的整体架构。其数据基础是来自陕西省100多所高校的各种办学状态数据,有将近700个表格,以及陕西省教育厅各个职能部处的各种各样的管理数据,此外还有行业第三方提供的数据,包括招生、就业数据等等,这个平台上我们开展预测预警、查询在线分析、信息发布、统计决策等等,主要是为省级教育管理部门、评估机构、教育管理机构提供各种各样的办学状况的分析、统计、关联分析
建设全省高等教育大数据服务平台,实时采集各高校的办学状态数据,其根本目的是为了汇聚全省各高校的办学状态数据,打破数据孤岛,融合各方数据,实现横向关联比较、纵向历史分析,提供精准服务,支持科学决策
首先,该平台面向省教育厅提供了11项功能,从根本上解决了原来各处室间的数据孤岛的问题,实现了数据融合,横向关联,纵向融通,这个数据和各个高校是实时融通的,为省教育厅领导和职能部处提供了领导仪表盘、各职能处室的专项服务、81张高基表及年报年鉴表格的自动生成、绩效分析、招生就业及办学指标计算、教育评估等功能,从根本上解决了数据碎片化及其治理问题
其次,面向全省高校辅助决策,为高校领导以及校内各个职能部处提供了系列功能,包括办学情况综合分析和在线查询,专业结构分析比较,校级的教学质量监控评测体系,教师管理等等,这些功能非常实用,这是大学实现精细化、规范化、现代化管理的必备基础。以我校为例,我们过去教师的数据可能在人事处、教务处、科研院等学校的职能部门,采取本平台以后,把教师有关的所有数据都进行了融合,打通了所有原来割裂的数据。从去年开始,我们学校的职称评聘,考核全部基于这一平台,全部在大数据里,建立健全了基于数据驱动的精准化服务,解决了数据碎片化历史遗留问题,实现了从管理信息化向服务信息化的根本转变
第三,为本科教育教学评估及专业认证提供技术支撑。鉴于本平台能提供比较全面的高校办学状态数据,便于专家在进校之前全面系统地掌握学校办学的情况,找到问题,精准查看验证,提高效率,给高等教育评估提供了重要支持。基于本平台,我们成立了中国西部高等教育评估中心,接受陕西省教育厅指派的省属本科高校的审核评估和专业论证。如果没有这一高等教育大数据平台的支撑,工作量和难度是极其巨大的,甚至难以实现
案例2,MOOC中国技术平台
MOOC中国成立于2015年1月,到目前为止已经有121所高校加入,理事单位40家,会员单位80家。该平台的宗旨是,做政府想做的,做社会愿意做的,做单一高校做不了的事情。例如,真正解决校际资源共享、学分互认等,开拓远程教育国际化等未来发展的难题。图3给出了MOOC中国的技术框架。其核心是互联网+教育,实现互联网教育从1.0到2.0的升级。基于这一平台,既要开展网络教育业务的国际化,比如我们牵头成立的“丝路大学联盟”,其目的之一是借助MOOC中国平台,实现网络教育业务的国际化,通过MOOC中国平台,面向“一带一路”国家开展开放教育和技能培训
到目前为止,MOOC中国已经有了9911门课程,用户将近600万,其中光IT培训的有500多万,学历教育在读
学生50多万
案例3,西安交大教育教学大数据分析挖掘与应用
学校非常重视教育信息化技术融入和应用到教育教学之中,去年一次性建成了80个智能教室,把物联网技术、云计算技术应用于智能教室和教学一线,基于物联网技术实现教室设备的集中管理、智能控制,同时,将互联网技术深度融入到教室的管理当中,除了多媒体的直播录制功能以外,还提供了学生考勤和专家的精准督导,通过云平台来集中管理各个教室,比如说开投影机、关电源、关多媒体设备等等,都可以通过后端的云平台集中管控,真正实现教室管理的数字化、智能化、精细化,提升了教学保障的能力,也大大提高了教室管理的效率。更重要的是,这些教学的过程数据可以全程采集下来,获得数据,有了这些数据,就可以做精准化分析服务,建立西安交大教学质量大数据监测中心 目前,我校的教学大数据主要包括两大部分,一是教师在授课过程中的全程录制的课堂实况,二是学生在学习过程中产生的大量日志数据。基于这个平台,我们可以开展教育教学的大数据关联分析,开展课堂教学质量的综合评价,实现正面激励、负面惩戒、精准督导,实现教学评价从模糊宏观到量化精准、从每学期制到持续常态、从部分随机到全面覆盖、从事后评价到实时动态的根本转变。通过评价激励老师敬畏课堂,评选精品课堂、示范课堂,在全校内进行正面
表彰,另外也作为教学质量评价的重要依据,包括教师的职称晋升,评选最喜爱的老师等等
此外,本系统还为学院领导和管理部门提供了针对性的信息服务与决策支持,以数据说话,量化分析,改变了以前我们的模糊评价,采取多维度、全覆盖、持续化、精细化的过程评价与监控
四、教育大数据分析挖掘的若干关键技术
首先,介绍一下大数据人工智能的基本原理。前段时间,AlphaGo战胜世界围棋冠军这一故事炒得很热。这对我们的教育科研工作者提出了一个重要的课题,到底人工智能会不会战胜人类的智能,将来教师存在的主要价值是否还有必要,863计划正在研究一个项目,到2020年,人工智能软件参加高考得分要超过一本线,这就是说,计算机教出来的机器软件参加高考都能达到一本线以上。这就引起我们的思考,这是一个深层次的方向性问题。当然我们今天不是谈这个问题,而是我们要看看AlphaGO的原理,其核心是价值计算函数,用收益函数来判断围棋下一步该落子到哪里其收益是最大的,其中采用了人工智能深度学习方法。AlphaGO并非天生聪明,其实他的智慧是分三步完成的, 第一步,给AlphaGO输入了3000万个人类围棋高手的棋谱和走法,任何一个人是不可能记住3000万个棋局的,只有人工智能才能记住 第二步,AlphaGO自己和自己对弈,在对弈过程中找到自己的薄弱点,进而改进和完善,这其实和人的学习原理类似
第三步,才是人机对弈,从职业选手到世界围棋冠军,通过这样不断的对弈完善算法,校正学习,使得AlphaGO具有强大的智能计算能力。AlphaGO的难点在哪,其关键在于在一个巨大的落子空间选一个最大的收益点,或者落子点,称之为MovePicker,函数,这个空间很大,有10170次方,在如此庞大的计算空间中选择最优函数,只能依靠高性能计算平台
AlphaGo为我们研究大数据问题提供了思路和启发。我们在研究教育大数据问题中需要着力攻克以下理论与技术难题
第一,大数据造成了严重的认知碎片化问题。比如,大家在百度搜糖尿病会检索出4440万个数据源,谁也看不过来,并且里面还有一大堆真假难辩的数据。所以,碎片化知识的聚合是一个非常基础的难题,高度的碎片化降低了知识的可用性,造成了分布性、动态化、低质化、无序化等典型的问题
一方面是知识的碎片化,另一方面是每个人的兴趣和需求还不一样。所以,资源的碎片化整合以及个性化推荐是今后人工智能中的关键问题。我们的思路是,一方面,我们要
从资源的角度把无序、分散、低质的资源进一步重组以后形成知识点,形成有序的知识地图,另一方面,要对学习过程进行跟踪,实现兴趣、个性、情感等方面的动态分析与挖掘,两者结合起来,建立基于用户兴趣和个性的资源推荐,最后实现个性化精准过滤,通过知识地图面向用户提供导航学习,从而缓碎片化知识的问题。开展这一研究也要建立庞大的基础数据,就像刚才讲的AlphaGO,光靠智能软件肯定不可能那么聪明,需要建立庞大的知识地图、知识图谱,并将其放到了国际开源社区和开放数据平台之上 第二,碎片化知识的聚合问题。其目的是解决“既见树木,又见森林”的问题,破解“学习迷航”、“认知过载”的问题。我们正在承担国家自然科学基金重点项目,研究如何将多源、片面、无序的碎片化知识聚合成符合人类认知的知识森林,找出主题与主题之间的认知关系,最后形成一个知识森林,其中需要解决主题分面树的生成、碎片化知识的装配、知识森林生成、学习路径选择与导航等有关知识地图、知识图谱构建与应用等许多基础性关键技术
第三,学习行为的分析和挖掘技术。网上学习最大的好处我们可以把教师和学生所有的教与学的行为记录下来,讨论、作业、习题、笔记及进度记录下来,有了这些数据,我们可以进行后续分析,开展学习行为的特征识别和规律发现等等,既可以跟踪挖掘某个个体的学习规律,也可以找出一
个群体、一个小组的特征和规律。针对不同的课程,开展课程点击率、学习人群、知识关注点、学习时间等的分析与跟踪,刻画一个学生学习的过程,从时间、空间和课程知识导航的角度,甚至围绕某个知识点,研究学习者的特征、行为、交互等相互之间的关系,为老师深化课程改革、探索以学生为中心的教学设计具有非常重要的意义
教育是全人类、全社会发展的基础性事业,随着互联网+技术全面渗透和深度融入教育教学,不仅产生了大量的课程资源和学习内容,而且还产生了巨量的教育教学管理数据、行为数据、服务数据,蕴藏着巨大的价值,亟需我们开展深入研究,可谓前景广阔,挑战巨大,,编辑,王晓明,
第四篇:利用python轻松玩转Excel,完成数据分析与统计,学习心得分享
利用python轻松玩转Excel,完成数据分析与统计,学习心
得分享
写在前面这是我学习python写的第一个完整的脚本过程大概是从一头懵逼,到满是问题,再到一个个解决问题我没有系统的学习过python阻碍我的问题是什么,我就学什么这里尤为重要的一点,就是需要清楚的知道自己需要什么对于一个初学者来说,这真的是很难有时候就算知道自己需要什么,也不知道该如何准确的表达这是一个极为让人迷茫和不知所措的过渡时期个人的总结有明确的目标将大目标分解成最小颗粒的小目标针对小目标,一个个去解决举例目标:有一份市面上主流机型使用某APP的兼容性测试报告,包括了详细的手机信息,其中报告中“日志包”这一列是一个超链接,可以访问下载一个ZIP日志包,现需要检查每一个日志文件里是否包含事先埋点的信息,并根据需要生成一份报告目标分解:打开excel测试报告访问“日志包”这一列的超链接,下载ZIP文件解压ZIP文件,得到log文件利用正则表达式,在log文件里查找埋点信息,返回查找结果提取当前行其它需要的信息生成最终结果文件实现脚本动态打印处理进度结果文件源码获取方式私信“数据分析与统计”源码与兼容性报告
第五篇:案例7-2 天津联通利用SAS数据挖掘技术实现精细营销
案例7-2 天津联通利用SAS数据挖掘技术实现精细营销
啤酒和尿布,风马牛不相及,但细心的超市经营者发现,把这两件商品摆放在一起,比分置两处,更能提升两者的销售额——因为周末购物的父亲们会在买尿布的同时,习惯性地拿瓶啤酒。——挖掘数据,分析用户购买习惯,发现用户潜在的需求以做决策的依据,这就是BI的力量。
近四分之一个世纪以来,SAS始终致力于将原始数据转变成知识和洞察力,提供能够将数据仓库技术、分析方法论和传统的商业智能整合在一起的端到端的解决方案,以顶尖的技术和服务帮助客户全面提升管理水平和决策能力,其专业和经验获得了全球财富500强中94%的客户认可。同时,财富500强的经营智慧和他们对本行业的深刻洞察也帮助SAS获得了对客户所从事行业的宝贵经验。
电信业竞争日趋白热化,运营商们推出新业务的节奏越来越快,过于激烈的竞争使得决策不免仓促,缺乏扎实的市场依据,最后沦为“价格战”。信息产业部前部长、全国人大教科文卫委员会副主任委员吴基传最近对国内电信市场“价格战”的批评也正说明了问题的严重性。新的竞争环境下、中国联通香港上市后国际投资人对公司管理水平“国际化”和公司赢利能力水平的提升都提出了更高的要求,天津联通感受到需求的迫切,引进先进的软件和服务系统,成为提升其管理科学化的重要步骤。
在全球市场,SAS服务于众多大型电信运营商,SAS的产品功能模块建立在对这些电信运营商业务分析的基础之上,更具备行业通用性。同时,SAS也与上海、北京、浙江、河北等地的若干家电信运营商存在合作关系,对国内运营商个性化的业务需求非常了解。兼具国际化的背景和本地化的经验,是天津联通选择SAS的重要原因。同时,天津联通认为,商业智能软件不仅投入较大,而且涉及企业的关键业务数据,只有具备相当资质的大公司才值得信赖,而SAS的资质和实力无疑获得了天津联通的信任。
数据挖掘,帮助天津联通实现营销精细化
显然,在今天中国的电信市场上,粗放式的营销已经无法确保市场回报,营销精细化、科学化是运营商生存的唯一选择,而精细化、科学化的营销决策需要情报支持系统,电信运营商每天产生的业务数据不计其数,这些数据之间是否存在诸如“尿布与啤酒”这样的关系?这种关系又蕴涵着哪些潜藏的商机?仅凭直觉和观察,能经营小超市,但经营一家大型的电信企业,就需要专业的商业智能软件做决策支持,这正是SAS所擅长的。
天津联通根据其业务需要与企业的实际情况,选择了SAS电信业智能解决方案中的三个组成部分:客户挽留解决方案、电信业客户细分解决方案、电信业交叉销售和提升销售解决方案。这三个项目的实施,分别帮助天津联通解决三个决策的问题:
第一,是预测哪些客户最具有流失的倾向以及影响客户流失的关键因素,通过预制的分析模型提供“流失记分”帮助识别风险客户,在客户流失之前采取针对性措施来挽留他们。
第二,根据客户可能的行为和潜在的盈利性对客户进行分类,制定更准确的产品组合、更准确的产品介绍和产品捆绑服务。
第三,从现有客户中识别出有可能接受交叉销售和提升销售的客户人选,评估客户过去的购买模式,预测客户下一步可能购买什么。
通过运行该系统,并对业务数据进行分析,天津联通制订了更精细的营销策略,留住了利润贡献最高的客户,并开发了更有针对性的新业务,提高了每用户平均收入(ARPU-Average Revenue Per User),增强了赢利能力。
天津联通的用户对变化也有直接感受,一位入网4年多,每月消费额在500元以上的老客户评价说,“天津联通推出的客户关怀活动让我们感受到了作为老客户的‘价值’,如果有人向我咨询,我会向他们推荐使用联通的服务。”
专业服务,授之以渔
尽管是一家国际型企业,但是SAS在与天津联通沟通过程中,服务团队还是让天津联通感觉到了沟通的融洽。从2000年到现在SAS一直致力于中国团队的建设,目前有两支团队已是相当成熟,一个是技术支持和本地化开发队伍,另外一个就是致力于客户关系管理、客户商务智能分析的销售队伍。
天津联通计费营帐中心数据挖掘项目经理田龙认为,SAS的技术人员非常专业,具备丰富的电信行业经验。“他们能从复杂的数据中找到有用的信息,用图表的方式提供给我们,这些信息很容易看懂,并可以依此形成决策。他们对项目的把控能力也是一流的,系统交割清楚有序,并对我们的业务人员进行了系统的培训。”在SAS的培训下,天津联通的业务分析人员已经能够熟练掌握系统的运行,独立操作,从数据中找到他们真正需要的东西,而这种“授之以渔”,融咨询、服务、培训为一体的模式,比单纯销售产品更加符合客户的长远利益。
同时,SAS有着电信行业特有的数据结构、电信领域的出色专家与业已证实的成功分析模型,这些都构成了天津联通智能化管理的基础。先进的数据挖掘方法论SEMMA帮助发掘真正的商业智能,为天津联通的市场决策做支持,而系统本身具有的智能应用、高可用性、高可靠性、高扩展性等特性也充分满足了客户在相当长一段时间内的需求。
提高决策成功率,降低总体拥有成本
越大的企业,决策的成本越高,一次错误的决策就可导致上千万乃至上亿的损失,减低决策风险,对于大企业有特别的重要的意义。而SAS的BI系统,不仅帮助客户提升了赢利能力,也通过变主观决策为数据决策,减低了决策失误的机率。SASBI系统不仅能满足客户当前的需求,也能满足当用户数量增加和业务规模扩大时的需求,具备高可扩展性,真正做到了总体拥有成本最低。
目前,这一智能解决方案的效果已经被证实十分明显,在新业务开发方面,天津联通原来每1000人的电话销售成功率是40人,而现在这一数字提高到了200人,也就是说成功率由原来的4%提高到了20%。
应用效果评价
目前电信业的竞争越来越激烈,迫使电信业必须从过去粗放式的营销模式转向精细化、科学化管理。决策层要想尽快掌握和调整市场方向,就必须从每天产生的不计其数的业务数据中寻找出准确、有效的数据。而SAS在数据挖掘领域技术不仅技术突出,而且其咨询和实施顾问,由于长期在电信行业摸爬滚打,有着丰富的行业经验。另外,其电信行业特有的数据结构,以及系统本身具有的高可用性和高可扩展性也满足了客户的需求。
值得一提的是,在项目实施期间SAS为用户提供的业务流程和数据规范建议和意见,以及“授之以渔”的实施方法也推动了用户对自身业务系统的优化和深入认识。天津联通计费营帐中心数据挖掘项目经理田龙也表示,“SAS 帮助我们发现隐藏在数据之后的问题与机会,我们的营销变得更有洞察力,准确而迅速。”