第一篇:基于数据挖掘的电信行业客户流失管理研究
DUFE
信息系统研究方法与问题
学号: 专业: 姓名:
基于数据挖掘的电信行业客户流失管理研究
一、研究背景
2008年中国对电信运营企业进行了重组,中国移动和中国联通合并运
营TD—SCDMA网络,中国电信与中国联通C网合并运营CDMA2000网络,中国联通G网和中国网通合并运营WCDMA网络,从而形成了移动、电信、联通三足鼎立的局面,电信公司之间的竞争也越来越激烈。
对电信企业来说,客户是最重要的资源,也是生存和发展的必需品。客
户资源是电信运营企业的根本,保留并巩固客户资源意义重大。而在当前中
国电信市场下,电信运营商为了争夺客户,除了通过简单的价格竞争以外,还不断推出各种新的套餐和新的业务来优先获得客户资源,双卡情况越来越
严峻,这就在很大程度上加大了客户的不稳定性,使得客户在三家运营商之
间不断做出选择的现象频繁发生。据官方统计,中国移动客户的离网率近几
年不断攀升,2013年全年离网率高达50%左右。从客户关系管理理论上看,开发一个新用户的成本是保留一个有价值老用户的5-10倍,因此在新增电
信客户不断下降的时候,想要保持企业持续增长的利润就需要在挽留老客户
这一相对低成本高收益上想办法。
二、研究的目的和意义
本文的研究目的就是在对电信客户流失等业务知识的理解和研究一些
常用的数据挖掘方法上,依据数据挖掘建模流程,研究并实现一个准确实用的的客户流失预测模型和流失客户分类模型,并结合广丰县移动客户数据进
行分析,对分析结果进行评估验证。在对客户流失预测模型和流失客户分类
模型进行评估和结果分析的基础上,得到了有效的客户流失规则集,并给出
预测的准确率,同时依据流失客户分类结果对客户的挽留策略提出一些意见
和建议。最后对所做的理论研究工作、实验工作和实验中所遇到的问题以及
下一步工作进行总结。
三、研究的主要方法和手段
1、数据挖掘的定义
数据挖掘技术是数据库知识发现的核心技术,产生于二十世纪八十年末,至今大约经历了 30年的发展历史,但它的定义却没有一个被完全认同。因为
数据挖掘技术被广泛地应用到互联网、电子商务、零售、电信等各个领域在不同的领域应用也不同,因此各专家及学者也分别对数据挖掘进行定义:数据
挖掘就是从众多的、不完整的、有杂质的数据中,挖出隐含在里面的、人们以
前不清楚的、但又是潜在存在的有用信息的过程。简单地说,数据挖掘就是从
众多的数据中找出有用的信息,如图所示,数据挖掘被认为是知识发现过程中的一个步骤。
图1数据挖掘的过程
2、数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差
分析等。
(1)关联分析(AssociationAnalysis)
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是
找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
(2)聚类分析(Clustering)
所谓聚类[55],就是按照事物的某些属性聚集成类,使得类间的相似性尽可
能的小,类间的相似性尽可能的大。聚类分析可以建立宏观的概念,发现数据的分
布模式,以及可能的数据属性之间的相互关系。聚类分析的算法可以分为以下几
大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。
(3)分类(Classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类可被
用于规则描述和预测。
(4)预测(Predication)
预测是利用历史业务数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常使用预测方差来度
量。
(5)时序模式(Time-series Pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析(Deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数
据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结
果与参照之问的差别。
在本文中需要数据挖掘完成的任务主要是对电信客户流失数据的分类及预
测。
3、数据挖掘过程模型
本文准备采用CRISP-DM模型来进行数据挖掘。CRISP-DM模型定义了 6个阶
段,分别是:商业理解(Business Understanding)、数据理解(Data
Understanding)、数据准备(Data Preparation)、建立模型(Modeling)、模型评
估(Evaluation)、发布模型(Deployment)。CR1SP-DM模型如图2所示:
图2CRISP-DM模型
4、数据挖掘工具
SPSS Clementine是一个开放式数据挖掘工具,它不但支持整个数据挖掘过
程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行
业标准CRISP-DM,提供了完善的项目管理功能。SPSS Clementine的可视化数据
挖掘使得“思路”分析成为可能,有助于把有限的精力放在对商业的理解、数据的处理和模型选优等关键问题上,即将精力集中在要解决问题的本身,而不是局
限于完成一些技术性的工作(比如编写代码)。提供了多种图形化技术,有助于理
解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法,根
据公布的用户基准测试,它在可伸缩性、预测准确率和处理的时间方面都表现得
很好。本文研究使用通用CRISP-DM标准的SPSS Clementine数据挖掘软件建立
电信企业的客户流失预测模型。
5、预测模型技术
决策树算法是二十世纪中期J.Ross Quinlan开发出来的一种算法,因其结
构就像一颗树,因此被称为“决策树”。目前决策树算法己经被广泛地应用于分类
识别问题的数据挖掘,它是利用分割前后信息熵来计算信息增益,并将其作为判
断能力的度量准则。
决策树算法是一种基于概率供给的分类方法,它是通过从一个空白的树开始,不断增加结点,逐步精确化的数据挖掘方法。决策树中每一条从根到叶结点的途
昆明理工大学硕士学位论文径即为一条合取规则,其整棵树则为析取规则的集合体。决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。届时,决策树能够依据
新数据输入变量的取值,推断其输出变量的分类取值。决策树算法属于有指导的学习,要求数据既包含输入变量也包含输出变量。决策树主要围绕两大核心问题
展开:第一,决策树的生长问题,即利用训练样本集来完成决策树的建立过程;第二,决策树的剪枝问题,即利用检验样本集对形成的决策树进行精简。不同决策树
算法采用不同的分枝生长及剪枝策略。
四、研究的重点和创新点
本文研究的重点在寻找用于挖掘的最优算法,准备通过以下模型来寻找最优
算法。
图3应用数据挖掘建立最优模型
本文的创新点准备放在对算法的优化上面。
参考文献
[1]杨树莲.数据挖掘在电信行业客户流失分析中的应用[J].计算机与现代
化,2005,02:109-111.[2]高洋.基于数据挖掘的电信客户流失预测系统研究[D].昆明理工大学,2013.[3]隆曼.基于数据挖掘的电信行业客户流失管理研究[D].西南财经大学,2013.[4]肖仲东.数据挖掘在预测电信客户流失中的研究与应用[D].湖南师范大学,2012.[5]梁循.数据挖掘算法与应用.北京大学出版社,2006.[6]马钢.商务智能.东北财经大学出版社,2010.
第二篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世
第三篇:基于数据挖掘粗糙集技术的电信运营商客户价值评价
龙源期刊网 http://.cn
基于数据挖掘粗糙集技术的电信运营商客户价值评价
作者:谭耀武
来源:《沿海企业与科技》2006年第01期
[摘 要]电信行业竞争激烈,国内电信运营商对有效的客户价值评价体系需求极为紧迫。文章结合电信行业实际,通过研究数据挖掘粗糙集技术,提出了电信运营商客户价值评价系统,以提高我国电信运营商的客户关系管理水平,增强竞争力。
[关键词]数据挖掘;粗糙集;客户价值评价;电信行业
[中图分类号]TN943.6;TN914.3
[文献标识码]A
第四篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第五篇:高校管理中数据挖掘技术的研究论文
摘要:近年来,数据库挖掘技术的普遍应用,使数据价值实现最大化,在我国金融、商业、市场营销等领域得到广泛应用。然而在我国高校管理中并没有得到推广,为使高校管理系统中的数据充分发挥应有价值,在该系统中使用数据库挖掘技术意义深远。本文首先介绍了数据挖掘技术的流程,然后在教师教学质量评估中应用数据库挖掘技术,充分证明数据库挖掘技术在高校管理中能发挥重大作用。
关键词:管理;决策树;数据挖掘技术
当前,大部分高校都拥有配套的管理系统,该系统具备海量数据储存和管理功能,彻底告别了手工记录信息和数据的年代。不但节约了纸张,更有效提高了高校管理数据和信息的效率。然而我国高校没有有效利用应用数据挖掘技术,因此研究数据库挖掘技术在高校管理中的应用十分必要。
1数据挖掘技术的流程
数据挖掘技术能够将海量数据展开分析和处理,再把整体数据库中存在规律的数据整合起来,实施该技术主要包括以下五个环节。目标定义:该环节中要与有关领域的背景知识相结合,清晰、精确的定义出数据挖掘目标。数据准备:在该环节中要搜集、选取数据源中的数据,处理已选数据,将其转换为适合数据挖掘的形态。数据挖掘:该环节是数据挖掘技术的核心,即采用关联规则法、分类分析法等各种数据挖掘方法把数据中隐藏的知识和规律发掘出来。结果表示:在该环节中可以以用户需求为依据,将挖掘出来的知识和规律转变为用户能接受和理解的形态。知识吸收:该环节中,主要是把挖掘结果与指定领域中的需求相结合,在该领域中应用发掘出来的结果,为决策者提供知识,是数据挖掘的终极目标。
2数据挖掘技术在教学质量评估中的应用
2.1运用关联规则法挖掘数据库中的信息
评估老师教学质量不但是评定教学效果的重要部分,也是评定教师职称的重要根据,因此是高校管理工作中不可或缺的部分。目前评估教学质量的主要措施是搜集、统计学生的成绩和以及对老师的评价,然后加权算出老师的总得分,作为评估该老师教学质量指标。这种方法非但不科学,其权威性也较低,因此需要深挖数据的相关性,本文采用了数据挖掘技术中的关联规法挖掘数据中的规律和知识,为评估老师教学质量提供有力根据。运用关联规则法挖掘数据,其规则方法为“XY,置信度为c%,支持度为s%”。关联规则中置信度为c%:在整体事件D集合中,如果既能够符合事件X中拥有c%的需求,也能够符合Y的要求。那么就用置信度来表示关联规则的强度,被记录为confidence(XY),置信度最小值用minConf来表示,通常置信度最小数值由客户提供。关联规则中置信度为s%:在整体事件D集合中,如果既能够符合事件Y中的s%的需求,又能够符合X要求。用支持度来表示关联规则的频度,把支持度的最小数记录用minsup(X)来表示,通常支持度最小数值由客户提供。频繁项集合:当X项集的支持度大于等于用户设定好的最小支持度时,那么频繁项集是X。通常关联规则包含两个环节:①把全部频繁项集从整体事件集中选出;②运用频繁项集产生关联规则。在这两个环节中关联规则效果和性能是否良好取决于第一个环节。
2.2关联规则分析在评估教学质量中的运用
第一步是准备数据期,在某大学的教学管理系统中将五百条与教学评价有关的记录从数据库中随机抽取,并挑选出老师编号、学历、性别、教龄、评估分和职称这六个属性,并将相关数据从数据库中提取。比如把讲师、副教授和教授等职称转化成11、01、00等编码,表1就是制定的评价教师教学记录表。第二步采用关联规则分析法把90分以上评价分数作为检索目标和判断标准,也就是将≥90分作为判断是否是高教学质量阙值。通过检索有143条记录符合标准,即设定最小的支持度为10%,置信度则为15%,得出下表2的关联规则。最后一步评价本次实验的结果。由上表得知,学生喜欢男老师和女老师的程度大致相同;学历愈高的老师,给予他们的教学评价也就愈高,即学历和教学评价成正比,这也说明了学历高的老师其基本功与学历低的老师相比,前者基本功更为稳固,也有较高的科学研究水平;有较长教龄和较高职称的老师,其教学质量也越高;此外,在支持度中可以看出,高校教授和高学历人才越多,说明其办学能力也就越高。
3结语
高校管理系统作为教学信息化的重要举措,只是起到搜集和储存海量教学信息的作用,并没有挖掘出海量数据之间的相关性,而在本文中把关联规则法运用在教师教学质量评估中,在数据中挖掘有价值的知识和规律,使评估教师教学质量更具有科学性,因此在高校管理中全面应用数据挖掘技术,能为高校深化教学改革提供新的契机。
参考文献
[1]江敏,徐艳。数据挖掘技术在高校教学管理中的应用[J]。电脑知识与技术,2012,(24):541—545+560。
[2]杨雪霞。数据挖掘技术在高校图书馆管理系统中的应用研究[J]。软件,2011(04):16—18。