第一篇:浅谈数据挖掘技术及其在高等学校教学中的应用教育论文
关键词:数据挖掘 高校教学 教育信息化
摘要:数据挖掘技术目前在商业、金融业等方面都得到了广泛的应用,而在教育领域应用较少。本文通过时数据挖掘在高校教学中的应用分析,认为数据挖掘技术可以帮助教学人员合理安排教学工作,协助辅导员对学生的管理,对提高学校的教学管理水平起到指导作用。
1引言
随着12世纪信息化时代的到来,整个社会的信息总量呈几何级数迅速增长,人们利用信息技术生产和搜集数据的能力大幅度提高,积累的数据越来越多,但缺乏挖掘数据中隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象。随着数据库技术的成熟和数据应用的普及,在过去的若干年中,人们积累了大量的数据资料,但数据库中隐藏丰富的知识及有价值信息远远没有得到充分地发掘和利用,随着数据量以指数速度激增,人们渴求从数据汪洋中出现一个去粗存精、去伪存真的技术,越来越希望系统能够提供更高层次的数据分析功能,从中找出规律和模式,帮助决策者发现数据间重要但被忽略的因素,从而更好地支持决策或科研工作。正是为了满足这种要求,从数据库中发现知识(KDD)及其核心技术—数据挖掘技术应运而生。
2数据挖掘介绍
2.1概念及其特点
数据挖掘(DtaaMniing)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的但又潜在有用的信息和知识的过程,提取的知识表示为概念、规则、模式等。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。
数据挖掘有以下特点:(1)能发现反映系统局部特征和规律的模型;(2)自动趋势预测,能发现“新”的知识;(3)比较容易获得很多规则,并能及时更新。数据挖掘方法具有开放性思维方法,它可以及时借鉴和引用模型法的很多成果,比如神经网络、粗糙集、朴素贝叶斯算法等方法都已被利用在数据挖掘方法中。
2.2数据挖掘目的及其过程
2.2.1目的数据挖掘期望发现的知识有如下几类:(1)反映同类事物共同性质的泛化知识;(2)反映一事物和其他事物之间依赖或关联的关联型知识;(3)分类、聚类知识,是反映同类事物共同性质的特征型知识和不同事物之间的差异型知识;(4)根据历史和当前的数据推测未来的预测型知识。
2.2.2挖掘的过程
挖掘过程是从大型库中挖掘未知的、有效的、可实用的信息,并使用这些信息做出决策。通常可以分为准备、数据挖掘、评价阶段以及运用阶段等四个阶段。
(1)数据准备阶段。数据准备阶段是消除数据噪声和与挖掘主题明显无关的数据,完成对数据的筛选、变换和预处理。经处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:①数据的选择:选择相关的数据;②数据的预处理:消除噪音、冗余数据;③数据的推测:推算缺失数据;④数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等;⑤数据的缩减:减少数据量。
(2)挖掘阶段。该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。
(3)评价阶段。在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,因此需要评估,确定有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。如何将挖掘出的有用知识清楚易懂地提供给教育和管理工作者也是一项非常重要的工作,选择合适的可视化工具,将结果以关系表或用量化特征规则表示给用户。
(4)运用阶段。用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。
2.2.3数据挖掘的方法
在数据挖掘算法的理论基础上,数据挖掘中的常用方法有:①生物学方法,包括人工神经网络、遗传算法等;②信息论方法包括决策树等;③集合论方法包括约略集、模糊集、最邻近技术等;④统计学方法;⑤可视化技术等方法。数据挖掘的各类算法包括预测模型、关联规则挖掘算法、分类规则挖掘算法、序列模式分析算法、聚类分析算法、WEB数据挖掘等。
3数据挖掘在高等学校教学中的应用
3.1学生的基本信息
利用数据挖掘技术,比如可以对学生访问情况进行分析,跟踪、了解学生出勤情况。还可对学生年龄等个人情况进行分析,了解学生的组成、结构,为合理地安排课程设置提供依据。通过对学生考试情况的分析,并结合出勤情况,可作为考查学生学习的情况,为合理地评估学生综合素质提供依。对于挖掘出来的规则信息可以利用可视化技术,以图表或曲线等形式提供给教师,以使教师能充分利用学生的问题资源,从而提高教学质量。另外,数据挖掘可以应用于网上的考试系统,对考生情况和他取得的成绩进行挖掘,以帮助教师在以后的教学中更好地让学生掌握知识。
3.2学生的学习特征
学生特征包括两个方面:一是学习准备,一是学习风格。学习准备包括初始能力和一般特征两个方面。学生的初始能力是指学生在学习某一特定的课程内容时,已经具备的有关知识与技能的基础,以及他们对这些学习内容的认识和态度。学生的一般特征则是指在学习过程中影响学生的心理、生理和社会的特点,包括年龄、性别、年级、认知成熟度、智力才能、学习动机、个人对学习的期望、生活经验、文化、社会、经济等背景因素。学生的学习风格与学习活动有着密切的关系。对学生感知不同事物、并对不同事物做出反应这两方面产生影响的所有心理特征构成了学习风格。
利用数据挖掘功能分析学生特征,并在此基础上组织学习内容、阐明学习目标、确定教学策略、选择教学媒体,为学生创造出一个适合其内部条件的外部学习环境,使有效学习发生在每个学生的身上。
3.3预测学生和教师行为发生
管理信息系统中记录着有关学生与教师在教学中发生的各种教学事故以及典型教学事例等教学运行信息,利用数据挖掘的关联分析与演变分析等功能,寻找师生各种行为活动之间的内在联系。如“当存在A,B时可以推出’C,这样的规则,即当有A行为和B行为发生时,还会有C行为。在教学过程中,如果发现学生或教师已有A,B行为时,马上可以分析其产生C行为的可能性,及时制定策略促进或制止C行为的发生。
3.4合理设置课程
在学校,学生的课程学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系。在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习。另外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩相差有时会很大。利用学校教学数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,就能从这些海量数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因。在此基础上,对课程设置做出合理安排。
3.5评价学生学习情况
学习评价是教育工作者的重要职责之一。评定学生的学习行为,既对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。
特别是对成绩管理数据库进行挖掘,其数据来源于成绩管理数据库,挖掘的任务就是从用户指定的数据库中以不同的角度或不同的层次上采掘出一系列的统计结果,如分布情况、关系,对比、显著性检验等,采掘结果用交叉表,特征规则,关联规则,统计的曲线、图表等表示,所以采用统计分析方法具有简单、方便、直观等优点,最为合适。
因此对学生学习行为和综合素质进行评价,一般采用模糊论中的模糊综合评判及模糊聚类的方法,对评价结果采用了对定性和定量指标加权平均算出综合素质评价得分并排名的方法,而且由于学生综合素质的评价指标是动态变化的,往往选用动态聚类法对评判结果进行动态聚类分析。
3.6评价教学质里
教学评价是根据教育目标的要求,按一定的规则对教学效果做出描述和确定,是教学各环节中必不可少的一环。教学评价可以通过校园网收集学生对任课教师所讲授、辅导课程的意见、评价。有关学生座谈意见、学生打分评价、平时各项教学检查、相应课程期末考试班级成绩汇总等都是教学评价的内容,把这些数据要作为教师教授相应课程的档案数据全部存人数据库。
利用数据挖掘对数据库中有关教学的各项评价进行分析处理,可以确定教师的教学内容的范围和深度是否合适;选择的教学媒体是否适合所选的教学内容和教学对象;讲解的时间是否恰到好处;教学策略是否得当等。从而可以及时的将挖掘出的规则信息反馈给教师,以期更好地提高其教学水平,更好地服务于学生。
4结束语
总之,随着信息量的急剧增长和对信息提取的更高要求,现在我们很难再依照传统方法在海量数据中寻找决策的依据,这就必须借助数据挖掘去发掘数据中隐藏的规律或模式,为决策提供更有效的支持。虽然数据挖掘作为一种工具,它永远也不能替代教师的地位,但是它可以为教师的决策提供科学的依据。数据挖掘技术本身就是人们大量实践的结晶,它为建立传统教学中很难获取或不可能获取的模型提供了捷径。
第二篇:数据挖掘在培训管理中的应用论文
1、引言
对很多培养机构而言,目前急需解决的问题主要有:如何根据不同成员需求设置合理的课程、如何通过教学方式提高成员学习积极性、如何提高成员培训效果、如何通过考核检验成员学习成果等,都是培养机构发展过程中必须面对的问题。随着我国信息化进程的加快,一些培养机构也开始进行信息化建设,通过信息系统对培训相关事宜进行管理。但目前在针对培养机构的信息系统中,所实现的功能和模块是进行简单的查询、统计。在了解培训评估效果时,目前的信息系统中,学员通过系统对不同课程的教师进行打分,系统自对进行汇总、统计,得出教师评价。但这种汇总、统计是最简单的,对教师评价也缺乏全面性和深度。
2、数据挖掘在培训管理系统中的应用
大数据时代下,数据信息呈现出海量特点。如何从海量、不完全的信息中寻找到真正有用的信息,是大数据时代中重要的问题。由此便利用到数据挖掘,顾名思义,数据挖掘就是从众多数据信息中寻找到有用、有价值的信息。大数据时代下,教育行业中,信息量也是海量的,要想提高教学质量就需要运用数据挖掘找寻到有用的教育信息,并运用到实际教学中。信息系统通过一段实际应用后,里面存储了大量数据,相应的,学习管理系统也是如此,里面蕴含了大量数据信息。如在线课程等功能中藏有大量师生应用过程中的数据资料。如图1为数据挖掘在培训管理中的流程图。
2.1初步探索
培训管理系统中一般具有数据统计功能,将相关事宜进行统计。如网络课程开展过程中,数据挖掘在培训管理系统中的应用文/张宏亮在大数据时代,如何使用现有的数据对学员进行培训管理,从而提高培训效率是当前培训管理中所面临的问题。本文分析了数据挖掘在培训管理中的应用主要表现在初步探索、数据预处理以及数据挖掘过程。其中数据预处理和数据挖掘是培训系统的核心功能。
2.2数据预期处理
数据预处理时,原始数据库会发生转变,以适应数据挖掘、数据挖掘算法等的要求。在处理结构化的数据时,数据预处理需要完成两项任务,即消除数据缺陷现象的存在和为数据挖掘奠定良好基础。数据处理是对现有的数据进行前期处理,方便后期数据挖掘。如图2为培训管理系统中数据预处理模块。
2.3数据挖掘
WangJ开发了一个将数据挖掘技术与基于模拟的培训相结合的混合框架,以提高培训评估的有效性。以信仰为基础的学习概念,用于从知识/技能水平和信心水平的两个维度来评估学员的学习成果。数据挖掘技术用于分析受训人员的个人资料和基于模拟的培训产生的数据,以评估学员的表现和学习行为。提出的方法论以台湾基于模拟的步兵射击训练的实例为例。结果表明,提出的方法可以准确地评估学员的表现和学习行为,并且可以发现潜在的知识来提高学员的学习成果。BodeaCN使用数据挖掘技术进行了培训学习管理,用于分析参加在线两年制硕士学位课程项目管理的学生的表现。系统数据来源是收集学生意见的调查数据,学生记录的操作数据和电子学习的平台记录的学生活动数据。
3、总结
目前培训机构在进行教学评估时,所选择的指标都是参考其他机构的,并没有真正从自身实际出发进行评估,因此教学评估时存在诸多问题。其中最明显的两个问题是:第一教学评估方式单一化严重,只以数字评估为主;第二评估时容易受各种主观因素影响。
参考文献
[1]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(07):117-118.[2]王全旺,赵兵川.数据挖掘技术在Moodle课程管理系统中的应用研究[J].电化教育研究,2011(11):69-73.[3]陈怡薇.数据挖掘技术:教育培训管理新手段[J].石油化工管理干部学院学报,2014(04):49-52.[4]肖明,陈嘉勇,栗文超.数据挖掘在学习管理系统中应用的研究进展综述[J].现代教育技术,2010,20(09):127-133.
第三篇:数据挖掘技术在客户关系管理中如何应用毕业论文.
数据挖掘技术在客户关系管理中如何应用
根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。
一、客户关系管理(CRM CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM 数据挖掘(Data Mining,简称DM,简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不
完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购
买习惯。(2序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下随着购买B商品,来发现客户潜在的购买模式。(3分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用 1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类, 针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失 的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客
(4对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
(5交叉销售和增量销售
交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。
四、客户关系管理应用数据挖掘的步骤 1.需求分析
只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定
是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。2.建立数据库
这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓
库,并通过 OLAP 和报表,将客户的整体行为结果分析等数据传递给数据库用户。3.选择合适的数据挖掘工具 如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转 化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联 规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应 用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属 于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量 中发现某些联系。4.建立模型 建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型 的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较 好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通 过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未 来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需 要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最 合理、最适用的模型。5.模型评估 为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模 型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用 户能理解的方式出现,直至找到最优或较优的模型。6.部署和应用 将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取 必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用 系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当 的调整,以使模型适应不断变化的环境。参考文献: [1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济 出版社,2002 [2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008
第四篇:数据挖掘论文:数据挖掘技术及其在高校教学系统应用的研究
数据挖掘论文:数据挖掘技术及其在高校教学系统应用的研究
【中文摘要】高校教学系统作为大学数字化教学的一个重要组成部分,运行多年已经积累了大量的数据,但并没有得到很好的挖掘和研究。相反,数据挖掘在保险、电信、金融等领域却得到了广泛的应用,取得了良好的收益,而对教育信息的挖掘及知识发现方面研究及开发却很少。为了从大量的的教学数据中获取有用的知识,更好的为高校教学、管理及科研等提供服务,本文结合高校管理系统与数据挖掘技术对教学质量评估及学生成绩分析进行了研究,对相关算法做了相应的改进,并对结果进行分析,从而获得有用的信息。本文首先介绍了论文的,国内外的研究现状,然后介绍了数据仓库及数据挖掘的基本概念,主要的数据挖掘技术,数据挖掘的体系结构及运行过程。其次就其在教学系统中的应用进行了分析,提出了教学质量评估、学生成绩分析两个分析主题,介绍了教学数据仓库的构建,给出了基于SQL Server的数据挖掘解决方案,分别运用关联规则和决策树方法进行研究,介绍了相关算法,并进行了优化,接着是数据挖掘的实现。最后对相关数据进行挖掘,对实验结果做出了初步分析,所得出的结论对高校教学工作具有一定的指导意义。
【英文摘要】Higher education management system as an important part of the university digital teaching has accumulated a lot of data for years, but has not been good for
mining and research.In contrast, data mining in insurance, telecommunications, financial and other fields has been widely used and obtained a good income, while education information mining and knowledge discovery research and development is rarely.In order to obtain useful knowledge from a large number of the teaching data, and provide better services for the university teaching, management and scientific research, this paper combines higher education management system and data mining technology and study teaching quality assessments and student performance analysis, improves interrelated algorithm,analysises the results,acquires interesting information.The article proposes the research background,the domestic and abroad research status,the concepts of data warehouse and data mining, the main data mining technologies, data mining architecture and operation process.Second,analysises data mining application in higher education management system, proposes two analysis themes including teaching quality assessments and student performance analysis, then introduces the education data warehouse, gives based on the SQL Server data mining solution, researches them with association rules and decision tree respectively, introduces and optimize the related algorithms, data mining
implementation.Finally, mines the relevant data, and makes a preliminary analysis of experimental results, the conclusions of the work have some significance on university teaching.【关键词】数据挖掘 数据仓库 关联规则 决策树
【英文关键词】Data Mining Data Warehouse Association Rules Decision Tree 【目录】数据挖掘技术及其在高校教学系统应用的研究4-57-9ABSTRACT5
目录6-7
第一章 绪论
摘要1.1 课题研究背景7
7-8
1.2 数据挖掘技术在高校教
1.4 学中应用的研究现状论文的组织结构8-99-18
1.3 研究内容及方法8第二章 数据仓库及数据挖掘理论2.1 数据仓库的概念和基本特性92.2 数据仓库开发模型9-1111-12分类13-15
2.3 数据仓库系统的设计和实施
12-13
2.5 数据挖掘的2.7 数据2.4 数据挖掘基本概念
2.6 数据挖掘的体系结构15-16挖掘的常用技术16-18施18-31
第三章 教学系统数据仓库的设计与实
3.2 高校数据仓3.1 数据仓库的应用目标库的体系结构18-1919-20实现28-31用31-42的算法32-34
3.3 数据仓库的需求分析
3.5 ETL的3.4 数据仓库三层模型的建立20-28
第四章 关联规则方法及其在教学质量评估中的应4.1 关联规则挖掘31-32
4.2 关联规则挖掘
4.4
4.3 关联规则挖掘算法的改进34-36
关联规则在教学质量评估中的应用36-42及其在学生成绩分析中的应用42-5742-44类45-4646-5757-5860-61 5.2 决策树的改进44-45
第五章 决策树方法5.1 决策树方法5.3 决策树算法的分5.4 决策树方法在学生成绩分析中的应用第六章 总结与展望57-596.2 展望58-59
6.1 论文总结
参考文献
致谢59-60
第五篇:数据挖掘技术在图书采购中的应用初探.专题
数据挖掘技术在图书采购中的应用初探 湖南理工学院图书馆 张 晖
[摘 要]数据挖掘是一种新的信息技术,在许多行业有着广泛的应用。高校图书馆同样可以成为其应用的一个领域。在图书采购中,可以应用数据挖掘技术来提高采购的效率和针对性。
[关键词]数据挖掘 高校图书馆 图书采购
计算机网络与数据库技术的发展和广泛应用,信息日益成为企业的一种重要资源,人们利用信息技术生产和搜集数据的能力大幅度提高,在这些数据背后隐藏着极为重要的商业知识,但是这些商业知识是隐含的、事先未知的。面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,越来越显示出其强大的生命力。
1数据挖掘技术概述
数据挖掘(D ata M in ing是一种新的信息处理技术,其主要特点是对单位、企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,以从中提取辅助管理决策的关键性数据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。常用的数据挖掘技术主要有以下几种: 1.1人工神经网络
仿照生理神经网络结构的非线性预测模型,主要由“神经元”的互联,或按层组织的节点构成,通常由输入层、中间层和输出层三个层次组成,在每个神经元求得输入值后,再汇总计算输入值;由过滤机制比较输入值,确定网络的输出值。
1.2决策树
决策树是一个类似流程图的树型结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表1个测试输出,而每个树叶点代表类或类分布。树的最顶层节点是根节点。目前,在数据挖掘中使用的决策树方法有多种,典型的在国际上影响较大的决策树方法是Q n in lan研制的I D3算法。
1.3遗传算法
遗传算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学相互结合渗透的计算方法。遗传分析应用搜索技术,先找出两个合适的父样本,通过“交叉”“变异”等带有生物遗传特点的操作产生下一代样本,对子样本反复“交叉”“变异”操作直到子样本收敛为此,再找另外两个合适的父样本重复上述过程,就能得到下一代的样本集。由此得到当前样本集较可能的发展方向。
1.4近邻算法
用该方法进行预测的基本概念就是相互之间“接近”的对象具有相似的预测值。如果知道其中一个对象的预测值后,可以预测其最近的邻居对象。
1.5规则推导
根据统计意义上对数据中的规则“如果条件怎么样、怎么样,那么结果或情况就怎么样”,对给定的一组项目和一个记录集合,通过分析记录集合,推导出项目间的相关性。
1.6聚类方法
聚类分析方法按一定的距离或相似性测度将数据分成系列相互区分的组,它是不需要预定义知识而直接发现一些有意义的结构与模式。可采用拓扑结构分析、空间缓冲区及距离分析、覆盖分析等方法,旨在发现目标在空间上的相连、相邻和共生等关联关系。
1.7可视化技术
可视化技术在数据挖掘过程中的数据准备阶段是非常重要的,它能够帮助人们进行快速直观地分析数据。利用可视化方法,很容易找到数据之间可能存在的模式、关系和异常情况等。
2高校图书馆可以成为数据挖掘技术的应用领域
目前,在很多领域,数据挖掘都是一个很时髦的词,尤其是在银行、电信、保险、交通、零售(如超级市场等商业领域。同样,数据挖掘技术在高校图书馆中的应用,将为图书馆在数字资源的组织和管理、服务质量的提升和服务方式的拓展等方面提供技术支持,并显示出强大的生命力。高校图书馆可以成为数据挖掘技术的应用领域,理由如下: 2.1高校图书馆管理的需要
在信息化社会中,图书馆的生存与发展和先进技术的运用是密不可分的。目前,高校图书馆利用的信息管理系统可以高效地实现传统图书馆信息管理中的数据的录入、查询、统计、流通借阅等功能,相对于从前的手工加工管理时代,可以说是一次飞跃,但图书情报部门的工作仍然主要是对信息的载体进行管理,以提供信息的外在特征服务为主,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。高校图书馆作为学术性、科研性、服务性机构,在高等教育中承担着重要角色,特别是在向数字化图书馆转型过程中,迫切需要应用分类、回归分析、聚类、关联规则、特征、变化和偏差分析、W eb网页挖掘等技术手段对信息进行深加工,以推动图书馆业务与管理的全面进步。运用数据挖掘技术,实现海量数据的存储和利用,支持图书馆各种层次的科学决策,促进图书馆管理的发展。
2.2图书馆物质基础的形成
在现代科学技术推动下,高校图书馆正朝着自动化、数字化和信息化的方向发展。一方面,我国的图书馆系统经过多年的自动化建设,已具备相当的物质条件和人才储备,并积累了大量数据,为数据挖掘应用奠定了一定的物质基础。另一方面,图书
馆的数字化发展是我国信息化建设的重要组成部分,国家对此给予了高度的重视并提供了大量政策上和经济上的支持,为行业
— 8 5 1 —
性数据挖掘的实施提供了良好的政策环境和经济保障。2.3实现技术的成熟
数据挖掘在经过多年的发展之后已经形成相对成熟的技术体系,特别是在数据挖掘设计、数据抽取以及联机分析处理技术等方面都取得了令人满意的进展,为数据挖掘的应用奠定了技术基础。另外,数据挖掘技术在发达国家的电信、制造、零售、金融等领域已有较深程度的应用,并取得了巨大的回报,这些成功应用的例子为我们提供了可资借鉴的宝贵经验。
3应用数据挖掘技术开展图书采购工作
目前,国际上已经将图书馆的信息服务纳入了电子商务之中,数据挖掘技术不仅在商业界倍受青睐,它在现代化图书馆中的应用前景也十分广阔,而图书采购则是数据挖掘技术在高校图书馆应用中的一个典型领域。基于数据挖掘技术的图书采购策略的基本思路是:利用计算机图书管理数据库积累的图书借阅流通资料,利用数据挖掘技术得到读者借阅频率较高的图书类型的关键词、出版社、编著者信息,考虑缺书比例较大的图书,依此决定采购策略。
3.1读者信息资源的收集
采访部门职能发挥的好坏关系到图书馆资金及资源利用率的高低,如何采购高质量的书刊是图书馆工作的重中之重。因此,准确地定位读者对象的需求就成为提高资源利用率的一个主要因素。根据流通数据库的集成数据进行数据挖掘,能够得到读者对图书资源的使用频率表,对读者进行分类的同时对适合不同类别的读者的图书资源进行聚类,可以快速而精确地得到订书单。通过收集整理图书馆网站上的在线调查、留言簿等数据,或是设计读者调查表,包括读者的基本情况、阅读兴趣、查阅资料的途径及对国内外文献资源的需求情况等,将这些元数据转化为标准的结构化数据库,利用数据挖掘方法分析读者行为倾向,发现用户兴趣模式,就能动态的调整采购策略,有针对性地应对需求。
3.2确定采购的重点
图书馆每年的文献购置费是有限的,各门学科之间如何分配、各种文献载体形式如何均衡才能使这些经费最好地发挥效益,这是一件令人头疼的事。随着出版物的数量日益增多,载体日益丰富,高校图书馆信息结构、读者需求与资金利用的平衡问题越来越不易把握,也令采购工作的决策变得更加复杂。数据挖掘技术可以对流通数据库和采访数据库中的历史记录数据进行关联性分析和序列分析,可以轻松地统计出文献的拒借集合和频繁借阅集合,科学分析各类文献的利用率,为采购文献提供科学合理的各种分析报告及预测信息,从而指导采访人员对文献种类进行科学地筛选,合理地确定各种文献所需的复本量,及时补充短缺的文献,剔除过时的文献,帮助采购人员确定采购重点,保障图书馆信息资源体系的科学性和合理性。
3.3订购渠道的管理
图书订购是图书馆采访部门的主要工作,它是图书馆工作链的开端,也是现代化图书馆资源建设的开始。传统图书馆的订购信息大多来源于出版社和书商,信息量有限,这样会导致重复订购和馆藏资源不足的矛盾现象出现。随着信息技术的发展,图书订购渠道已呈现多样化,包括专家订书、光盘检索、电子文献、借阅数据库查询等。通过数据挖掘技术可以为图书采购提供科学的、合理的分析和预测,从而实
现订购渠道的管理,选择合适的订购渠道,为图书馆节省可贵的经费,买到最适用的图书。
3.4确定图书的学科比例
图书馆要全面兼顾不同类型的读者,考虑各个学科内容的完整搭配组合。即使最近一段时间武侠小说非常流行,也不能全部只购买武侠小说。大学的图书馆必须结合学校的专业设置,为各个专业的教学科研配备参考书,不能顾此失彼。应当结合馆藏图书的学科专业分布、发展趋势以及现有藏书量,控制不同学科的图书占总采购金额的比例。对于馆藏数量少,而根据发展趋势急需加强的学科需要扩大比例。通过流通、采访系统数据进行如关联性分析、序列分析等挖掘方法得到的结果,可以分析出文献的利用率,及时补充短缺的文献,剔除过时的文献信息,为采购文献提供科学合理的各种分析报告及预测信息,指导采访人员对购书的种类、所需复本数量等进行科学的筛选,优化馆藏结构,合理确定各学科的图书比例。
3.5采购经费的管理
传统图书馆信息采集多由专门采访人员独自确定或与少数专家商讨决定,不可避免的带有极大的主观性以及个人喜好;而且图书馆每年的文献购置费是有限的,各门学科之间如何分配,各种文献载体形式如何均衡才能使这些经费最好地发挥效益,这是一件令人头疼的事。而运用数据挖掘技术可以通过对图书馆的借阅流通记录、检索请求进行分析、挖掘,有针对性的补充和丰富信息资源,并可以籍此分析出文献的利用率,从而实现采购经费的合理管理,区分轻重缓急,“好钢用在刀刃上”。
参考文献
[1]王向辉等.数据挖掘技术及其在决策支持系统中的应用[J]计算技术与自动化,2004(4 [2]陈瑞雪.数据仓储与数据挖掘技术在现代化图书馆中的应用[J].图书馆学研究,2004(11
[3]张存禄等.数据挖掘在图书采购中的应用[J].情报科学,2004(5 [4]刘晓东.数据挖掘在图书馆工作中的应用[J].情报杂志,2005(8 [5]鲍翠梅等.数据挖掘技术及其在图书馆中的应用[J].情报杂志,2004(9 — 9 5 1 —