开题报告_基于数据挖掘方法的学生课程推荐算法研究

时间:2019-05-15 03:52:04下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《开题报告_基于数据挖掘方法的学生课程推荐算法研究》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《开题报告_基于数据挖掘方法的学生课程推荐算法研究》。

第一篇:开题报告_基于数据挖掘方法的学生课程推荐算法研究

基于数据挖掘方法的学生课程推荐算法研究

一、课题来源及研究的目的和意义

1.1 课题来源

计算机技术的进步,以及计算机网络建设的完善促使着社会信息化进程持续发展[1]。信息数据的获取、记录、保存、检索等操作也因为新技术的不断应用而变得更加方便快捷[2]。一方面,遍布各处的计算机网络终端设备打破了信息数据记录的时间和地域限制,让我们可以随时随地发送和接收数据;另一方面,存储速度越来越快的大容量电磁存储技术大大降低了信息数据存储的代价,使得记录并长时间保存海量数据成为现实。总体来说,在当今社会的各个领域中,信息数据的记录已经告别了“记账簿”形式的传统方式,迈入了电磁化存储的新时代[3]。信息数据存储需求与信息数据存储代价两者之间的矛盾进一步深化为信息数据存储数量激增与信息数据处理能力停滞不前的矛盾。简单的说就是“我们应该如何获取蕴涵于海量数据之中的信息?”这一问题。总所周知,信息处理是一个知识创造的过程。这个过程需要具有某领域专业知识的专家通过对数据进行分析来完成。数据的大爆炸使得整个信息处理过程不堪重负。在原始的信息处理方式日益不能满足信息处理的需求的背景下,在统计学、计算机科学、人工智能等多学科知识融合的基础上,数据挖掘方法应运而生,将数据处理和信息获取从原始的人工方式转向了大规模计算机自动化的方式,开辟了信息数据处理的新局面[4]。

教育是立国之本。随着我国改革开放的不断深化,教育事业正在逐步成为我国现代化建设过程中的一项重要工作[5]。我国的各项新教育政策的出台鼓励更多的青少年走进学校接受高等教育,为祖国的未来贡献自己的力量。到2020年,我国的大学入学率计划达到40%,较2006年提高了17%。在如此庞大的学生群体面前,人均可利用的教育资源正在逐年缩减。如何在有限教育资源的前提下,提高教育资源利用率是关系我国教育教学质量的重要问题之一。为此,需要我国的教育工作者深入研究我国目前的教育体制,提出合理化建议,健全我国教育教学体制,提高教学质量。衡量教学质量的关键因素是学生,量化学生学习质量的主要指标是学生成绩。面对3000万学生以及上亿的成绩数据,显然数据挖掘是必不可少的信息数据处理方法[6]。

1.2 课题研究目的和意义

我国的现代化教育体系建设起步虽然略晚于西方发达国家,但是其发展却相当快速,并且取得了长足的进步。其中最具代表性的就是目前广泛应用于各所高校中的学生成绩数据挖掘系统。由于不同高校在重点学科建设的倾向性不同,所以各个高校在系统建设的指导思想上和具体实施过程中都结合自身的特点有所取舍,不同系统之间取长补短,各具特色,形成一种“百家争鸣,百花齐放”的良性竞争局面。其中效果较好的方法是将系统分为数据获取、数据处理、信息挖掘、信息理解和结果应用五个模块[36-40]。在信息挖掘和信息理解模块,系统综合运用Apriori算法、C4.5算法、K-means算法和层次聚类等机器学习方法,构建完善的学生成绩分析平台[41,42,43]。于成的《数据挖掘在学生成绩分析中的应用》、武丽芬和孟强的《学生成绩数据挖掘的研究与实现》、朱燕燕的《学生成绩数据挖掘系统的设计与应用》、白玲的《数据挖掘在高校学生成绩分析中的应用》都是基于这种思想构建的教学平台。虽然这些方法在算法的具体细节上都具有各自的特点,但是它们的关注焦点都集中在对数据中关联规则的挖掘。通过有效地发现、理解、运用关联规则,能够使隐含于大量数据之中复杂而有用的知识为现代化教育系统的建设做出更大的贡献。这些系统所需的数据来源于多年来教学过程中积累的学生考试成绩。通过对这些数据的深度挖掘不难发现,学生成绩的高低不单单取决于课程本身,还会受到学科的课程设置、教学计划的制定、各门课程的先后顺序等诸多方面的影响。由此产生了学者关于“如何为学科设置课程”、“各门课程之间的相互关系”、“如何评定综合学生学科综合成绩”等问题的思考。经过高校教育工作者、领域专家学家多年来共同的研究与实践,我国已经探索出一条符合中国教育实际情况的发展之路。高校智能排课系统的出现正是其中[45,46,47]重要的成果之一。四川师范大学2008年在汪晓飞等学者的努力下,成功将遗传算法应用于求解排课问题中,取得了良好的效果。该方法分析对比确定了一系列影响排课问题的因素,将其作为约束条件建立排课问题最优化模型,通过遗传算法多代进化找到了科学合理的课程排列顺序。2011年大连交通大学的刘震根据实际的工作经验,在原有的研究基础上全面阐述了排课工作的原则、流程以及重点难点。针对排课问题中易出现的冲突,他应用关联规则算法加以解决,排除了排课问题中漏课重课的错误,减轻了人工排课的压力,提高了学生学习的效率。将智能排课与自动出题、考试成绩分析三者相结合,从根本上改变了传统教学方式下经验式排课、院系集中出题、教师人工阅卷的局面,将教师从繁重的教学辅助工作中解放出来,使其能够有更多时间指导学生的日常学习,答疑解惑[48]。

二、国内外在该方向的研究现状及分析

国内外学者已经从不同角度,不同侧重对这一问题进行了深入的研究与探讨。尤其是近年来,随着全世界对教育热点问题关注度的持续升温,许多新思想、新方法层出不穷。其中着重于学生考试成绩分析的研究方法一直是解决这一问题的热点[25,26,27]。印度学者Brijesh Kumar Baradwaj和Saurabh Pal在2011年发表的论文《Mining Educational Data to Analyze Students’ Performance》中提出一种通过分析学生考试成绩数据的方法来预测学生的表现。该方法首先通过在线考试系统获得学生的考试成绩数据,然后建立高校教育系统的数据挖掘模型,利用以ID3决策树为主的机器学习方法对模型中的数据进行分类,最终达到预测学生在学校学习情况的目的。与之相关的数据方法还包括Pandey和Pal提出的《Data Mining: A prediction of performer or underperformer using classification》。这种方法以学生的年级和先修课程为基础,以贝叶斯网络为手段,目的是预测初学者可能出现的学习情况。此类方法都是典型的机器学习方法。它们需要采集学生的多种信息数据作为算法的分析基础,通过多种机器学习方法相结合的方式构造数据挖掘模型,并将构造好的分析模型应用于具体的分类和回归问题中去[28,29]。除了上述的决策树学习算法和贝叶斯网络算法,常用的数据挖掘方法还包括聚类算法、神经网络算法、遗传算法和线性回归算法等[30-35]。利用准确的成绩预测模型,我们还可以继续深化关于问题的研究。例如Galit等在论文《Examining online learning processes based on log files analysis: a case study 》中描述了一种教学辅助系统就是对考试分析结果的再利用。该系统根据学生的学习情况,为学生提供必要的学习计划,督导学生按计划执行学习,帮助学生顺利通过最终的学科测验。

三、主要研究内容及创新点 3.1 主要研究内容

目前,我国的现代化教育体制综合信息平台主要分为以下四个方面[7]:第一,现代化远程教育系统;第二,基于海量题库的自动出题系统;第三,学生成绩的智能分析系统;第四,学科设计及教学计划的优化系统。上述四类系统基本涵盖了现代教育体系中从教育规划到教育实施的各个方面。如果这四部分能够相辅相成,相互融合形成一个有机整体,那么将会打开我国的教育现代化的新局面,使整个基础教育事业迈上一个新台阶[8]。但是在实施过程中,由于这四部分的难易程度有所区别,导致了它们的发展水平参差不齐。其中随着我国计算机硬件及其他辅助设备的不断普及和基础网络设施建设的不断完善,远程授课系统不断推陈出新,从最初的单向讲授形式发展到先进的双向交互形式,大大提升了学生的学[9]习兴趣和学习效果。而计算机自动出题系统的广泛应用已经彻底改变了原有考试形式的单一性,大大增强了考试的灵活性,同时也防止了考试试题泄露等不端行为[10-13]。在此基础上建立起来的考试评分系统,不仅大大缩短了考试成绩的评判周期,避免误判漏判现象的发生,从根本上维护了考试的公平公正原则。相比较上述几部分,我国的教育体系信息平台对于学生考试成绩的分析和利用,还停留在评价学生知识掌握的程度的单一层面上。事实上,考试制度的建立不单单是为了衡量学生对知识的记忆能力,而是为了通过考试这种形式来帮助学生找出学习过程中的不足,采取适当的方式加以指导,最终达到知识理解和再应用的目的[14,15,16]。更进一步的是,在国内外文化充分交流的今天,我国高校借鉴西方知名学府的先进经验,普遍采取了学分制的教学管理模式。这种新兴的教学模式能够激发学生自主学习的兴趣,有助于跨学科综合性人才的培养。在带给学生很高的学习自由度的同时,也使原先适应了传统教学习惯的学生面临新的挑战[17]。如何制定适合自己的学习计划是摆在每个学生面前的重要问题。毕竟面对种类繁多的学科,缺少学科深入认知的学生们只能凭着自己对学科内容的表面理解进行选择。这种摸着石头过河的学科选择方式显然是不可取的。因为这种做法既忽视了学生自身的特点,又没能提供必要的教学指导,很可能导致学生学习进度缓慢,甚至半途而废现象的出现[18,19]。

学校教育的最终目的之一是为学生就业做准备。对于在校学生,他们对今后工作所需技能的了解相对较少。因此,在选择课程时往往缺乏针对性,不能对今后的就业起到良好 的支撑。为了避免学生课程选择的盲目性,学校需要结合在校学生的具体情况和具有相似情况的毕业生的学习过程为其推荐适当的学习计划,并视学生在实际学习过程中的情况做出动态调整。这种量体裁衣式的课程教学方法使得每一个学生在学习过程中都能得到及时的指导,有助于学生学习兴趣的持续发展,有助于学生最终完成本学科的学习,掌握相关领域知识,在今后的就业过程中能够脱颖而出起到了良好的辅助作用[20,21,22]。

为了建立一个行之有效的学生学习指导体系,我们需要总结、分析一下四方面的问题:

1.学生的学习需求。学习的需求来源于学生的兴趣。在当今社会中,信息的获取易如反掌。学生根据自身的喜好,不断的在探索着信息海洋,并逐步积累起对某个学科最基本的认识。这是学生学科选择的原动力。同时,学生的学习需求还会受到社会就业需求的影响。随着学生对所学学科的深入了解,他们的学习倾向一般会朝着社会需求的方向发展。我们需要以此为出发点,指导学生进行合理的学习。2.学生的知识储备。学生在对某学科进行深入学习前,一般对该学科已经有了初步的认识。这是学科学习的重要前提。为了更好的进行深层次的学习,我们首先要求学生具有相关的学习基础。勿在浮沙筑高台。合理安排学习内容的先后顺序,对整个学科的学习质量有至关重要的影响。3.学生的成绩评价。大多数情况下,初学者不能对自己的学习状况做出正确的判断。正是由于这个原因,需要我们对学生的知识掌握程度做出正确的、客观的估计。其中最直接的方法就是量化学习成绩。也就是通过考试给学生的学习状况打分,以分数的高低作为其知识掌握程度的标准[23]。虽然考试成绩对学生学习状况的量化评价起到了重要的作用,但是需要注意的是学生的在校学习成绩是学生综合素质体现的一个方面,评价以就业为最终目标的学校教育必须以“学生是否就业”为根本标准。4.学生的继续学习。学校通过考试的形式来度量学生的学习效果,所以考试是已学知识的结束。学习是一个发展的过程,一种知识的获取往往会扩大学生的知识面,激发其新的学习兴趣,这就形成了新的学习需求。学习的目的,特别是基础知识的学习是为更深层次的专业知识学习做积累,所以考试也是未学知识的起点。通过已学知识的评价,估计未学知识的学习计划,是对学生成绩分析结果更充分的利用。

上述四个问题循环往复,既相互制约,又相互促进。如果能够正确处理其中的关系,使之形成一个可持续良性循环,那么将会大大增强学生的学习效果[24]。

3.2 创新点

1.通过关联规则挖掘方法和聚类算法确定课程与课程之间的教学顺序关系;

2.通过决策树生成算法完成学生就业满意度与课程选择之间关系的确定; 3.综合上述两方面,采用多种机器学习算法协同工作的方法完成课程推荐算法。

四、研究方案及进度安排,预期达到的目标

4.1 研究方案

当前各所高校都在如火如荼地创新教学理念,下大力度转变教师为院系服务为教师为学生服务,推广以学生个人发展促进学校发展的新思路。然而逐年的高校扩招,激增的学生数量使得教育资源特别是教师资源捉襟见肘。面对求知若渴的学生,更需要经验丰富的教师来指导他们的学习之路,充分激发他们的学习欲望,造就一批批具有牢固专业知识的人才,使其能够胜任今后的工作。“如何指导学生进行课程选择与进度安排”正是摆在每一名教育工作者面前的重要问题。本文立足上述优秀理论及实践的基础上,继承和发扬前人研究成果,意在将数据挖掘方法引入解决问题方案,使之能够根据学生的就业满意度等因素科学指导学生安排课程[49,50]。

数据挖掘工作以数据为基础,以算法为核心目标。为了完成学生指导工作,我们需要以下工作的定义:

1.数据挖掘的目标。本文目的是在综合分析已毕业学生的就业满意度与学生在2.3.4.5.6.校期间学科选择、考试成绩的关系,为在校学生制定符合其就业需求的学习计划。经过科学合理的总体计划和扎实的分步实施,最终使学生能够顺利达到学科学习的整体要求,在毕业后的就业过程中能够脱颖而出。

数据挖掘的模型。为了达到预期目的,我们需要建立一个预测模型。该模型以学生以往学生的就业满意度和实际学习情况作为参考,预测在校学生可能感兴趣的学习点,为其提供适当的学习课程。这个预测过程伴随学生整个在校学习期间,形成一个学生学习的发展路线图。在模型实现过程中,本文将预测模型细化为若干过程,可分为课程相关性分析、学生成绩分析、学生就业满意度分析三个主要过程。

数据挖掘所需数据的收集和整理。我们为数据挖掘模型所提供数据的质量直接影响其预测能力。一方面,准确记录的数据可以为模型提供正确的指导,而噪音数据的存在则可能误导预测模型。另一方面,并不是越多的数据就意味着越高的预测准确率。在信息过载的今天,获取数据绝非难事。但是无意义的或冗余的数据既提高了数据采集的代价,也延长了模型的构造时间。为了给数据挖掘模型提供充足的有用的数据,还需要在数据收集过程之后进一步对原始数据进行处理,去其糟粕取其精华。

数据挖掘算法的训练方法。选择什么样的方法对数据挖掘模型进行训练是论文整个工作的核心内容。本文的工作是由多个部分共同组成的,在各个不同的部分需要不同的训练算法。这些算法可以分为两类分类算法和聚类算法,其中分类算法主要用于学生成绩分析、学生就业满意度分析,聚类算法主要用于课程相关性分析。

数据挖掘算法的测试。经过对数据挖掘模型的训练,最终我们将得到一个用于学生课程选择的辅助系统。系统不断采集学生最新的就业满意度、学习课程、学习成绩信息加入数据库,然后根据学生信息库动态更新学生的学习计划。

数据挖掘的结果分析。该数据挖掘模型的优劣,最终需要由学生自己做出主观判断,并辅以全院系学生的整体就业满意度作为客观判断。最终综合二者得出的结果是判断“模型是否符合学生学习的要求”的主要依据。

4.2 研究进度安排

2012-04-05~2012-05-04

完成开题报告,提交指导教师。

2012-05-05~2012-08-04

收集相关资料,构思并确定写作大纲,请指导老师加

以修改。

2012-08-05~2012-10-04

撰写论文初稿。2012-10-05

完成论文初稿。

2012-10-06~2012-11-05

请指导老师对初稿提出修改意见,完成二稿。2012-11-06~2012-11-19

请指导老师对二稿进行指导并按老师的建议进行修

改,完成最终稿。

2012-11-20

提交论文最终稿。2012-11-20~2012-12-10

请评阅老师审阅,准备论文答辩幻灯片(PPT)。

4.3 预期达到的目标

1.得到课程与课程之间的序关系。根据课程度学科综合考试的贡献度确定哪些课程属于学科基础课程,哪些课程属于专业基础课程,哪些课程属于专业选修课程。指导学生在学习过程中学习的先后顺序。

2.理解学生就业满意度与课程选择之间的关系。在课程选择前先根据已毕业学生的就业状况为学生的课程选择提出合理化建议。总体教学遵循针对性学习的思想,使学生能够学以致用。

3.建立一个可应用于实践的学生自动课程推荐体系。切实解决学生被指导需求量大,教师资源不足的实际情况。使学生在学分制体系下,可以充分发挥自己的主观能动性,学有所长。

五、为完成课题已具备和所需的条件

5.1 已具备的条件

为了完成本课题的研究,我们需要从三个方面入手。或者说,这三个方面是研究得以开展的必备条件。其中首要条件是研究的理论支持。研究不是空想,需要以成熟的理论作为研究指导,否则就是空中楼阁。本文以目前广泛应用于各个领域的数据挖掘理论作为总的指导思想,并结合本课题的实际情况,辅以前人的优秀科研成果,三者结合为论文研究工作的顺利进行提供了坚实的基础。

其次,研究的价值体现在其实用价值上,不具有可行性的研究是毫无意义的。本文的研究过程是伴随着实验过程进行的。两者相辅相成,理论研究指导实验开展,实验过程完善理论体系。前一阶段的资料搜集和论文学习工作,目前本人已经具备了完成研究的理论知识和相关实验技能,这些都将成为完成论文研究的有力支撑。

最后,在数据挖掘过程中,数据是整个过程中最重要的资源。我国教学体制改革多年来积累的学生数据正是我们完成本课题研究的重要保障。

5.2 所需的条件

一年多的时间过去了,目前关于数据挖掘理论知识的学习,基本实验方法的实践和论文的搜集工作都已经告一段落,可以说论文的前期准备工作基本已经结束了。接下来的工作主要从两方面入手。第一,论文的写作。本论文的写作遵循提纲式写作方法,因此需要我们在论文搜集工作的基础上,进一步对这些论文进行整理,从而确定本论文的大体思路,列出论文提纲,为论文初稿写作做准备。第二,实验的开展。实验是本论文的重要组成部分,实验结果的好坏直接影响到研究的进展程度。因此,需要我们掌握扎实的实验操作知识,以保证实验工作的正确性。这些实验知识涉及到机器学习算法的伪代码编写、计算机软件设计与实现、程序的调试与排错、以及软件测试与算法分析。

六、预计研究过程中可能遇到的困难和问题以及解决的措施

在本课题的研究过程中,可能遇到存在的困难主要来源于实验数据的准备、算法的设计以及、实验结果的分析。下列给出了主要的困难及相应的解决办法:

1.实验数据的准备。本文的实验数据全部来源于高校的教学系统。但由于我国教育体制的不断改革,也使得系统所采用的数据记录方式存在一定的差异。为了得到形式统一的数据,还需要我们对一些未记录数据进行补充。在一定程度上,我们对数据的判断能力,决定了实验结果的可靠性。为此,我们首先要有严谨认的科学态度,通过数据挖掘中数据预处理和手工处理相结合的方式,最大程度上保证数据的正确性。2.算法的设计。算法是软件的灵魂。本文的算法设计包括算法的理论正确性和逻辑正确性。其中理论正确性是以本文的研究工作作为基础的,而逻辑正确性是以计算机软件设计方法作为基础的。

3.实验结果分析。实验结果直观反映了研究工作的正确性。通过对实验结果的分析,可以及时发现算法中存在的问题并做出调整。这其中一些的错误看似随机,影响了我们对算法的正确认识,需要我们反复进行实验,观察结果,认真分析,将算法中的错误减少到最低。

综上所述,在研究过程中需要我们广泛查阅文献、反复动手实验、积极深入思考,当然也少不了老师的悉心指导和同学们的热心帮助,才能更好地完成本课题的研究和本文的写作。

七、主要参考文献

[1] 张庆锋, 郑建明, 王育红.社会信息化进程测度指标体系之构建.情报科学, 2000, 09: 772-775.[2] 谢俊贵.我国社会信息化的涵义、作用及推进策略.情报理论与实践, 2002, 04: 244-248.[3] 王旭东.论社会信息化的影响与冲击——从当代历史进程到世界史研究.世界历史, 2007, 05: 43-52.[4] 罗晶.基于数据网格技术的远程教育系统的研究.南昌大学工学硕士论文, 2006.[5] 黄越岭.可视化远程教育管理系统研究.西南大学工学硕士论文, 2007.[6] 南翔宇.农村远程教育平台建设和服务体系研究.西北农林科技大学工学硕士论文,2008.[7] 李佳.基于IRT模型的题库智能组卷策略.江西师范大学工学硕士论文, 2007.[8] 李军.基于遗传算法的智能组卷系统研究.天津大学工学硕士论文, 2008.[9] 刘贝贝.基于推理与遗传算法的智能组卷模型与系统实现.烟台大学工学硕士论文,2009.[10] 贺敏之.基于遗传蚁群算法的智能组卷系统设计与实现.湖南大学工学硕士论文, 2010.[11] 赵志艳.基于遗传与蚁群混合算法的智能组卷问题探究.安徽大学工学硕士论文, 2011.[12] 杨葳.基于OLAP的成绩分析系统的研究.沈阳工业大学工学硕士论文, 2007.[13] 刘剑.改进聚类分析算法及其在成绩分析中的应用研究.大连交通大学工学硕士论文,2008.[14] 牛文颖.改进的ID3决策树分类算法在成绩分析中的应用研究.大连交通大学工学硕士论文, 2008.[15] 黄芳.基于数据挖掘的决策树技术在成绩分析中的应用研究.山东大学工学硕士论文,2009.[16] 刘海燕.基于决策树分类算法的学习成绩分析系统的设计与实现.电子科技大学工学硕士论文, 2011.[17] 汪晓飞.基于多维编码方案的遗传算法在高校排课系统中的应用.四川师范大学工学硕士论文, 2008.[18] 朱奉梅.遗传算法在高校排课系统中的研究与应用.东北大学工学硕士论文, 2009.[19] 王永刚.基于矩阵判别算法的高校自动排课系统设计与实现.电子科技大学工学硕士论文, 2010.[20] 王霞.基于多策略算法排课系统研究.西北农林科技大学工学硕士论文, 2010.[21] 刘震.基于关联规则算法的排课系统的应用研究.大连交通大学工学硕士论文, 2011.[22] Qinghua Hu, Lei Zhang, David Zhang, Wei Pan, Shuang An, Witold Pedrycz.Measuring relevance between discrete and continuous features based on neighborhood mutual information.Expert Systems with Applications, 2011, 38(9): 10737-10750.[23] Haihong Zhang, Cuntai Guan, Yuanqing Li.A linear discriminant analysis method based on mutual information maximization.Pattern Recognition, 2011, 44(4): 877-885.[24] Ai-Hua Jiang, Xiu-Chang Huang, Zhen-Hua Zhang, Jun Li, Zhi-Yi Zhang, Hong-Xin Hua.Mutual information algorithms Original.Mechanical Systems and Signal Processing, 2010, 24(8): 2947-2960.[25] Sombut Foithong, Ouen Pinngern, Boonwat Attachoo.Feature subset selection wrapper based on mutual information and rough sets.Expert Systems with Applications, 2012, 39(1): 574-584.[26] Ju Lynn Ong, Abd-Krim Seghouane.Feature selection using mutual information in CT colonography.Pattern Recognition Letters, 2011, 32(2): 337-341.[27] Sangjae Lee.Using data envelopment analysis and decision trees for efficiency analysis and recommendation of B2C controls.Decision Support Systems, 2010, 49(4): 486-497.[28] Fernando E.B.Otero, Alex A.Freitas, Colin G.Johnson.Inducing decision trees with an ant colony optimization algorithm.Applied Soft Computing, 2012, 12(11): 3615-3626.[29] Siva S.Sivatha Sindhu, S.Geetha, A.Kannan.Decision tree based light weight intrusion detection using a wrapper approach.Expert Systems with Applications, 2012, 39(1): 129-141.[30] Mehmet Ali Cavuslu, Cihan Karakuzu, Fuat Karakaya.Neural identification of dynamic systems on FPGA with improved PSO learning.Applied Soft Computing, 2012, 12(9): 2707-2718.[31] B.Vasumathi, S.Moorthi.Implementation of hybrid ANN–PSO algorithm on FPGA for harmonic estimation.Engineering Applications of Artificial Intelligence, 2012, 25(3): 476-483.[32] Haiyan Lu, Pichet Sriyanyong, Yong Hua Song, Tharam Dillon.Experimental study of a new hybrid PSO with mutation for economic dispatch with non-smooth cost function.International Journal of Electrical Power & Energy Systems, 2010, 32(9): 921-935.[33] Amitava Chatterjee, Fumitoshi Matsuno.A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping(SLAM)problems in mobile robots.Expert Systems with Applications, 2010, 37(8): 5542-5548.[34] U.Fayadd, Piatesky, G.Shapiro, and P.Smyth, From data mining to knowledge discovery in databases, AAAI Press / The MIT Press, Massachusetts Institute Of Technology.ISBN 0–262 56097–6, 1996.[35] J.Han and M.Kamber, “Data Mining: Concepts and Techniques,” Morgan Kaufmann, 2000.[36] S.T.Hijazi, and R.S.M.M.Naqvi, “Factors affecting student‟s performance: A Case of Private Colleges”, Bangladesh e-Journal of Sociology, Vol.3, No.1, 2006.[37] Z.N.Khan, “Scholastic achievement of higher secondary students in science stream”, Journal of Social Sciences, Vol.1, No.2, pp.84-87, 2005..[38] Galit.et.al, “Examining online learning processes based on log files analysis: a case study”.Research, Reflection and Innovations in Integrating ICT in Education 2007.[39] Q.A.AI-Radaideh, E.W.AI-Shawakfa, and M.I.AI-Najjar, “Mining student data using decision trees”, International Arab Conference on Information Technology(ACIT'2006), Yarmouk University, Jordan, 2006.[40] U.K.Pandey, and S.Pal, “A Data mining view on class room teaching language”,(IJCSI)International Journal of Computer Science Issue, Vol.8, Issue 2, pp.277-282, ISSN:1694-0814, 2011.[41] Shaeela Ayesha, Tasleem Mustafa, Ahsan Raza Sattar, M.Inayat Khan, “Data mining model for higher education system”, Europen Journal of Scientific Research, Vol.43, No.1, pp.24-29, 2010.[42] M.Bray, The shadow education system: private tutoring and its implications for planners,(2nd ed.), UNESCO, PARIS, France, 2007.[43] Vashishta, S.(2011).Efficient Retrieval of Text for Biomedical Domain using Data Mining Algorithm.IJACSA-International Journal of Advanced Computer Science and Applications, 2(4), 77-80.[44] Collier, K., Carey, B., Sautter, D., and Marjaniemi, C., “A methodology for evaluating and selecting data mining software,” in Proceedings of the 32nd Annual Hawaii International Conference on System Sciences, IEEE, 1999.Orange, University of Ljubljana, Slovenia, [45] Luan, J., Zhao, C.-M., and Hayek, J., “Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology,” Paper presented at the California Association for Institutional Research, Anaheim, California, November 17-19, 2004.[46] Bekele, R.and Menzel, W., “A Bayesian approach to predict performance of a student(BAPPS): A case with Ethiopian students,” in Proceedings of the International Conference on Artificial Intelligence and Applications(AIA-2005), Vienna, Austria, 2005.[47] Minaei-Bidgoli, B., Kashy, D.A., Kortemeyer, G., and Punch, W.F, “Predicting student performance: an application of data mining methods with an educational web-based system,” in Proceedings of 33rd Annual Conference on Frontiers in Education(FIE 2003), volume 1, 2003, pages 13–18.[48] Romero, C., Ventura, S.(2007).Educational Data Mining: A Survey from 1995 to 2005.Expert Systems with Applications 33, 2007, pp.135-146.[49] Ma, Y., Liu, B., Wong, C.K., Yu, P.S., Lee, S.M.(2000).Targeting the right students using data mining.Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, Boston, pp 457-464.[50] Luan, J.(2002).Data Mining and Its Applications in Higher Education.New Directions for Institutional Research, Special Issue titled Knowledge Management: Building a Competitive Advantage in Higher Education, Vol.2002, Iss.113, pp.17–36.[51] Luan, J.(2004).Data Mining Applications in Higher Education.SPSS Executive Report, SPSS Inc.[52] Minaeli-Bidgoli, B., Kashy, D., Kortemeyer, G., Punch, W.(2003).Predicting Student Performance: An Application of Data Mining Methods with the Educational Web-Based System LON-CAPA.33rd ASEE/IEEE Frontiers in Education Conference, 5-8 Nov 2003, Boulder, CO.[53] Kotsiantis, S., Pierrakeas, C., Pintelas, P.(2004).Prediction of Student’s Performance in Distance Learning Using Machine Learning Techniques.Applied Artificial Intelligence, Vol.18, No.5, 2004, pp.411-426.[54] Pardos Z., Heffernan N., Anderson B., and Heffernan C.(2006).Using Fine-Grained Skill Models to Fit Student Performance with Bayesian Networks.In Proceedings of the Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems(ITS2006), June 26, 2006, Taiwan.[55] Superby, J.Vandamme, J., Meskens, N.(2006).Determination of factors influencing the achievement of the first-year university students using data mining methods.Proceedings of the Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems(ITS 2006).Jhongli, Taiwan, pp37-44.[56] Vandamme, J., Meskens, N., Superby, J.(2007).Predicting Academic Performance by Data Mining Methods.Education Economics, 15(4), pp405-419.[57] Cortez, P., Silva, A.(2008).Using Data Mining to Predict Secondary School Student Performance.EUROSIS, A.Brito and J.Teixeira(Eds.), 2008, pp.5-12.Dekker, G., Pechenizkiy, M., Vleeshouwers, J.(2009).Predicting Students Drop Out: A Case Study.Conference Proceedings of the 2nd International Conference on Educational Data Mining(EDM’09), 1-3 July 2009, Cordoba, Spain, pp.41-50.

第二篇:18大经典数据挖掘算法小结

18大经典数据挖掘算法小结

2015-03-05 CSDN大数据 CSDN大数据

csdnbigdataCSDN分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。本文所有涉及到的数据挖掘代码的都放在了github上了。

地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。

1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42921789 7.Apriori算法。Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43059211 8.FP-Tree(频繁模式树)算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43234309 9.PageRank(网页重要性/排名)算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到Link Span攻击。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943 10.HITS算法。HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943 11.K-Means(K均值)算法。K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43373159 12.BIRCH算法。BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43532111 13.AdaBoost算法。AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43635115 14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43699083 15.PreFixSpan算法。PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43766253 16.CBA(基于关联规则分类)算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43818787 17.RoughSets(粗糙集)算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43876001 18.gSpan算法。gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。

详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43924273

第三篇:数据挖掘技术-毕业设计-开题报告-毕业论文

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一.研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二.概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四.研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分

析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数

据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动

进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通

常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价

值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期资料调研及方案设计 1.4-1.10数据挖掘的概论研究 1.11-1.25数据挖掘常用技术研究 1.26-2.15数据挖掘的应用研究 2.15-3.1(中期检查)数据挖掘的新技术研究 3.1-3.10数据挖掘的发展方向 3.11-3.16撰写论文 3.16-4.10论文修改 4.11-4.30准备答辩,交老师审阅 5.1-5.5毕业论文答辩 5.6-?

第四篇:数据挖掘研究现状

一、时代的挑战

近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

二、研究现状

KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。

此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。

不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove

ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。

三、内容和本质

随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。

数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。

由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。

专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。

在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。

其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。

此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。

以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。

数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。

数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

四、发展方向

当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世

第五篇:开题报告信用卡申请评分模型研究 数据挖掘

一、论文题目

基于数据挖掘技术的信用卡信用评分模型研究

二、论文选题理论意义、实用价值

近十年来,受经济的飞速发展,中国的信贷消费特别是面向消费者个人的信用消费蓬勃发展,汽车贷款、住房按揭、助学贷款、信用卡消费等逐渐走入人们的生活中。个人消费信贷的蓬勃发展以及消费信贷业务风险与回报相对应的客观规律,使商业银行等授信机构在追逐巨额利润的同时,不得不面对巨大的潜在不良信贷风险,从而信用风险管理逐渐成为商业银行个人消费信贷管理的一个核心领域。商业银行需要客观、全面、准确地评估消费者的还款能力和还款意愿,以避免、控制、减少坏账损失。

信用评分模型技术的发展和应用,就是应个人消费信贷金融机构风险管理的需要而诞生的。信用评分模型是欧美消费信贷管理广泛应用的技术手段。它运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录和行为记录等大量的数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来综合评估消费者未来的某种信用表现,作为消费信贷管理的决策依据。

欧美国家的使用经验表明,个人信用评分具有处理客户贷款申请速度快、成本低、处理的标准一致和客观等特点,在消费者信用风险管理中发挥着重要的作用,同时个人信用技术不仅被广泛地应用于信用卡等消费信贷、住房按揭贷款等领域,也被成功地应用于中小企业贷款申请评估、信用卡欺诈预防、基于风险的利率定价、直销相应评分及资产证券化等领域,因而信用评分模型具有很强的应用潜力。

然而,对于这样一个在西方发达国家行之有效的信用风险管理技术,国内银行使用的不多,学术的研究也很落后。国内银行信用风险控制和管理能力还比较弱,个人信用评价工作相当不完善,缺乏科学统一的风险度量方法和工具,无法准确地度量借款人风险和产品风险,还不能对信用额度实施有效的科学管理。造成这方面的原因是多方面的,首先由于我国的信用建设起步比较晚,社会征信体系不完善,缺乏与个人信用评估相关的资料。其次缺乏专业的个人信用研究人员和专业的个人信用评估机构,致使没有相对统一合理的评估标准、评估方法和指标体系。因此借鉴国外先进经验,在现有的条件下,利用信息系统中的数据和信息,建立一个具有一定预测能力、在信贷决策中具有一定参考价值、符合我国国情的个人信用评分模型将有助于银行拓展个人消费信贷业务,提高其综合竞争力,保障我国金融秩序稳定,具有很强的理论价值和现实意义。

个人信用评分模型的必要性具体体现在如下四个方面:

首先,使用个人信用评分模型,可以帮助银行减少贷款审批时间,争取放款实效。据美国消费银行协会的一份资料,以前不使用个人信用评分模型,小额消费信贷的审批平均需要12小时,如今这类贷款的审批缩短到15分钟。使用个人信用评分模型后,信用卡的审批只要一两分钟,60%的汽车贷款的审批可以在l小时内完成。

其次,个人信用评分可以作为核定信用额度及收帐策略的参考。利用信用评分的结果,可以核定信用条件、交易条件及信用额度,例如什么范围的评分结果,必须提供担保或保证人;达到哪一标准以上,才可授予多少信用额度等;还可以预测客户履行债务的情况,根据信用得分决定该客户的收款方法与收款时间。

此外,个人信用评分能够帮助金融机构确定消费贷款利率,对高风险的客户提供较高的利率,反之亦然。这些都可以帮助金融机构更为有效地和有利地管理他们的账户,而且利润评分可用于在一系列金融产品中追求利润最大化。

最后,个人信用评分不仅为银行等金融机构进行消费贷款风险控制提供准确、客观的依据,而且加快了消费信贷的业务速度,降低了消费信贷的操作成本,在模型出现误差时也可

以快速地找出原因,并对模型的参数进行调整。

综上所述,可以得出结论:个人信用评分模型是有效控制信用风险、扩大信贷规模的有力武器,建立个人信用模型,对消费贷款的申请人的信用进行科学的度量,小到银行对个人信用风险的控制,大到保障我国金融秩序的稳定都具有积极而重要的意义。

论文在探讨各种信用技术的前提下,试图研究该技术的具体实现,为该技术的应用提供一定的参考。

二 国内外研究现状与发展趋势

1.国外的研究状况

国外几代学者经过长达几十年的探索研究,信用评分模型在技术上基本成熟。

杜尔兰德(Durand)第一个将Fisher提出的判别分析法用于信用评分,用来区分“好“的贷款和“坏”的贷款。需要注意的是线性判别法进行信用分析时,对数据有严格假定。数据需服从正态分布,各总体协方差阵必须相等,而这些要求在现实中是很难满足的。同二次判别函数相比,线性判别函数具有更多优点,多数学者在用判别分析法建立信用模型时,往往忽略假设依然选用线性判别函数,这使得线性判别分析成为信用评分领域最为广泛的方法之一。

Wiginton,1980年首次在信用评分模型中采用Logistic回归方法,并把它与判别分析法进行比较。与判别分析法 相反,Logistic回归法不要求变量必须满足正态性的假设,理论基础比较好:再加上Logistic回归法在应用时,准确性和稳定性方面表现上佳,因此被学者认为是最适合发展信用评分模型的理论。

20世纪80年代,决策树方法开始应用于信用评分领域,之后有学者将决策树方法与判别分析方法进行了比较,认为两者旗鼓相当,在有些情况下,决策树方法的表现或许更佳。

在非统计学方法中,线性规划方法应用的比较早,20世纪60年代就有线性规划在信用评分领域的文献报道。尽管有部分学者认为统计学方法要比线性规划方法好,但是大部分文献都认为线性规划与统计学方法的效果相当。

20世纪90年代,人工神经网络应用于信用评分模型中。当然大部分神经网络模型用于对公司的信用评分,在个人信用评分领域的应用相对比较少,得出的结论是在各种特征变量呈复杂非线性关系的情况下,神经网络方法具有明显的优势。也有少部分学者将遗传算法应用于个人信用评分领域,但是相比较其他方法,效果不佳,在实际中不被推崇。

在消费者个人信用评分的实务方面,美国的Equifax公司和环联(”EransUnion)以及英国的益百利(Experian)等是世界上最大的三家个人征信机构。平均每家公司拥有2亿份个人信息文件,覆盖全美、加拿大和欧洲部分地区。三家征信公司一天提供480多万份消费者信用报告。

2.国内研究状况

从国内研究来看,由于我国社会征信体系建设的落后,理论研究和实务方面都相当落后。在理论研究领域,虽说成果不多,但也有部分专家学者利用国内银行的数据开发信用评分模型,取得了一定的研究成果。

1999年下半年,中国建设银行济南分行出台的<个人信用等级评定办法》是我国首部消费信贷个人信用等级评定方法。该办法规定,银行将持卡人的年龄、学历、职业、收入和家庭资产等信息资料汇集起来形成14个指标,针对个人客户个人还款能力和资信状况,设立7类个人信用等级,为AAA、AA、A、BBB、BB、B、C七个等级,不同信用等级的客户享受的透支额度不同。但该方法仅能判断一个人在该行的信用情况,而对其在其他银行的信用状况不清楚.随着2005年,央行个人征信系统的联网运行,个人信用评估工作逐步迈向规范化发展,越来越多的商业银行利用征信系统开展信用评分工作,建立自己的信用评分系统。

李曙光(2003)在《个人信用评估研究》中将个人信用评分分为个人行为评分、利润评分、考虑经济环境因素的评分三类,并对国内外亟待解决的问题进行总结,认为个人信用评分模型中应包括对宏观经济因素的考虑.

鲁炜(2004)在《基于中国现实个人信用数据的信用评分方法比较研究》中基于数据的时间跨度分布的分析,发现个人信用评分的模型寿命周期在我国较短,认为基于我国数据开发的实用模型至少每年更新一次.这就对个人信用评分模型的研究提出了可更新性要强的要求。

潘雅琼、左相国(2004)在《消费信贷信用等级评分值与期望坏账率的关系模型》中引用英国某著名商业银行在不同风险指数下的坏账率作为期望坏账率,得到符合我国国情的信用等级评分值与坏账率之间的对应关系模型。

总体来看,国外对消费者个人信用风险的研究已有多年的历史,对已使用的和正在开发的预测消费信贷风险各种技术的研究取得了重大进展,为商业银行金融风险的管理决策提供了有效的方法与工具。国内关于这方面的研究和应用还处于初级阶段,一个十分重要的原因是理论研究与实际应用结合的问题,因为建立信用评分模型需要大量的银行历史经营数据和客户信息,同时要有复杂的计算机系统支持,这些都涉及银行的商业机密,无法对研究者开放,使得应用研究受到限制;另一方面,如国外Fair Isaac等信用风险评估模型公司的产品还无法直接应用于中国的银行业,这是因为各国的信用环境、客户自身的状况和行为习惯都存在较大差异,而这些是信用评分模型开发和应用的基础,信用评分模型需要有针对性的开发、训练、优化和应用。特别是我国商业银行正处改制和经营转型期,个人银行业务快速发展,客户的总体样本特征具有相对的不确定性,人们的信用意识、提前消费的信贷意识在不断改变,个人消费行为也在不断发生变化;同时个人征信体系还很不完善,客户信息不对称给银行信贷审批决策的准确性造成严重影响,这些都是信用评分和风险控制方面亟待解决的现实问题。

三、研究内容范围

论文希望通过对个人信用评分的基本概念和建立信用评分模型方法的研究,以及对我国银行业个人信用方面的深入调查,明确应用先进的数据挖掘技术建立客观信用评分模型的必要性、紧迫性、科学性以及在信用领域中数据挖掘方法的强大的应用价值。论文的重点是对信用卡风险管理的征信环节中信用卡申请者的信用评分模型进行研究,以征信系统的部分征信数据为基础,就国外信用评分领域使用最多的决策树、神经网络方法,按照数据挖掘技术解决问题的一般步骤,详细探讨如何建立信用评分模型的一个完整的流程,建立一个基于我国实际的决策树、神经网络个人信用评分模型,并对模型进行评估,从建模结果、预测精度、运行效率等角度进行对比分析,并利用实际数据对模型进行验证,试图找到最佳模型,得到区客户信用的最佳分类途径,以便使银行能高效的应对大量的信用卡申请者,快速地做出判断。最后希望利用数据挖掘技术与信息系统开发技术开发信用评分管理系统的部分功能,探讨如何将数据挖掘的结果应用到实际的辅助决策系统当中。

总体上来说,现今数据挖掘技术在信用卡业务的应用和研究仅仅处在初始阶段,有很多工作需要去完成。希望本文的研究能为中国银行业在信用卡风险管理方面提供一些参考和帮助。

四、主要参考文献

下载开题报告_基于数据挖掘方法的学生课程推荐算法研究word格式文档
下载开题报告_基于数据挖掘方法的学生课程推荐算法研究.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    电子商务数据挖掘方法论文

    摘要: 电子商务是现代商业的主流趋势,如何充分利用网络技术和数据库技术发挥企业优势,成为企业制胜的法宝。本文介绍了常用的数据挖掘方法,以及在电子商务领域的应用,分析了利用......

    数据挖掘教学方法研究论文

    摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不......

    15年开题报告研究方法

    15年开题报告研究方法 随着新课程改革的不断深人,“教师成为研究者”的观念逐渐深人人心。开展和参与课题研究是教师获得自我持续发展能力的最佳途径。事实证明,通过开展课题......

    教育研究方法开题报告

    桂林市农村留守儿童教育问题研究”课题 开题报告 数学科学学院 数学与应用数学 201010700015 徐小鸿 一.研究的背景 所谓留守儿童,是指父母双方或一方流动到其他地区工作,孩子......

    数据挖掘课程体会[五篇模版]

    数据挖掘课程体会 学习数据挖掘这门课程已经有一个学期了,在这十余周的学习过程中,我对数据挖掘这门课程的一些技术有了一定的了解,并明确了一些容易混淆的概念,以下主要谈一下......

    《数据挖掘导论》读书报告

    数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析丁具和技术处理它们......

    关于学生读的方法、途径的研究开题报告

    莲塘三小市级课题《关于学生读的方法、途径的研究》 开题报告 《关于学生读的方法、途径的研究》这一课题于2009年9月被确认为南昌市教育科学规划领导小组办公室总课题《数......

    教育研究方法开题报告材料

    有关大学生考试作弊现象的研究 (一)研究背景分析 1.选题背景 在当今社会上,应试教育已经是普遍的一种选拔人才的教育制度,不论中小学生,还是高中生,甚至是大学生,都必须面临考试。而......