第一篇:浅谈网络教学平台下的数据挖掘技术
浅谈网络教学平台下的数据挖掘技术 数据挖掘技术的基本认识
数据挖掘(Data Mining),就是从大量数据中挖掘以及抽取出有用的数据知识。数据挖掘技术,可以在大量的数据中,以及信息不完全的海量碎片式信息中,挖掘出隐含在其中的有用信息数据;同时也可以避免在数据决策过程中的噪声影响,能够精确挖掘数据,将具有潜在关联的数据组合在一起,整理集合对决策有用的信息资料。在数据挖掘技术之中,通常可以依据关联规则、分类技术、预测技术等,实现对有用数据信息的挖掘。在网络自主学习的平台中,应用数据挖掘技术,可以发挥积极应用价值。
网络教学平台用户的学习需求
设计基于数据挖掘技术的网络教学平台,提供基于网络的浏览教案、知识点;收看微课、视频;还可进行信息检索、下载保存、提交作业、在线测试,满足对学生个性化网络教学服务需求。除了这些日常教学功能外,还可以通过数据挖掘分析教学平台服务器日志数据,挖掘有用教学信息数据,以图文界面形式,将数据挖掘分析结果反馈给用户,提升该教学平台设计性能,满足学生对该平台的应用需求。数据挖掘技术基础上的网络教学平台优化设计
3.1 总体设计结构
基于数据挖掘技术,设计网络教学平台,可以从学生、数据挖掘、教师三个基本模块出发,优化网络教学平台结构设计,以确保该网络教学平台符合实际需求。典型网络教学平台的总体结构如下图所示:
在网络教学平台中,应用数据挖掘技术,更好的评估学生对该平台的喜好,优化平台教学策略,能有效增强学生的学习兴趣,提高了学生的自学能力,培养学生主动性学习能力。
3.2 功能设计
(1)学生模块的功能:可以获取学生的基本状况、学习路劲与行为,分析学生的学习现状,并准确判断出学生在网络教学平台中各学习特征。
(2)教师模块的功能:确保教师可进行“课程资料管理”,同时能够在线进行相关课程信息的编辑,并应用论坛管理模块完成教学平台中师生互动行为。
(3)数据挖掘模块功能:根据所采集数据构建学生特征库,并分析处理数据。
3.3 数据挖掘--论文快速发表绿色通道—期刊之家网
发表流程:收稿---稿件初审---商定期刊---杂志社审稿---办理定金---修改定稿---确认---付余款---杂志社发采稿通知---发表见刊---接收期刊样册---知网收录 论文刊发时间:从收到论文版面费起3-4个月(特殊情况除外),针对需要快速发表的作者提供绿色通道服务。本站声明:期刊之家网与多家医学期刊结成了学术联盟,如果您有发表中国科技论文统计源期刊(中国科技核心期刊)、中文核心期刊、SCI收录期刊的需求,以及对于需要论文发票的作者可以与我们联系
1、学术期刊论文发表时间安排等相关咨询联系杨老师QQ:2926870355/ 2012730281
2、不违反宪法和法律,不损害公共利益。
3、是作者本人取得的原创性、学术研究成果,不侵犯任何著作权和版权,不损害第三方的其他权利;来稿我方可提供“中国知网期刊学术不端文献检测系统”检测,提供修改建议,达到文字复制比符合用稿标准,引用部分文字的在参考文献中注明;署名和作者单位无误。
4、本站初审周期为2-5个工作日,请在投稿3天后查看您的邮箱,收阅我们的审稿回复或用稿通知;若20天内没有收到我们的回复,稿件可自行处理。
5、按用稿通知上的要求办理相关手续后,稿件将进入出版程序;
6、杂志出刊后,我们会按照您提供的地址免费奉寄样刊。
7、未曾以任何形式用任何文种在国内外公开发表过。
8、切勿一稿多投,稿件一律不退,请自留电子稿。
应用数据挖掘技术,可以有效识别在网络教学平台中不同学生群体的特征,并根据关键特征对学生群体进行划分,把大多数学生的学习行为、认知进行分类,分析每类学习行为的特性,增强对学生个性的认知。具体如下:
(1)学生网络学习行为与学习效果的关联分析:通过挖掘学生相关网络学习行为与考试成绩数据,反映两者之间的关系,给教师、学生提供借鉴。通过分析,让教师们充分了解不同学生的学习情况及特点。
(2)学生网络学习行为的聚类分析:由于学生个体之间存在极大的差异性,学生的学习兴趣不同,学生网络学习行为不同,并且学生对知识的需求也是不同的;学生可以在网络教学平台中,在线进行教学主题讨论,根据学生读帖次数、发帖次数、频率、时间等因素,应用聚类分析的方法,挖掘网络学习行为规律;根据学生实时学习(使用工具、交流时间、交流对象、交流内容)状况,可以预测在网络环境下什么样的学习行为是有效的。
网络教学平台下的数据挖掘技术应用策略
4.1 收集相关数据
在进行网络教学过程中,平台会记录大量的信息数据,供数据挖掘分析使用。本案例选取本校学生在2016 年1 月份通过网络教学平台参加计算机基础考试的成绩作为数据源。
4.2 数据预处理
数据挖掘中需要进行冗余数据的清除,修复缺失的数据信息。根据挖掘目的和需要,在网络教学平台学生原始数据表的基础上建立数据库。该部分的目的在于,通过数据挖掘技术,对学生在网络教学平台中的主要网络学习行为或者网络练习环节与学习效果之间的关系进行分析,找出对学习效果影响较大的学习行为。
4.3 模式识别
对预处理得到的网络教学数据,采用数据挖掘的方法进行数据分析,挖掘数据之间存在的关联规则,制定出符合该平台进行网络教学管理的挖掘算法。通过关联或决策规则,了解在网络教学平台中各种学习行为之间的关联性,分析其对学生学习成绩的影响程度;通过数据挖掘技术还可以分析出学生之间的特征,做好前期的网络教学平台教学设计工作,为优化网络教学策略提供参考依据。对照学生成绩表,为了进行有效的分类,对各项数据变量进行离散化处理。
4.4 模式分析
模式分析阶段可以解释以及评估数据挖掘的结果,清除那些无用、冗余、错误的信息知识,并且将感兴趣的信息转化为规则模型,供网络教学管理者进行教学决策管理。本案例选择Microsoft SQL Server 2008 的决策树算法对网络教学平台数据进行挖掘。将总分(total)作为主要预测对象,选择题(XZT)、WIN、WORD、EXCEL、PPT 和网络题作为输入对象,建立决策树分类模型。
基于数据挖掘技术分析,EXCEL 属性与 total(总分)属性依赖关系最强,其次是 WORD 属性,再次是(网络题),最后是PPT 和 XZT(选择题),WIN 由于操作题目比较简单,平均考分较高,所以图中显示WIN 属性与 total(总分)属性没有依赖性,由此提醒教师和学生要注意教学目标重点,从而促进教学质量整体提升。
4.5 教学实践应用
结合教学实际,学生普遍认为 EXCEL 操作难度较大,也验证了数据挖掘分析结果。在网络教学平台中,应用数据挖掘技术,可以提高网络平台对学生学习过程的监控能力,能追踪学生的各项网络学习活动及在活动中花费的时间等。增强对网络学习过程数据的收集功能,以及增强网络学习的平台的统计分析功能。教师应该充分发挥在网络教学中各主导作用,引导学生积极练习重难点;同时可以在该网络教学平台中,设计分层次的网络教学资源,以便可以满足教学中不同层次学生对于网络教学的学习需求,也可以全面提升网络平台的教学质量。
结语
综上所述,在当前网络教学改革实践过程中,随着网络教学平台的应用普及,教学平台处理数据量急剧增加,各类平台用户本身具备差一定异性,应用数据挖掘技术,可以挖掘网络教学平台中有用信息,用于改善用户自主应用该平台学习体验,提升学习者学习积极性。同时在网络教学平台中,应用数据挖掘技术,通过网络教学平台学生数据进行分析,可以找出影响学生网络教学成绩的关键环节及知识点,为今后教师调整网络教学平台教学重点提供理论参考依据,发挥积极影响价值。本文研究了网络教学平台中数据挖掘技术的应用,并为之提出优化策略,以供参考。
第二篇:构建网络平台下的作文教学
构建网络平台下的作文教学
青云里小学 邢砚秋
(2004年获秦皇岛市信息技术教育教学优秀论文)
网络是虚拟的现实,在网络世界里,可以构建虚拟和显示相结合的学习环境.网络环境也同样影响着这个时代的学生,他们所听到的、看到的、想到的和感受到的与网络环境息息相关,因此,我们可以利用网络环境为作文教学服务,信息技术应用与作文教学培养了学生独立进行快速作文的能力,提高了作文教学的效率,提高了学生的语文综合能力,作文教学是语文教学的一个重要环节,作文水平的高低很大程度上反映学生综合能力的水平。
一、利用网络平台激发学生写的欲望。
小学生的思维是以形象思维为主,他们对生动的画面、动听的声音和新奇的事物特别感兴趣,在利用多媒体计算机教学网的作文教学中,把被观察的对象在每个学生桌上的电子计算机播放,吸引了学生的注意力,进而促使他们积极主动的去观察,并激发起写作的兴趣,产生写作的欲望。教师及时指出写作要求,指导学生观察的方法,学生必须把事物看仔细、看清楚并认真考虑,才能写得好,这样就有效地强化训练了学生的观察。网络传递信息的及时性,使坐在学校里的学生真正可以“秀才不出门尽知天下事”,教师应该有意识的引导学生关注生活热点,引起学生的思考,激发其写作的动机。伊拉克战争、北京奥运会、抗击非典、股市信息等等已经发生和将要发生的事,人们很难对这些发生在千里之外却宛如近在身边的事无动于衷,置身这些轰轰烈烈或者那些引人深思的环境中又怎能不引发写作的冲动呢?
二、利用网络平台为学生提供丰富的写作材料
对于实践性很强的作文教学更是如此,以往,我们鼓励学生订阅 各种作文报纸、杂志以汲取作文营养,学生获益非浅。但是,对比网络来说,报纸、杂志仅是一座座小岛,网络则是大海。伊拉克战争时期,我组织学生观看战事,并且要求他们结合网络上搜索到的评论信息,写观看日记。学生也学会了关注网络中关于国家大事的新闻评论,并且及时地反映到作文中来,在奥运会会徽揭晓的那天晚上,学生激动地写下了《东方神韵》、《我为你自豪!中国》„„网络是信息的海洋,在这里我们可以找到我们需要的一切,丰富的网络信息资源使学生再也不必为“无米之炊”犯愁了。
三、利用网络的交互性促进学生交流。
网络是交互的平台,写作实际上是一种交流手段。教学中将教学意图及时地传到学生机器中,学生将自己信息及时发到校园论坛中反馈回来,教师和学生之间增加了一个媒介——计算机,信息反馈的渠道就从双向变为多向。教师出题后,让学生在网络上筹集有关素材或范文,并在电脑上完成习作,然后自己首先修改,觉得比较满意时存盘发表。再叫同学间通过论坛互相修改评价(俗称灌水),既锻炼了写作能力又增强了学生对其他文章的评价能力,网络平台下的作文修改变得异乎寻常的轻松,只需在需要修改的地方直接修改就可以了,大家减轻了无效劳动,同时又允许同伴修改,使得作文互助成为及时有效的方式。利用网络激励学生进一步创作的欲望。网络环境下的作文教学使得评价主体、评价内容、评价手段产生了根本的变化。这种写作教学的评价的主体将更为多元、评价的内容更为丰富灵活,评价手段方法进一步多样化。传统作文教学的教师评改、同学互改、学生自改等手段在网络环境下获得了新的拓展。直接建立与网络空间的每位学生的作文都将置于其他学习伙伴的目光之下,从而使作文教学由原来的一对一关系变成了多对多关系。
四、网络评析,总结提高。
多媒体网络环境中的作文教学最突出的优点就是让学生进行大面积的评议和修改作文,这样教师可以利用网络系统监空学生的习作,发现问题可以与学生通过语音直接对话,也可以在其习作上进行修改,这样既不影响其他学生,又能达到个别辅导的效果。同时教师可以利用网络实施转播,每一位学生的习作,集体评议优秀习作或描写较差的习作,这样让学生了解到作文哪里写得好?哪里写的不好?又该怎样去修改?从而提高学生的写作水平。同时,教师要根据学生文章和听到的评议,做出恰当的引导总结,让学生写作能力有所提高。
网络环境中新型作文模式能培养学生良好的思维习惯,激发学生的写作兴趣和写作欲望,充分调动学生的积极性和主动性。充分利用多媒体网络这一现代教育手段,学生的写作水平将会不断提高,网络将作为作文教学注入新活力,开展新天地。
在语文课堂教学中,由于我们始终坚持和强调学生对知识的主动探索、主动发现和对所学知识意义的主动建构,其结果,不仅学生的语文总体水平得得到了明显的提高,而且学生对语文学习态度和学习兴趣也同样表现出了比以往更积极的倾向,实现了认知与情感的同步发展,为学生素质的全面提高奠定了重要的基础。
第三篇:电力企业文本数据挖掘技术探究教学论文
摘要:在国家电网公司信息化工程的建设过程中,积累了大量的文本数据。如何挖掘文本数据中蕴含的有价值信息将成为电力企业大数据挖掘方向研究的重点对象。文章结合电力行业目前的数据现状,使用文本挖掘的方法对电力设备检修资金投入工作效能场景进行挖掘,对生产信息管理系统中报缺单数据进行文本聚类,实现对缺陷的细分。实践表明,该方法可以得出各类别的缺陷特征,从而证明了文本挖掘在电力行业的可用性。
关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘
随着信息化的快速发展,国家电网公司各专业积累的数据量越来越庞大。庞大数据的背后,由于数据结构和存储方式的多样化以及电力系统内部不同专业从业者的知识面层次不齐等,其中被利用的数据只占少量的部分,造成大量的有价值数据被浪费。在被浪费的数据中,以文本形式存在的数据占很大比重,如何从比较复杂的文本数据中获得需要的数据受到国家电网公司的普遍关注。国家电网公司经过SG186、三集五大等大型信息化工程的建设,积累了海量的业务数据,其中包括大量的文本数据。目前,国家电网公司对业务数据的利用主要集中在结构化数据的统计和分析,这些方法无法直接应用在非结构化文本数据中,更无法对其中隐含的价值规律进行深度分析挖掘。针对非结构化文本数据量不断增大、业务应用范围不断扩大这一现状,为了提升国家电网公司企业运营管理精益化水平,需要进一步挖掘非结构化数据中潜在的数据价值。因此,开展电力大数据文本数据挖掘技术应用场景和一般流程的研究显得尤为重要[1]。
1非结构化数据概述
与结构化数据(能够用二维表结构遵循一定的逻辑语法进行体现的数据)相比,非结构化数据不能在数据库中采用二维结构逻辑形式来表示,这些形式主要有Word文档、文本、图片、标准通用标记语言下的子集XML、HTML、Excel报表、PPT、Audio、Video、JPG、BMP等。半结构化数据处于完全结构化数据(逻辑型、关系型数据库中的数据)和完全无结构化数据(BMP、JPG、Video文件)中间,它一般的功能是对系统文件的描述,如系统应用帮助模块,有一定的逻辑结构,同时也包含数据格式,两者相融在一起,比较均衡,没有明显的界限[2]。进入21世纪后,网络技术飞速发展,特别是内联网和因特网技术取得突飞猛进的发展,各类非结构数据类型格式日益增多,以往的数据库主要用于管理结构化数据,对于非结构化数据的管理稍显乏力,为了适应非结构数据的迅猛发展,数据库的革新势在必行,在内联网和因特网技术的基础上,对数据库的内在结构进行改进和创新,使其能够兼容和处电力信息与通信技术2016年第14卷第1期8电力大数据技术理非结构数据形式。北京国信贝斯是我国非结构化数据库开发和设计的领军者,其旗下开发的IBase数据库能够兼容和处理目前市面上存在的各种文件名、格式、多媒体信息,能够基于内联网和互联网对海量信息进行搜索、管理,技术已经达到全球领先水平。
2文本挖掘技术
2.1文本挖掘
文本挖掘的对象是用自然语言描述的语句、论文、Web页面等非结构化文本信息,这类信息无法使用结构化数据的挖掘方法进行处理;文本挖掘指通过对单个词语和语法的精准分析,通过分析结构在海量的非结构化数据中检索意思相近的词语、句子或者信息[3]。
2.2文本挖掘流程
挖掘流程如图1所示。图1挖掘流程Fig.1Miningprocedure1)文本预处理:把与任务直接关联的信息文本转化成可以让文本挖掘工具处理的形式,这个过程分3步:分段;预读文本,把文本特征展现出来;特征抽取。2)文本挖掘:完成文本特征抽取后,通过智能机器检索工具识别符合主题目标的文段信息,在海量信息或者用户指定的数据域中搜索与文本预处理后得出的文本特征相符或相近的数据信息,然后通过进一步识别和判断,达到精确检索的目的,这是一个非常复杂的过程,纵跨了多个学科,包括智能技术、信息技术、智能识别技术、非结构数据库技术、可视化技术、预处理技术、读码技术等。3)模式评估:模式评估是用户根据自己的需求主题设置符合自己需求主题或目标的模式,把挖掘到的文本或信息与自己设置的模式进行匹配,如果发现符合主题要求,则存储该数据和模式以方便用户调用,如果不符合,则跳转回原来的环节进行重新检索,然后进行下一个匹配过程的模式评估。
2.3文本挖掘技术分析
解决非结构化文本挖掘问题,现阶段主要有2种方法:一是探索新型的数据挖掘算法以准确挖掘出相应的非结构化数据信息,基于数据本身所体现的复杂特性,使得算法的实施愈加困难;二是把非结构化问题直接转换成结构化,通过实施相应的数据挖掘技术达到挖掘目的。而在语义关系方面,就要应用到特定的语言处理成果完成分析过程。下文是根据文本挖掘的大致流程来介绍其所用到的相关技术。
2.3.1数据预处理技术
文本数据预处理技术大致可分为分词技术、特征表示以及特征提取法。1)分词技术主要有两大类:一种为针对词库的分词算法;另一种为针对无词典的分词技术。前者主要包含正向最大/小匹配和反向匹配等。而后者的基础思路为:在统计词频的基础上,把原文中紧密相连的2个字当作一个词来统计其出现的次数,若频率较高,就有可能是一个词,当该频率达到了预设阈值,就可把其当作一个词来进行索引。2)特征表示通常是把对应的特征项作为本文的标示,在进行文本挖掘时只需要处理相对应的特征项,就能完成非结构化的文本处理,直接实现结构化转换目的。特征表示的建立过程实际上就是挖掘模型的建立过程,其模型可分为多种类型,如向量空间模型与概率型等[5]。3)特征提取法通常是建立起特定的评价函数,以此评价完所有特征,然后把这些特征依照评价值的高低顺序进行排列,将评价值最高项作为优选项。在实际文本处理过程中所应用的评价函数主要包括信息增益、互信息以及词频等。
2.3.2挖掘常用技术
从文本挖掘技术的研究和应用情况来看,在现有的文本挖掘技术类别中应用较为广泛的主要包括文本分类、自动文摘以及文本聚类[4-5]。1)文本分类。文本分类是给机器添加相应的分类模型,当用户阅读文本时能够更为便捷,在搜索文本信息时,能够在所设定的搜索范围内快速和准确的获取。用于文本分类的算法较多,主要有决策树、贝叶斯分类、支持向量机(SVM)、向量空间模型(VectorSpaceModel,VSM)、逻辑回归(LogisticRegression,LR)以及神经网络等。2)自动文摘。自动文摘是通过计算机技术智能的把原文的中心内容浓缩成简短、连续的文字段落,以此来尽可能地降低用户阅读的文本信息量。3)文本聚类。文本聚类与文本分类的作用大抵相同,所实施的过程有所区别。文本聚类是将内容相近的文本归到同个类别,尽可能地区分内容不同的文本。其标准通常可以依照文本属性或者文本内容来进行聚类。聚类方法大致可分为平面划分法与层次聚类法。另外,除了上述常用的文本挖掘技术,许多研究还涉及关联分析、分布预测分析和结构分析等。
2.3.3文本挖掘系统模式评估方法
数据挖掘系统的评估是至关重要的,现在已有大量的研究来衡量这一标准,以下是公认的评估方法。1)查全率和查准率。查全率代表实际被检出的文本的百分比;查准率是所检索到的实际文本与查询相关文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一个系统在抽取事实不断增多时产生错误的趋势。最低的冗余度和放射性是系统追求的最终目标。3)双盲测试。先用机器生成一组输出结果,再由相关专家产生一组输出结果,然后混合2组输出结果,这种混合后的输出集再交给另一些相关专家进行验证,让他们给予准确性方面的评估。
3电力行业文本挖掘可研究实例
文本挖掘技术在国内电力行业属于新兴的前沿领域,对从业人员的素质要求相对比较高。由于现阶段知识和技术层面上匮乏,国家电网几乎没有关于此方面的项目实施。本节通过2个电力运营监测业务的应用需求,初步探讨文本挖掘的建模过程。
3.1电力运营监测业务应用需求
1)检修资金投入工作效能分析场景分析。大检修和技改是保障电网安全的重要工作。由于运检业务系统的数据质量问题,通过对量化数据的统计,无法准确掌握大修、技改资金投入的工作效能情况。但设备的实际运行状态可以通过文本类故障记录、运行日志等进行反映,因此,采用文本挖掘技术对检修工作效能进行分析与可视化展现,同时结合传统的统计方法,实现对大修技改资金投入工作效能的分析和监测。例如,可以通过分析历年的故障记录信息,反映出每年主要故障变化情况,进而结合每年大修技改资金投入情况,分析资金投入是否与预期目标相一致。2)家族缺陷识别分析。家族缺陷是指同一厂家生产的同一型号、同一批次的设备在运行过程中出现了相同或相似的缺陷。家族缺陷识别分析是通过对运行记录、故障记录等设备运行文本信息的挖掘和可视化分析,对设备家族缺陷进行识别。该场景既可以辅助基层业务人员对家族缺陷进行准确判断,同时可以作为一种辅助手段为总部专家判定家族缺陷提供参考,从而实现对家族缺陷辨识方式的优化,并基于此为检修计划制定、厂商评价、采购建议等提供决策支撑。
3.2文本分析建模过程
第1步:将原始的非结构化数据源转换为结构化数据,分析文本集合中各个文本之间共同出现的模式;汇总与家族缺陷相关的所有文档,形成原始数据源的集合。第2步:对原始数据源的集合进行分词处理,建立特征集,使用词频/逆文档频率(TermFrequency-InverseDocumentFrequency,TF/IDF)权值计算方法得到各个点的维度权值,判断关键字的词频,例如“主变1号”运行记录中多次出现,但在故障记录中很少出现,那么认为“主变1号”有很好的类别区分能力。第3步:对分词后的文档建立索引,汇总所有文档的索引形成索引库,并对索引库排序。第4步:文档向量化;构建向量空间模型,将文档表达为一个矢量,看作向量空间中的一个点;实际分析过程中对多维数据首先将其降低维度,降低维度后得到一个三维空间模型,文档向量化生成文档特征词对应表、文档相似度表。第5步:结合业务实际,对相似度较高的表中出现的关键字进行比对,例如:“主变1号”、“停电故障”等关键字在多个日志中频繁出现,则该文档所记录的相关设备存在异常的可能性较大。
3.3文本分析应用及成效
对生产信息管理系统中报缺单数据中的报缺单名称进行文本聚类,实现对缺陷的细分,进而对各类别在非聚类变量上进行分析,得出各类别的缺陷特征。经过近一年以来在国网辽宁电力公司的逐步应用,科学的分析挖掘出缺陷主要集中在开关、主变、指示灯、直流、冷却器、调速器等设备,主要出现启吕旭明(1981–),男,河北保定人,高级工程师,从事电力企业信息化、智能电网及信息安全研究与应用工作;雷振江(1976–),男,辽宁沈阳人,高级工程师,从事电力信息化项目计划、重点项目建设、信息技术研究与创新应用、信息化深化应用等相关工作;赵永彬(1975–),男,辽宁朝阳人,高级工程师,从事电力信息通信系统调度、运行、客服及信息安全等相关工作;由广浩(1983–),男,辽宁辽阳人,工程师,从事信息网络建设、信息安全等工作。作者简介:动、漏水、停机、渗水等缺陷现象。公司故障处理快速响应、及时维修、提高供电质量和服务效率得到了显著的提升。电力设备故障缺陷特征示意如图2所示。
4结语
国家电网文本挖掘的目的是从海量数据中抽取隐含的、未知的、有价值的文本数据,利用数据挖掘技术处理电力公司文本数据,将会给企业带来巨大的商业价值。本文提出的关于检修资金投入工作效能分析和家族缺陷识别分析2个文本挖掘实例只是文本挖掘在电力行业应用的一角。如今,数据挖掘技术与电力行业正处于快速发展阶段,文本挖掘的应用将越来越广泛。下一阶段的研究目标是探寻有效办法将数据挖掘技术融入到文本挖掘领域的实际应用中,使得国家电网文本挖掘项目得以顺利实施,并达到预期成效。
参考文献:
[1]费尔德曼.文本挖掘(英文版)[M].北京:人民邮电出版社,2009.[2]孙涛.面向半结构化的数据模型和数据挖掘方法研究[D].吉林:吉林大学,2010.[3]胡健,杨炳儒,宋泽锋,等.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.[4]周昭涛.文本聚类分析效果评价及文本表示研究[D].北京:中国科学院研究生院(计算技术研究所),2005.[5]TANPN,STEINBACHM,KUMARV.数据挖掘导论(英文版)[M].北京:人民邮电出版社,2006.
第四篇:数据挖掘心得体会
心得体会
这次数据挖掘实验结束了,期间我们小组明确分工并积极去完成,虽然有点辛苦,但我感觉充实而有收获感!
根据老师给的一些资料,我们决定采用SQL Server 2000中的Northwind数据库里的数据作为我们的实验数据。根据表Order Details中的数据,我们分别根据ProductID和OrderID字段,并结合我们规定的最小支持度阀值对数据进行筛选。依次筛选出1项频繁集、2项频繁集和3项频繁集,其中还会使用游标的方式来遍历2项集与3项集的候选集,分别选出2项频繁集和3项频繁集。
由于数据较多,因此过程比较复杂,要编写很多的查询语句,建立许多数据表,包括临时表。开始不知道则操作,但经过我们各自多次重复的建表与查询,逐渐的理解和有了自己的思路。尤其是在运用游标的方法进行遍历这块,因为我们比较陌生而不理解,操作时一时无法实现结果,但经过我们在网上查询了解相关知识,最终得以解决。
经过该次实验,使我对数据库的操作更加熟练,而且还使我对课本上的“挖掘频繁模式”这块知识有了很好的掌握,今后我会多做实验,使我在实际操作过程中学得更好!
第五篇:数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件 9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。
28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市
drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Association rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
48.在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51.所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】