第一篇:数据挖掘技术下数字化油气藏研究论文
摘要:油气藏在勘探开发及其研究与决策过程中,形成巨量的成果及数据。为了更加科学开发与管理油气藏,充分运用和发挥好这些巨量数据的信息作用成为关键,数据挖掘作为一种有效的信息处理技术,可以在海量数据中快速找出有用信息,为研究与决策提供强有力的数据支持。长庆油田在油气藏研究与决策支持系统(RDMS)建设中充分利用各专业数据库及多种数据挖掘方法,构建了一个满足勘探、开发、储量管理、评价等综合应用的数据管理、数据操作及可视化展示的一体化平台,为油气藏研究与决策人员提供全方位的数据处理与可靠决策,极大地提升了油气藏的研究效率和决策质量。
关键词:数字化油气藏;研究与决策;数据挖掘
油气藏研究包含了从地质勘查到石油产品最终用户的复杂工艺流程,传统的油气藏研究方法存在工作效率低、准确性不高、过度依赖人工经验等问题。决策者需要从海量的数据中找出有用的关键信息;论证现场中研究人员携带和使用的各类图件无法充分展示其研究成果,也不能在论证现场短时间内消化大量资料并做出正确的决策,更不能使信息资源的共享和成果的交互上得到充分实现。信息落后的信息处理方法与单一的研究手段不但花费大量的精力与时间,更是造成大量宝贵的研究成果无法应用与共享。近年信息技术的快速发展,催生了数字化油藏,促进了数字油田的发展产,数据挖掘等信息技术与油气勘探开发数据资源的融合不断加深,能够提供更智能化的数据分析功能,更好地支持油气藏勘探开发决策,开创了一种全新的油气藏研究工作模式,降低了决策风险,提升开发决策水平。长庆油田针对具有数量庞大的、结构不完整的、内容不清晰且含有干扰信息的油气藏研究工作数据,开发了包括特征提取、规则划分分类分析、关联规则挖掘、聚类分析、模式分析及生成趋势分析等[1-2]系列数据挖掘技术,从中提取出包含在内部的、不被人们知晓的、却又含有有用的、重要的信息和知识[3-4],为长庆油田的高效开发、快速发展提供了有效的数据信息支持。
一、油气藏研究与决策支持系统
通过借鉴国内外著名油气公司在油气勘探计算机软件研发方面的经验[5-6],依托长庆油田丰富的数据资源,利用先进的软件研发技术,长庆油田研发出了一套数字化油气藏研究(RDMS)系统。它以油气藏研究为主线,业务驱动,数据链为手段,由协同工作平台、数据整合平台、数据可视化平台等组成的一体化多学科协同工作环境。数字化油气藏研究系统从功能架构上可划分为数据服务、基础工作、协同研究、决策支持和云软件五大平台。基础工作平台是以油气藏数据链技术为基础建立的系统底层框架,为各应用场景的协同工作提供基础环境;协同研究平台面向科研人员,通过对不同业务岗位定制不同工作场景和工作内容,为研究人员提供便捷的数据组织、共享和知识应用平台;决策支持平台面向技术主管和普通技术人员,为一体化技术交流及方案决策提供环境,并实现远程异地协同决策;云软件平台基于虚拟存储技术将勘探开发主流软件统一部署在云中心服务器,实现专业软件接口统一升级、许可动态调度和集中维护管理。目前,基础工作平台、研究工作平台(29个研究主题)和决策支持平台(16个决策主题)已基本开发完成,在勘探开发研究院、油气工艺研究院、采油(气)厂已推广运行。图1展示了数字化油气藏研究与决策支持系统功能模块的细分情况。
二、数字化油气藏的数据挖掘技术
长庆油田建设的数字化油气藏研究与决策支持系统,为油田生产的勘探部署、产能建设等决策提供辅助。在决策支持系统的建设中采用了数据挖掘技术,在数据分类的过程中使用了神经网络技术,在数据关联过程中使用了决策树方法,在预测过程中使用了回归分析和贝叶斯网络。由勘探井的数据结合模型库系统和数据仓库系统,为井位部署、产能预测、生产方法等决策提供支持。在图2的结构中有一个模型库系统,它由模型库、方法库、数据库、格式库、衍生数据库及其管理系统组成。该系统可被抽象为六元结构,即S={ModelD,methodD,FormD,ParaD,D,DeriveD}。其中,ModelD={model1,model2,…,modeln},它是模型库,用于集成各种模型。模型库为整个系统提供支撑。它有包含模型库管理子系统(MDBMS)对模型库进行统一的管理,具有对模型定义、建立、存储、查询等功能。模型库是系统的核心结构。用于油气藏研究的各种数据库在模型库中统一管理、调用;MethodD={method1,method2,…,methodn},它是方法库,集成各模型计算的参数获取方法。方法库系统为系统提供算法模型支撑,它包含方法库管理子系统(ADBMS)对方法库进行统一的管理;FormD为数据格式库,定义了每个数据的数据类型,数据格式;ParaD为参数库,用于存放各种油气藏分析程序运转的各种参数;D为数据库,用于存放计算数学模型所需的各种数据;DevriveD为衍生数据库,存放油气藏研究过程中产生的新数据。
三、油气藏数据挖掘技术的实现
1.建立数据仓库建立数据仓库是实现数据挖掘的基础。本系统中使用的是原型法,快速的实现数据仓,并根据反馈信息修改油气藏决策步骤中不合理的需求分析和主题情况,为后面的决策工作提供技术基础和经验积累。本系统主题是油田勘探井位布置位置、测井实时数据、产能分析、储量管理等主题。在对油气藏决策系统进行分析之后,根据油气藏决策系统中包含的油气藏数据、决策内容进行逻辑分类。针对各个的分析主题,在油气藏数据仓库中建立关系表,用来描述与决策结果相关的各种信息,关系表主要从油气藏系统数据库中的流程表中提取数据,包括地质图、地理图、地震数据等。在数据仓库的建设过程中,对油田的盆地、各级构造、圈闭、地震工区、勘探沉积相、各级储量区块、油田各类开发生产单元、井等勘探开发图形对象的转换、加载入库,建立完成地质信息库。
2.油气藏研究工作数据抽象和总结技术数据总结的最终结果是对油气藏研究数据进行抽象模型化,给出油气藏研究决策工作流程的总体综合描述。通过对油气藏数据的归纳抽象,数据挖掘方法能够将数据库中的所有数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。在本系统中使用的数据总结方法是目前最为成熟的数学方法,也就是利用数学方法计算出数据库的各个数据项的统计学特征,如总和、方差、最大值、平均、最小值等;或者通过利用数学中的统计图形工具,对数据制作统计图形,如直方图、饼状图等。长庆油田的数字化油气藏研究系统中利用了OLAP技术实现对油田井位的地质图、地理图、地震数据的多维查询,分析了多种数据的统计特征,同时用多个统计图形描述了数据间的联系。最后对多个数据进行归纳,提取统计信息。
3.数据分类数据挖掘中的分类是建立需要的分类函数或分类模型。通过这个分类模型可以将数据划分到不同的组中。它的实现步骤一般是:首先分析工作数据的各种特征,并找出或者建立出工作数据的属性模型,确定数据的归属组别,然后利用这些模型来分析工作数据,最后预测后面的工作数据可能会属的分组。分类应用的实例很多,本系统的采油井中,将油田井位出油量分为好、一般和较差三种类型,以此分析这三种类型井位的各种属性,特别是位置、地质等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的井位进行分析,以便决定预期井位属于哪一种类型。
4.关联分析原始数据库中各个工作数据都存在相互关联、相互影响的联系。两个或多个工作数据的取值之间存在某种逻辑联系。这种关联关系主要有简单关联和时间关联两种。比如油田井位中的地质环境、地震数据和出油量存在关联。关联分析的目的是找出工作数据中隐藏的关联网,描述众多数据项目的密切度或关联关系。由于事先往往并不知道工作数据的关联是否存在,或者是否可以用精确的关联函数描述。因此,关联分析生成的规则通常都带有置信度,置信度级别描述了关联规则的强度。
5.聚类与分析油藏工作数据往往缺少比较详细的描述信息,甚至是无法组织成任何分类模式时,通常可以采用聚类分析。通过聚类分析,按照约定的相近程度度量方法或者其他的标准,将工作数据分成许多有意义的子集合;每一个集合中的数据特征相近甚至相同,不同数据集合之间的数据性质差异较大,容易区分。长庆油田的数字化油气藏研究在实现过程中,使用了Fayyad过程模型,如图3所示。在数据挖掘的过程中,系统执行一个循环迭代过程。在每一步的执行中,从油田的盆地、各级构造、圈闭、地震工区、勘探沉积相、各级储量区块、油田各类开发生产单元等数据中,分析出勘探井位的位置信息,如果发现某个阶段产生的结果和预想的内容有出入。则重复前面阶段步骤。
四、结束语
长庆油田针对油气藏研究数据量大、信息隐晦的技术现状,建立了油气藏研究与决策支持系统[7-10],并在其中开发和应用了系列数据挖掘技术,取得了较大进展:
(1)与众多学科及技术相融合,形成了包括人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、高性能计算等数据挖掘技术,将原始数据库转化为有用的研究知识,为油气藏决策了有力支持。
(2)海量数据及其挖掘技术的开发为油气藏研究与决策支持系统的高效应用打下了基础,极大地提高了油气藏的研究与决策水平,为长庆油田快速发展提供了强有力的技术支持。
参考文献
[1]郭萌,王珏.数据挖掘与数据库知识发现:综述[J].模式识别与人工智能,1998,11(03):292-299.
[2]胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998(01):54-64.
[3]GrossmanR,KasifS,MooreR,etal.Dataminingresearch:Op—portunitiesandchallenges[C].AreportofthreeNSFworkshopsonmininglarge,massive,anddistributeddata,1999.
[4]Deogu*JS,RaghavanVV,SarkarA,etal.Datamining:Re—searchtrends,challenges,andapplications[J].RoughsSetsandDataMining:AnalysisofImpreciseData,1997:9-45.
[5]王宏琳.油气勘探计算机软件:平台体系结构框架[J].石油工业计算机应用,2004(02):3-8.
[6](美)HohmannL著.蓝莉,曾永和译.超越软件架构创建和维护优秀解决方案[M].北京:中国电力出版社,2005.
[7]石玉江.数字油田中的勘探井位快速部署技术[J].石油工业计算机应用,2016(12):11-16.
[8]王娟.数字油气藏数据中心建设的关键技术[J].石油工业计算机应用,2016(1):16-18.
[9]付金华,石玉江,王娟,等.长庆油田勘探开发服务型共享数据中心构建研究[J].中国石油勘探,2017,22(6):1-8.
[10]王娟,姚卫华,石玉江,等.基于云架构的油气藏数据智能管理技术[J].天然气工业,2014,34(3):137-141.
第二篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第三篇:高校管理中数据挖掘技术的研究论文
摘要:近年来,数据库挖掘技术的普遍应用,使数据价值实现最大化,在我国金融、商业、市场营销等领域得到广泛应用。然而在我国高校管理中并没有得到推广,为使高校管理系统中的数据充分发挥应有价值,在该系统中使用数据库挖掘技术意义深远。本文首先介绍了数据挖掘技术的流程,然后在教师教学质量评估中应用数据库挖掘技术,充分证明数据库挖掘技术在高校管理中能发挥重大作用。
关键词:管理;决策树;数据挖掘技术
当前,大部分高校都拥有配套的管理系统,该系统具备海量数据储存和管理功能,彻底告别了手工记录信息和数据的年代。不但节约了纸张,更有效提高了高校管理数据和信息的效率。然而我国高校没有有效利用应用数据挖掘技术,因此研究数据库挖掘技术在高校管理中的应用十分必要。
1数据挖掘技术的流程
数据挖掘技术能够将海量数据展开分析和处理,再把整体数据库中存在规律的数据整合起来,实施该技术主要包括以下五个环节。目标定义:该环节中要与有关领域的背景知识相结合,清晰、精确的定义出数据挖掘目标。数据准备:在该环节中要搜集、选取数据源中的数据,处理已选数据,将其转换为适合数据挖掘的形态。数据挖掘:该环节是数据挖掘技术的核心,即采用关联规则法、分类分析法等各种数据挖掘方法把数据中隐藏的知识和规律发掘出来。结果表示:在该环节中可以以用户需求为依据,将挖掘出来的知识和规律转变为用户能接受和理解的形态。知识吸收:该环节中,主要是把挖掘结果与指定领域中的需求相结合,在该领域中应用发掘出来的结果,为决策者提供知识,是数据挖掘的终极目标。
2数据挖掘技术在教学质量评估中的应用
2.1运用关联规则法挖掘数据库中的信息
评估老师教学质量不但是评定教学效果的重要部分,也是评定教师职称的重要根据,因此是高校管理工作中不可或缺的部分。目前评估教学质量的主要措施是搜集、统计学生的成绩和以及对老师的评价,然后加权算出老师的总得分,作为评估该老师教学质量指标。这种方法非但不科学,其权威性也较低,因此需要深挖数据的相关性,本文采用了数据挖掘技术中的关联规法挖掘数据中的规律和知识,为评估老师教学质量提供有力根据。运用关联规则法挖掘数据,其规则方法为“XY,置信度为c%,支持度为s%”。关联规则中置信度为c%:在整体事件D集合中,如果既能够符合事件X中拥有c%的需求,也能够符合Y的要求。那么就用置信度来表示关联规则的强度,被记录为confidence(XY),置信度最小值用minConf来表示,通常置信度最小数值由客户提供。关联规则中置信度为s%:在整体事件D集合中,如果既能够符合事件Y中的s%的需求,又能够符合X要求。用支持度来表示关联规则的频度,把支持度的最小数记录用minsup(X)来表示,通常支持度最小数值由客户提供。频繁项集合:当X项集的支持度大于等于用户设定好的最小支持度时,那么频繁项集是X。通常关联规则包含两个环节:①把全部频繁项集从整体事件集中选出;②运用频繁项集产生关联规则。在这两个环节中关联规则效果和性能是否良好取决于第一个环节。
2.2关联规则分析在评估教学质量中的运用
第一步是准备数据期,在某大学的教学管理系统中将五百条与教学评价有关的记录从数据库中随机抽取,并挑选出老师编号、学历、性别、教龄、评估分和职称这六个属性,并将相关数据从数据库中提取。比如把讲师、副教授和教授等职称转化成11、01、00等编码,表1就是制定的评价教师教学记录表。第二步采用关联规则分析法把90分以上评价分数作为检索目标和判断标准,也就是将≥90分作为判断是否是高教学质量阙值。通过检索有143条记录符合标准,即设定最小的支持度为10%,置信度则为15%,得出下表2的关联规则。最后一步评价本次实验的结果。由上表得知,学生喜欢男老师和女老师的程度大致相同;学历愈高的老师,给予他们的教学评价也就愈高,即学历和教学评价成正比,这也说明了学历高的老师其基本功与学历低的老师相比,前者基本功更为稳固,也有较高的科学研究水平;有较长教龄和较高职称的老师,其教学质量也越高;此外,在支持度中可以看出,高校教授和高学历人才越多,说明其办学能力也就越高。
3结语
高校管理系统作为教学信息化的重要举措,只是起到搜集和储存海量教学信息的作用,并没有挖掘出海量数据之间的相关性,而在本文中把关联规则法运用在教师教学质量评估中,在数据中挖掘有价值的知识和规律,使评估教师教学质量更具有科学性,因此在高校管理中全面应用数据挖掘技术,能为高校深化教学改革提供新的契机。
参考文献
[1]江敏,徐艳。数据挖掘技术在高校教学管理中的应用[J]。电脑知识与技术,2012,(24):541—545+560。
[2]杨雪霞。数据挖掘技术在高校图书馆管理系统中的应用研究[J]。软件,2011(04):16—18。
第四篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世
第五篇:大数据时代数据挖掘技术教学研究论文
摘要:随着大数据时代的到来,在大数据观念不断提出的今天,加强数据大数据挖掘及时的应用已成为大势所趋。那么在大数据教学过程中,我们必须掌握大数据与数据挖掘的内涵,并对数据挖掘技术进行分析,从而明确大数据时代下数据挖掘技术的应用领域,促进各项数据的处理,提高大数据处理能力。
关键词:大数据时代;数据挖掘技术;应用
大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。
1大数据时代下数据挖掘技术的基础教学方法分析
数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。
2大数据时代数据挖掘技术教学要点的分析
2.1数据挖掘技术流程分析
在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。
2.2挖掘后的数据信息资源分析
数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。
2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制
数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。
3数据挖掘技术在不同行业中的应用实践
学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。
4结语
综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。
参考文献:
[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,03:45-47.[2]欧阳柏成.大数据时代的数据挖掘技术探究[J].电脑知识与技术,2015,15:3-4+9.[3]孔志文.大数据时代的数据挖掘技术与应用[J].电子技术与软件工程,2015,23:195.