第一篇:基于数据挖掘的可疑金融交易识别方法研究(推荐)
基于数据挖掘的可疑金融交易识别方法研究
【摘要】现在企业数量不断增多,经济水平日益提高,各种金融交易活动也在频繁进行。在金融交易活动中,最容易出现的一种犯罪就是洗钱罪。本文就重点讲述了数据挖掘技术的内容,以及数据挖掘技术是如何识别可疑的金融交易,以此来个大家提供一个参考。
【关键词】数据挖掘、金融交易、洗钱罪
一、前言
随着我国经济的发展,各种金融交易活动也逐渐增多,与之伴随的就是洗钱活动的频发发生。我国的反洗钱工作正在不断地深入开展,金融交易活动作为洗钱的载体,也受到了很多关注。要想识别金融交易当中的犯罪,就得充分利用数据挖掘技术。但是,由于我国的国情以及技术水平,该项技术的应用情况和掌握情况还是不尽人意。只有不断加深对该项技术的研究,将其与金融交易相结合,才可以保证金融交易活动的有序进行。
二、数据挖掘技术概述
数据挖掘可以这么理解,就是在数据当中发现一些潜在有用的、有效地以及新颖的、能够被理解的模式过程。数据挖掘所研究的领域很广,涉及到识别模式、数据库、机器学习、人工智能还有分布式计算、可视化技术等等,是不同学科结合的产物,这是一个新兴的技术,但是其又有很大的发展空间。数据挖掘技术根据其主要任务的不同,可以划分成为如下几类。第一、关联规则挖掘,关联规则的挖掘是通过在很多的数据当中,发现有联系或者有关联的部分;第二、分类以及预测,分类就需要用到分类函数以及分类模型,利用分类函数,可以将数据库当中的数据映射到某一个分类上面。分类的模型可以用很多的形式来表示,比如分类树、数学公式或者神经网络等等;第三,聚类分析,该技术是用于发觉数据库当中未知的类,与前者的不同之处在于,使用该项技术是对类的型号以及数量都不知道的,按照的规则是“物以类聚”,将条
件相似的对象划分在一个分类里面,条件不相似的对象放在不同的组。每一个组就是一个类。第四、孤立点分析,数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是孤立点;第五、演变分析,数据演变分析描述行为随时间而变化的对象的发展规律或趋势,并对其建模。
三、可疑金融交易的特征分析
可疑金融交易是指金融交易当中的频率、流向、来源以及金钱的用途都出现了异常的行为。从反洗钱的监督实践来看,可疑的金融交易通常有如下的几个特征。
1、交易的频率以及金额会出现异常
通常来说,正常的金融交易和洗钱交易相比较,因为真实交易背景的缺乏,其交易的规律以及习惯往往没有周期性。在洗钱犯罪当中,洗钱者所面临的最大问题就是如何将非法所得的大量现金变成可以携带或者隐藏的形式,洗钱者为了避免被发现,经常采取快进快出的方法,所以其交易的频率以及交易的金额都会与正常的交易不一样,具体表现为和背景资料不一致的大量现金的频繁加以。在洗钱交易的初期,其最大的特征就是入账的金额是巨大的,流动的次数是频繁的。
2、交易的流向或者来源出现异常
洗钱交易和正常金融交易的目的是不一样的,所以其交易的地点和洗钱的热点地区都会有很密切的联系。
3、交易的用途后者性质是异常的
该项特征是指在交易过程中,交易者交易的动机以及客户的背景资料都是不相匹配的。
四、数据挖掘技术在识别可疑金融交易当中的研究
洗钱罪的犯罪手法变化多端,因此识别的技术也要有相应的提升。目前,反洗钱应用中的数据挖掘技术从孤立点分析、序列模式挖掘、链接分析、决策树等传统技术,逐步转向数据挖掘中的一些新技术如聚类分析、基于范例推理
等,在此分别探讨聚类分析和基于范例推理在可疑金融交易识别中的应用情况。这里重点向大家介绍聚类分析技术的可疑金融交易识别研究。该项技术可以将数据分为不同的种类,在每一个种类当中,对象应当有很大的相似度,在不同种类当中,对象的差别很大。聚类分析在聚类的过程中,可以采用不一样的聚类方法以及属性,将交易行为相似的企业或者个人的账户纳为一类。针对其金融交易的数据,来从不同的数据属性对其进行分析,从而发现可疑的交易数据,有利于检查人员的进步检查。另外,该种分析方法还可以当作是反洗钱系统当中预处理数据的方法,用来发掘那些表面上看似没有联系,但是实质却又很大联系的主体。
在选择聚类方法来识别可以交易的时候,一定要考虑到金融交易的数据特点以及聚类的属性,在对其特点分析的时候,我们通过分析得出,洗钱者的账户是需要输入和输出两个过程,所以可以从这两个方面来考虑,在一段时间当中,流入和流出的金额比较大的账户,就具有洗钱的嫌疑,应当重点怀疑。
在选用该识别流程的时候,应当先对源数据进行分析,看起是否适合聚类分析。比如将身份证号码当作该分析方法中每条交易数据的身份识别码,将年交易的次数以及金额当作聚类分析的属性。在分析的时候,根据每个交易属性的相似程度来进行聚类,但是聚类分析的属性选择必须要正确,为了聚类结果的显著必须要判断每一个属性是否有效用,是否能够有效的满足聚类分析。在一个聚类分析中,所选取的每一个属性都在分析中起到了的作用,那就说明聚类的结果显著;如果聚类过程中,所选取的属性中有一个或者几个没有能够发挥作用,那就说明着个属性,或者几个属性没有相应的聚类属性,那就说明所选取的聚类属性不合适,效果不显著。
五、数据挖掘技术在反洗钱工作中的应用现状
(一)国外的应用情况
发达国家对数据挖掘技术的应用程度很高,并且也有一定的成就,仅建立了专门分析和收集情报的金融情报中心(FIU),而且建立了功能强大的反洗钱
系统:美国金融犯罪执法网络的FAIS(Fin CEN Artificial Intelligence System)系统综合使用了人工智能技术和基于案例的推理、黑板等分析技术,将数据分析视角从交易导向转为对象(如人或者组织)导向,对每一笔交易、对象、账户都用336条规则逐一进行测试,相应每条规则给出是否为合法或非法的判定结果,再用贝叶思推理对每个项目的可疑性进行评定;澳大利亚交易分析和报告中心所开发的Screen IT系统使用数据挖掘技术实现了对可疑交易报告的自动筛选。
(二)、中国的应用情况
数据挖掘技术在我国应用的范围还不是很广,正处于起步阶段,信息技术水平也相对比较低。但是,我国在反洗钱当中数据挖掘技术的应用频率还是很多的,并且也受到了一定的重视,技术水平和理论知识都有很大的提高。目前反洗钱系统中应用的数据挖掘技术主要有:聚类分析、决策树分析、孤立点分析和序列模式分析等以实现对交易数据的分类、关联规则和异常行为等分析。应用手法上主要停留在对各种不同分析技术的简单应用,缺乏综合系统性地应用。
六、结束语
如今,经济水平和科技水平都在不断的提高,洗钱犯罪层出不穷,洗钱者的技术也在不断提高。在这种情况下,我国就要不断加强对数据挖掘技术的研究,将其应用到金融交易的识别过程中,让技术能够与时俱进,才可以抑制金融犯罪的发生。参考文献
[1]苏辉贵.基于数据挖掘的反洗钱系统应用研究[J].华南金融电脑,2009,(3).[2]张成虎,赵小虎.基于贝叶斯分类的可疑金融交易识别研究[J].财经研究,2009,(10).
第二篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世
第三篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第四篇:数据挖掘心得体会
心得体会
这次数据挖掘实验结束了,期间我们小组明确分工并积极去完成,虽然有点辛苦,但我感觉充实而有收获感!
根据老师给的一些资料,我们决定采用SQL Server 2000中的Northwind数据库里的数据作为我们的实验数据。根据表Order Details中的数据,我们分别根据ProductID和OrderID字段,并结合我们规定的最小支持度阀值对数据进行筛选。依次筛选出1项频繁集、2项频繁集和3项频繁集,其中还会使用游标的方式来遍历2项集与3项集的候选集,分别选出2项频繁集和3项频繁集。
由于数据较多,因此过程比较复杂,要编写很多的查询语句,建立许多数据表,包括临时表。开始不知道则操作,但经过我们各自多次重复的建表与查询,逐渐的理解和有了自己的思路。尤其是在运用游标的方法进行遍历这块,因为我们比较陌生而不理解,操作时一时无法实现结果,但经过我们在网上查询了解相关知识,最终得以解决。
经过该次实验,使我对数据库的操作更加熟练,而且还使我对课本上的“挖掘频繁模式”这块知识有了很好的掌握,今后我会多做实验,使我在实际操作过程中学得更好!
第五篇:数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件 9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。
28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市
drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Association rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
48.在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51.所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】