地理学科大数据在本科教学中的挖掘与学习

时间:2019-05-13 01:54:36下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《地理学科大数据在本科教学中的挖掘与学习》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《地理学科大数据在本科教学中的挖掘与学习》。

第一篇:地理学科大数据在本科教学中的挖掘与学习

地理学科大数据在本科教学中的挖掘与学习

摘要:大数据给地理学科带来了机遇和挑战,但是针对地理学科本科教学的大数据挖掘和学习研究相对较少。本文结合大数据概念和地理学科的发展演变,分析了现代地理学的发展趋势,并对大数据在地理学科中的应用列举了最优位置选择、人口流动热力图和人口性别比分布三个具体案例,探讨了地理学科本科教学大数据挖掘和学习的可能。就地理学科而言,多源对地观测数据为其变革提供了数据支持,地理学科的多学科交叉为其提供了技术保障,因此,未来在地理学科大数据本科教学中在研究理论基础的同时,加强案例挖掘和学习,逐步构成了一个成熟的体系。

关键词:地理学科;大数据;挖掘和学习;本科教学

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2018)23-0160-03

一、引言

地理学(Geography)作为一门古老的学科发展历史悠久,曾被誉为科学之母。在人类了解和掌握我们居住的地球发生过的自然现象和人文历史的时空变化,并在分析自然和人文之间的相互关系中具有重要作用。从地理学演变的历史过程来看,古代地理学主要研究地球形状以及其距离大小的测量方法,或对人类居住或活动的区域和国家进行描述,现代地理学已演变为一门涉猎范围广泛的学科,大到地球表面的各种现象的时空变化,小到人类居住区的格局分析,等等,因此地理学家需要熟悉多种学科,例如生物学、社会学、地球物理学等。在广义的学科分类中,地理学一般分为自然地理学、人文地理学和地理信息系统三个分支。其中,自然地理学的研究重点是地貌、土壤等地球表层自然现象和自然灾害,土地利用与覆盖以及生态环境与地理之间的关系;人文地理?W研究的重点是历史地理学、文化与社会地理学、人口地理学、政治地理学、经济地理学和城市地理学;地理信息系统则是计算机技术与现代地理学相结合的产物,采用计算机建模和模拟技术实现地理环境与过程的虚拟,以便于对地理现象直观科学的分析,并提供决策依据。

当今地理学学科内部呈现明显的破碎化、离心化趋势,也有学者批评当今地理学面临着自然地理破碎化、人文地理经济化与社会化和地理信息科学信息技术化的危机[1,2]。传统地理学中“区域性”与“综合性”的学科特色与优势遭到了忽视与弱化,并且当今地理学面对的科学与社会问题越来越复杂,地球表层系统作为地理学研究的核心对象,受人类活动扰动和改造的影响越来越显著,地理学科在研究方法或者研究手段上越来越受到其他学科的影响和制约[3,4]。例如在研究沙漠化现象中经常将沙化的原因归咎于干旱,综合研究指出沙漠化是因过度放牧、农业过度扩展和毁林造田而加剧的,而沙漠化表征的诸多现象是由其他学科鉴定的,例如过度放牧和农业扩展由农业科学负责,毁林烧柴则由环境科学负责,等等。而地理学在此的任务是调查研究其分布模式、地域配合、联结各组成部分的网络以及其相互作用的过程。因此,在研究地球表层系统的过程中跨学科的综合与协同研究成为地理学未来发展的方向。

“大数据”是自2013年以来兴起的一个热潮,相信在未来的几十年里,大数据将会是个重要话题,无论是对于个人还是对于国家。大数据的发展会冲击着许多行业,包括经济、环保、医疗、旅游等。一时间3V或者4V理论风靡全球,海量、多样、高速、价值(Volume数量,Velocity速度,Variety种类)这四个词概括了大数据区别于传统数据的几个典型特征。卫星、无人机等测绘手段,为地理学带来了海量的大数据。大数据是快速数据,通过各种传感器网络,甚至可以提供实时亚米级影像。面临大数据的冲击,在地理学科中如何应对是亟待深入研究和探讨的问题。笔者结合地理学科的传统研究思路和具体应用,从大数据的挖掘与分析入手,简要分析了如何在地理学科本科教学中进行大数据的应用挖掘和学习。

二、大数据与地理信息结合

海量数据的分析与应用,使得人们对于数据的要求从精确性的苛求转向数据的多元性和交叉性的需求。人们对于事物之间相关性的认识比对于事物之间的因果关系更加显得需求迫切。利用地理数据进行商业选址和消费者分类服务在全球发达国家已经得到了普及,但是在中国尚未得到大范围的推广应用[5,6]。精准的地理服务在中国将会有更大的需求和市场,例如肯德基、星巴克等全球连锁公司等专门成立了商业地理分析团队,帮助其在中国的店铺进行选址。另外,可以构建数据分析中心,进行地理数据的深度挖掘,从而寻找对企业有利的信息,提升企业的利润。例如现在蓬勃发展的物流行业,众多物流公司均加大对数据分析方面的投入,将大数据作为战略资源,深度分析客户需求,进而调整公司的运营策略,在公司战略规划、运营模式等方面做出合理部署。可以想象在未来,大数据不仅会在地理信息行业得到飞速发展,同样在需要与大数据进行关联的其他行业应用也会越来越广泛。

三、案例分析探讨

对于地理学科来说,多源对地观测数据为其学科的变革提供了数据支持,而地理学科的多学科交叉属性为其提供了技术支撑。未来在地理学科大数据本科教学中在研究理论基础的同时,加强案例挖掘和学习,逐步构成一个成熟的体系。因此,本文选择以下三个案例进行了探索,以期为地理学科大数据在本科教学中的挖掘和学习提供一定的借鉴。

1.最优位置选择。在地理信息具体应用中科学选择最优位置是现代商业的关键所在,只有把对的商品放在对的位置上才能获取最大的商业利润。在地理类专业本科教学中可以增加大数据在最优位置选择的商业案例进行分析。

具体案例:现有一家股份制商业银行,该银行需要对未来中国西部某二线省会城市的网点开设方案进行规划。其要求是网点必须开设在银行顾客集中的区域,以方便银行业务的办理,同时需要避开其他银行过度竞争的区域来保证本银行的生存和发展前景。

案例分析:最优位置的选择是商业地理分析最常见的案例。对于某个特定的地点是否复合商业利益,进行现场调查是传统的方法也是最笨的方法,但是这种方法耗时耗力,对于面积人口较大的城市选出其中的重点区域,需要大量的人力、物力和财力,凭借小团队的有限知识远远不够,因此就需要大数据来帮助完成这个任务。基本方案是利用该城市的矢量地图,同时加载信息更多更丰富的经济、人口等基础地理数据,借助地理信息系统(GIS)和遥感(RS)来实现定性和定量的分析,可以建立适当的模型帮助我们在合适的城市区域内选择最优位置。

具体步骤:首先,目的是为了帮助银行挑选最有利的位置,可以从街道和临街商铺以及商业CBD等可能的位置进行初步分析。综合该城市的市区超过100个接到的常驻和流动人口统计数据、人口的收入数据、受教育程度的数据,包括分区内其他银行的分布网点位置以及营业年限,其他大型商业聚集区的辐射程度等地理数据,将市区按街道分区重新划分为核心区、缓冲区和边缘区三个大类,新设的银行网点应优先考虑核心区。其次,按照建立的模型对数据进行收集,根据不同街道分区的特征和商业信息的分布与聚集以及?射度进行赋值,最终得到分区的最后得分,根据得分结合该城市市区已建在建/筹建楼宇列表选出网点的最优位置。

2.人口流动热力图。2014年春节期间,百度地图推出了一个基于手机定位可视化数据而制作的国内城市间人口流动实时地图。春运是短时间内极大规模的人口迁徙行为,而流动人口所携带的手机如果开启了定位功能,那么这些定位数据反馈到计算平台,就可以相对准确和及时地表现出地图上任何一个地区人员的迁入与迁出状况。

案例设计:通过定位数据的分析,可以分析一天内某一地区人口密度的变化。以西安大雁塔地铁站为例,如果把每一个进出站、开着手机定位的人作为一个标注点,那么点的密度与实际人数成正比。如果把手机定位的海量数据扩大到更大的范围,比如说一座城市,就可以从中读出更多的信息,如分析哪个商圈在哪些时间段人流量大等。大数据对于商业区的宏观规划以及商家对于店铺位置的选择有着重要的参考价值。

案例分析:在当今的信息社会,人们已经习以为常地用电子地图去查找商场与酒店。利用大数据制作的景区热力图,利用得到的实时人流数据,动态地展现人群的分布。而这些实时、动态的地图可以帮助我们优化空间路线、识别潜在危险等。因此在未来本科教学中,可以从制图、信息实时集成、使用等角度展开挖掘。当然,要想更加精确、及时地在地图上呈现出某些信息,除了深度挖掘数据,还需数据分析的模型,对收集和运算的不同数据源进行叠加和融合,进而将深层次的信息准确地呈现和预测出来。

3.人口性别比分布。大数据往往存在不均匀、不规则分布的特征。资源与人口分布的不均衡,使得不同地区的各种指标存在着或大或小的差异。例如,一直困扰我国的男、女比例失调的问题已经影响到社会的稳定和经济的可持续发展,因此我们可以利用大数据来分析未来人口性别的平衡图。

案例应用:以往类似的性别比例分布图已有专家或学者做过,比如有学者利用2000年第五次全国人口普查公布的数据制作了全国人口普查中各区县1―4岁儿童的男、女比例分布图,我们可以从中提取某个省份的数据,例如陕西省在1―4岁的人口中,30%的区县男、女比例超过了1.4,那么17年后现如今的性别比例图是怎样的呢?是否可以利用相关的大数据进行分析是此案例分析的要点。

四、讨论

地理学经过了漫长的发展历程,而且地理学研究的领域相当广泛,上至无穷的太空,下至人类所能探测到的最深的地底,都是地理学的研究范围,因此,现代地理学的发展往往与多学科交叉,正是这样一个互相交叉、互相联系的地理领域构成了一个复杂的系统,这个复杂的系统往往与人们的生活息息相关。随着大数据概念的提出以及地理大数据的不断挖掘,需要在地理相关专业本科教学中开展大数据的挖掘和学习[7,8]。当前,地理学科的大数据来源广泛,包括测绘地理信息数据,比如各类的矢量图、DEM、多分辨率的遥感影像等对地观测数据,虽然经过了多年的发展,但是对地理学科大数据的应用和智慧发展仍然有相当大的差距,需要对地理学科的大数据进行更加深入和广泛地挖掘和学习。

参考文献:

[1]甄峰,王波.“大数据”热潮下人文地理学研究的再思考[J].地理研究,2015,34(5):803-811.[2]甄峰,秦萧,席广亮.信息时代的地理学与人文地理学创新[J].地理科学,2015,35(1):11-18.[3]吴志峰,柴彦威,党安荣.地理学碰上“大数据”:热反应与冷思[J].地理研究,2015,34(12):2207-2221.[4]杨振山,龙瀛,Douay N.大数据对人文――经济地理学研究的促进与局限[J].地理科学进展,2015,34(4):410-417.[5]秦萧,甄峰,熊丽芳,等.大数据时代城市时空间行为研究方法[J].地理科学进展,2013,32(9):1352-1451.[6]柴彦威,龙瀛,申悦.大数据在中国智慧城市规划中的应用探索[J].国际城市规划,2014,29(6):9-11.[7]DeLyser D,Sui D.Crossing the qualitative-quantitative divide II Inventive approaches to big data,mobile methods,and rhythm analysis[J].Progress in Human Geography,2013,37(2):293-305.[8]Mayer-Schonberger V,Cukier K.Big data:a revolution that will transform how we live,work and think [M].London,UK:John Murray Publishers,2013.

第二篇:关于数据挖掘在出口退税中的应用

关于数据挖掘在出口退税中的应用引言

出口货物退(免)税,简称 出口退税,其基本含义是一个国家或地区对已报送离境的出口货物,由税务机关将其在出口前的生产和流通的各环节已经缴纳的国内产品税、增值税、营业税和特别消费税等间接税税款退还给出口企业的一项税收制度。出口退税 主要是通过退还出口货物的国内已纳税款来平衡国内产品的税收负担,使本国产品以不含税成本进入国际市场,与国外产品在同等条件下进行竞争,从而增强竞争能力,扩大出口创汇[1]。

我国从1985年开始,全面地实行了 出口退税 政策,并从1995年开始全面实行电子化管理,它是全国税务系统第一个全面推广应用的税收管理软件,是金关工程和金税工程的一个子系统,在强化出口退税管理,提高出口退税工作效率,防范和打击骗税上发挥了巨大的作用[2]。但是,目前的出口退税电子化管理只完成了出口退税业务的电子化操作,还未在决策的电子化方面取得较大进展。经过十多年的发展,积累了大量涉税信息,如何将这些“历史的、静态的”数据变成动态的、具有分析决策性质的信息已成为当前急需研究的课题[3],数据挖掘技术的出现使这种应用成为现实。出口退税数据挖掘的目的和基本方法

现行的出口退税电子化管理主要是通过出口企业把申报退税的信息通过出口退税申报系统录入计算机并生成申报数据,然后再经过出口退税审核系统把企业申报的出口退税凭证的电子信息与税务机关接收到的其他部门(征税机关、海关 和外管)传来的凭证信息进行比对,以达到审核出口退税凭证的合法性和真实性的目的,进而根据比对审核通过的数据进行退税。可以看出,目前的出口退税电子化管理只侧重了出口退税的 单证 信息的计算机审核,而对于挖掘审核通过的 单证 信息和各部门传递来的电子信息的价值方面存在着很大的不足。随着金税二期网络建设的推动,各省现已基本实现了出口退税数据的省级大集中[4],这些数据都是各出口退税部门在日常的业务审核中积累下来的数据,十分宝贵,如何充分发挥其应有的作用,已成为人们研究的热点。1

数据挖掘的目的就是分析出口企业的出口退税数据,挖掘这些数据与经济的内在联系,全面掌握本地区出口退税的产品结构、出口的贸易方式、出口产品的地区差异等,对于调整一个地区的产业结构、经济发展方向以及制定经济发展战略有着重要的参考价值;对于税务机关掌握出口企业的实际生产出口情况,培养税源,打击偷税漏税和防范出口骗税等方面有着重要的意义。

对于出口退税部门在日常的业务审核中积累下来的数据进行挖掘,主要是指在了解和掌握具体纳税人生产经营情况和财务数据的基础上,对纳税人的税收经济关系和税收缴纳状况进行客观评价和说明的分析,主要是通过对历史数据进行纵横比较分析和逻辑关系稽核来进行挖掘,以指导税收管理工作。

1)横向比较分析

横向比较分析是指同一指标在不同个体、单位、地区之间的比较分析。横向比较分析最典型的分析例子就是同业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。总结这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

2)纵向比较分析

纵向比较分析或历史数据分析是指同一个体的同一指标在不同历史时期的数据比较分析。常用的分析方法有趋势分析和变动率分析。分析的理论依据是大多情况下企业的生产经营是处于一种相对平稳的状态,不会出现突然的波动或大起大落现象。因此,如果企业生产能力没有作大的调整,一般情况下企业各个时期的数据指标彼此接近,不会出现大的差异。如果出现较大差异,应引起主管部门的注意,及时进行相关的纳税评估。

3)数据逻辑关系稽核

受会计核算原理的约束和税收制度规定的制约,反映纳税人生产经营情况和财务状况的众多数据指标之间存在非常严谨的、相互依存的逻辑关系。这种逻辑关系决定了企业的纳税申报数据必须满足企业财务数据相关性的特定要求,检查这些数据逻辑关系是否吻合,可以鉴别企业申报数据的真实性和合理性,从而发现税收问题,堵塞征管漏洞。出口退税数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能:

1)趋势预测

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。出口退税数据挖掘的预测趋势是对纳税人特定税收指标、经济指标或税收经济关系指标一段时期走势和趋向的分析和推断,了解和掌握税收经济的发展趋势,有利于判断未来出口退税形势的好坏,使出口退税做到心中有数。

趋势预测的两个基本要求是说明特定指标的发展方向和变化幅度,基础分析技术是时间序列分析技术,常用说明指标有变动率和平均变化速度等。

2)关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

在出口退税评估工作中,可以利用企业财务报表、纳税申报表和出口退税汇总表等各项数据指标之间的相互逻辑关系进行核算检查,对于不满足应有逻辑计算关系的内容,即认为破坏了会计核算或税款计征关系,均应视为异常做进一步的深入分析。由于企业财务指标和出口退税申报数据有上百条之多,所以与此相关的逻辑计算关系也会在此基础上更为丰富和复杂,只有通过关联分析,才有可能在出口退税申报环节实现实时的出口退税评估工作。

3)聚类分析

聚类分析是数理统计的一个分支,是运用事物本身所具有的某种数据特征,遵循“物以类聚”规律进行数据处理,为事物的分类管理提供数据支持的一种分析方法。借用这种方法开展税收分析,可将具有某种税收共同特征的事物聚集在一起,使我们更清楚地认识税收征管工作的分类特征。

聚类分析的基本原理是根据数据指标差异的绝对距离进行分类,结合矩阵分析技术,可以进行多指标的综合特征分析,为复杂事物的分类提供了一种可行的分析方法。聚类分析的关键是找到一组关系密切的相关指标,如退税增长、税源增长、退税变化弹性和出口影响等,均可以利用这一分析技术进行综合分析和技术处理。

4)差异分析

数据库中的数据常有一些异常记录,从数据库中检测这些差异很有意义。差异包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

差异分析的基本方法是测算不同样本同一指标的差异程度。差异分析的关键是建立评价差异的标准,有了标准才能说明差异的影响程度。表示差异程度可以用绝对值,也可以建立参照系用相对值。应用差异分析开展微观税收分析的典型分析案例就是同业税负分析模型。应用同业税负分析模型可以测算出各项相关指标的客观水平和样本离散状况,以此为标准比对个别检验样本的具体数值,超出差异允许界限的即为预警对象。

5)波动分析

波动分析是描述税收事物运行变化平稳性的分析。税收事物的运行受经济变化影响、税收制度规定的约束和现有征管环境制约有其自身客观的规律。在经济

运行相对平稳、税制不变的条件下,税收事物运行平稳与否,直接反映税收征管情况的影响作用。因此,开展波动分析,一定程度上可以了解和说明退税管理的表现,反映退税管理是否能按税源的发展变化规律同步开展,监督退税管理的执行情况。出口退税数据挖掘的实现

出口退税数据挖掘应用系统由三部分组成:第一部分是由用户数据源到中央数据库的ETL过程;第二部分是根据出口退税业务模型建立业务智能分析模型;第三部分是面向税收管理人员进行数据的发布和多维分析工作。基本结构如图1所示。

数据的ETL(Extract-Transform-Load,数据抽取、转换、装载)过程采用微软的SSIS(SQL Server Integration Services)来完成数据预处理阶段对于原始数据的转换、清洗加载过程;中央数据库采用微软的SQL Server 2005,SQL Server 2005除了提供一个安全、可靠和高效的数据管理平台之外,它还是一个企业级数据整合平台,通过SSIS提供了构建企业级ETL应用程序所需的功能和性能,是一个集成的商业智能平台,通过Analysis Services提供了统一和集成的商业数据视图,可被用做所有传统报表、OLAP分析、关键绩效指标(KPI)记分卡和数据挖掘的基础。

SQL Server 2005分析服务提供了数据挖掘服务,支持集成其它个人或者企业的DM算法,并且将DM算法集成的复杂度不断降低,它主要是基于OLE DB for DM规范,使用灵活。开发人员能够利用数据挖掘功能开发应用程序,其数据挖掘语言非常类似于SQL,数据挖掘供应者是一个开放系统,因为它是OLE DB的一个部件,数据挖掘服务能够通过DSO(Decision Support Object)、或ADO可包含在任何用户应用程序中。将DM算法无缝集成到SQL Server的分析服务中,利用集成的DM算法来构建数据挖掘解决方案是一种理想的方式。

在SQL Server 2005数据挖掘平台中,创建关系型挖掘模型的语法如下:

Create mining model()using

它类似于建立一个关系表,其中包括输入、预测属性,每一个模型与一个数据挖掘算法相关联。

多维数据分析工具和报表工具使用统一空间模型UDM(Unified Dimensional Model),利用UDM中对业务实体的友好描述、等级导航、多视角、自动平滑 翻译 为本机语言等功能,可以实现出口退税数据挖掘过程中所得到的结果集的友好展示。结束语

随着数据仓库技术的发展,数据挖掘会越来越发挥其独到的分析优势,特别是将挖掘出的新知识通过用基于OLAP的决策支持系统加以验证、结合,可以更好地为决策者服务。出口退税管理的电子化系统已经积累了大量的业务数据,可以为数据挖掘提供大量数据,数据仓库和数据挖掘技术在收税管理具有广阔的应用前景。

第三篇:数据挖掘在房地产营销中的应用

文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类

一、房地产行业需要数据挖掘技术的支持

随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。

数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。

二、数据挖掘在房地产行业的应用

1.数据挖掘的概念

对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。

数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。

数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:

(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。

(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”

(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。

(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。

(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。

2.数据挖掘的市场研究价值

数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:

(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。

(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。

(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。

(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。

目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。

3.数据挖掘在房地产客户研究中有着广泛的应用

房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。

对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:

4.明确商业目标

三、如何在房地产行业应用数据挖掘技术

应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。

5.数据准备

基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。

如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。

很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。

处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。

6.建立模型

建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。

一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。

接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。

大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。

7.输出结果的评价和解释

模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。

直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。

8.实施

模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。

在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。

四、应用举例:基于客户分类的关联分析

1.商业目标

为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备

本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。

3.建立模型

(1)对数据进行分类

本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。

案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。

(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:

注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。

b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。

c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。

d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。

上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:

关联规则A1:地理位置无关型客户=≥重视物业管理

支持率=9.7% 可信度=30.3% 兴趣度=2.4与

关联规则B1:重视物业管理 =≥地理位置无关型客户

支持率=9.7% 可信度=76.9% 兴趣度=2.4

对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。

其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。

需要说明:

a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。

b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。

c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。

五、房地产行业数据挖掘的应用前景

随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:

1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。

2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。

第四篇:浅谈数据挖掘技术及其在高等学校教学中的应用教育论文

关键词:数据挖掘 高校教学 教育信息化

摘要:数据挖掘技术目前在商业、金融业等方面都得到了广泛的应用,而在教育领域应用较少。本文通过时数据挖掘在高校教学中的应用分析,认为数据挖掘技术可以帮助教学人员合理安排教学工作,协助辅导员对学生的管理,对提高学校的教学管理水平起到指导作用。

1引言

随着12世纪信息化时代的到来,整个社会的信息总量呈几何级数迅速增长,人们利用信息技术生产和搜集数据的能力大幅度提高,积累的数据越来越多,但缺乏挖掘数据中隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象。随着数据库技术的成熟和数据应用的普及,在过去的若干年中,人们积累了大量的数据资料,但数据库中隐藏丰富的知识及有价值信息远远没有得到充分地发掘和利用,随着数据量以指数速度激增,人们渴求从数据汪洋中出现一个去粗存精、去伪存真的技术,越来越希望系统能够提供更高层次的数据分析功能,从中找出规律和模式,帮助决策者发现数据间重要但被忽略的因素,从而更好地支持决策或科研工作。正是为了满足这种要求,从数据库中发现知识(KDD)及其核心技术—数据挖掘技术应运而生。

2数据挖掘介绍

2.1概念及其特点

数据挖掘(DtaaMniing)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的但又潜在有用的信息和知识的过程,提取的知识表示为概念、规则、模式等。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。

数据挖掘有以下特点:(1)能发现反映系统局部特征和规律的模型;(2)自动趋势预测,能发现“新”的知识;(3)比较容易获得很多规则,并能及时更新。数据挖掘方法具有开放性思维方法,它可以及时借鉴和引用模型法的很多成果,比如神经网络、粗糙集、朴素贝叶斯算法等方法都已被利用在数据挖掘方法中。

2.2数据挖掘目的及其过程

2.2.1目的数据挖掘期望发现的知识有如下几类:(1)反映同类事物共同性质的泛化知识;(2)反映一事物和其他事物之间依赖或关联的关联型知识;(3)分类、聚类知识,是反映同类事物共同性质的特征型知识和不同事物之间的差异型知识;(4)根据历史和当前的数据推测未来的预测型知识。

2.2.2挖掘的过程

挖掘过程是从大型库中挖掘未知的、有效的、可实用的信息,并使用这些信息做出决策。通常可以分为准备、数据挖掘、评价阶段以及运用阶段等四个阶段。

(1)数据准备阶段。数据准备阶段是消除数据噪声和与挖掘主题明显无关的数据,完成对数据的筛选、变换和预处理。经处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:①数据的选择:选择相关的数据;②数据的预处理:消除噪音、冗余数据;③数据的推测:推算缺失数据;④数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等;⑤数据的缩减:减少数据量。

(2)挖掘阶段。该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。

(3)评价阶段。在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,因此需要评估,确定有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。如何将挖掘出的有用知识清楚易懂地提供给教育和管理工作者也是一项非常重要的工作,选择合适的可视化工具,将结果以关系表或用量化特征规则表示给用户。

(4)运用阶段。用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。

2.2.3数据挖掘的方法

在数据挖掘算法的理论基础上,数据挖掘中的常用方法有:①生物学方法,包括人工神经网络、遗传算法等;②信息论方法包括决策树等;③集合论方法包括约略集、模糊集、最邻近技术等;④统计学方法;⑤可视化技术等方法。数据挖掘的各类算法包括预测模型、关联规则挖掘算法、分类规则挖掘算法、序列模式分析算法、聚类分析算法、WEB数据挖掘等。

3数据挖掘在高等学校教学中的应用

3.1学生的基本信息

利用数据挖掘技术,比如可以对学生访问情况进行分析,跟踪、了解学生出勤情况。还可对学生年龄等个人情况进行分析,了解学生的组成、结构,为合理地安排课程设置提供依据。通过对学生考试情况的分析,并结合出勤情况,可作为考查学生学习的情况,为合理地评估学生综合素质提供依。对于挖掘出来的规则信息可以利用可视化技术,以图表或曲线等形式提供给教师,以使教师能充分利用学生的问题资源,从而提高教学质量。另外,数据挖掘可以应用于网上的考试系统,对考生情况和他取得的成绩进行挖掘,以帮助教师在以后的教学中更好地让学生掌握知识。

3.2学生的学习特征

学生特征包括两个方面:一是学习准备,一是学习风格。学习准备包括初始能力和一般特征两个方面。学生的初始能力是指学生在学习某一特定的课程内容时,已经具备的有关知识与技能的基础,以及他们对这些学习内容的认识和态度。学生的一般特征则是指在学习过程中影响学生的心理、生理和社会的特点,包括年龄、性别、年级、认知成熟度、智力才能、学习动机、个人对学习的期望、生活经验、文化、社会、经济等背景因素。学生的学习风格与学习活动有着密切的关系。对学生感知不同事物、并对不同事物做出反应这两方面产生影响的所有心理特征构成了学习风格。

利用数据挖掘功能分析学生特征,并在此基础上组织学习内容、阐明学习目标、确定教学策略、选择教学媒体,为学生创造出一个适合其内部条件的外部学习环境,使有效学习发生在每个学生的身上。

3.3预测学生和教师行为发生

管理信息系统中记录着有关学生与教师在教学中发生的各种教学事故以及典型教学事例等教学运行信息,利用数据挖掘的关联分析与演变分析等功能,寻找师生各种行为活动之间的内在联系。如“当存在A,B时可以推出’C,这样的规则,即当有A行为和B行为发生时,还会有C行为。在教学过程中,如果发现学生或教师已有A,B行为时,马上可以分析其产生C行为的可能性,及时制定策略促进或制止C行为的发生。

3.4合理设置课程

在学校,学生的课程学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系。在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习。另外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩相差有时会很大。利用学校教学数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,就能从这些海量数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因。在此基础上,对课程设置做出合理安排。

3.5评价学生学习情况

学习评价是教育工作者的重要职责之一。评定学生的学习行为,既对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。

特别是对成绩管理数据库进行挖掘,其数据来源于成绩管理数据库,挖掘的任务就是从用户指定的数据库中以不同的角度或不同的层次上采掘出一系列的统计结果,如分布情况、关系,对比、显著性检验等,采掘结果用交叉表,特征规则,关联规则,统计的曲线、图表等表示,所以采用统计分析方法具有简单、方便、直观等优点,最为合适。

因此对学生学习行为和综合素质进行评价,一般采用模糊论中的模糊综合评判及模糊聚类的方法,对评价结果采用了对定性和定量指标加权平均算出综合素质评价得分并排名的方法,而且由于学生综合素质的评价指标是动态变化的,往往选用动态聚类法对评判结果进行动态聚类分析。

3.6评价教学质里

教学评价是根据教育目标的要求,按一定的规则对教学效果做出描述和确定,是教学各环节中必不可少的一环。教学评价可以通过校园网收集学生对任课教师所讲授、辅导课程的意见、评价。有关学生座谈意见、学生打分评价、平时各项教学检查、相应课程期末考试班级成绩汇总等都是教学评价的内容,把这些数据要作为教师教授相应课程的档案数据全部存人数据库。

利用数据挖掘对数据库中有关教学的各项评价进行分析处理,可以确定教师的教学内容的范围和深度是否合适;选择的教学媒体是否适合所选的教学内容和教学对象;讲解的时间是否恰到好处;教学策略是否得当等。从而可以及时的将挖掘出的规则信息反馈给教师,以期更好地提高其教学水平,更好地服务于学生。

4结束语

总之,随着信息量的急剧增长和对信息提取的更高要求,现在我们很难再依照传统方法在海量数据中寻找决策的依据,这就必须借助数据挖掘去发掘数据中隐藏的规律或模式,为决策提供更有效的支持。虽然数据挖掘作为一种工具,它永远也不能替代教师的地位,但是它可以为教师的决策提供科学的依据。数据挖掘技术本身就是人们大量实践的结晶,它为建立传统教学中很难获取或不可能获取的模型提供了捷径。

第五篇:数据挖掘技术在客户关系管理中如何应用毕业论文.

数据挖掘技术在客户关系管理中如何应用

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM 数据挖掘(Data Mining,简称DM,简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不

完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购

买习惯。(2序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下随着购买B商品,来发现客户潜在的购买模式。(3分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用 1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类, 针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失 的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客

(4对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤 1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定

是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓

库,并通过 OLAP 和报表,将客户的整体行为结果分析等数据传递给数据库用户。3.选择合适的数据挖掘工具 如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转 化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联 规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应 用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属 于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量 中发现某些联系。4.建立模型 建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型 的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较 好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通 过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未 来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需 要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最 合理、最适用的模型。5.模型评估 为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模 型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用 户能理解的方式出现,直至找到最优或较优的模型。6.部署和应用 将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取 必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用 系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当 的调整,以使模型适应不断变化的环境。参考文献: [1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济 出版社,2002 [2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

下载地理学科大数据在本科教学中的挖掘与学习word格式文档
下载地理学科大数据在本科教学中的挖掘与学习.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    数据挖掘技术在图书采购中的应用初探.专题

    数据挖掘技术在图书采购中的应用初探 湖南理工学院图书馆 张 晖 [摘 要]数据挖掘是一种新的信息技术,在许多行业有着广泛的应用。高校图书馆同样可以成为其应用的一个领域。......

    数据挖掘在企业竞争情报系统中的应用

    数据挖掘在企业竞争情报系统中的应用摘要:本文主要概述了数据挖掘技术的发展历史和研究现状。并将数据挖掘技术在企业竞争情报系统中的应用状况分别从国内和国外两方面作了介......

    数据挖掘在培训管理中的应用论文

    1、引言对很多培养机构而言,目前急需解决的问题主要有:如何根据不同成员需求设置合理的课程、如何通过教学方式提高成员学习积极性、如何提高成员培训效果、如何通过考核检验......

    数据挖掘在体育教学中的应用的价值[样例5]

    数据挖掘在体育教学中的应用的价值 摘 要:进入21世纪以来,体育领域无论是运动训练、临场比赛,或是学校体育、体育管理、体育产业以及全民健身、国民体质调研与优化等,无不与大量......

    数据挖掘技术在信用卡业务中的应用案例分享[五篇模版]

    数据挖掘技术在信用卡业务中的应用案例分享 信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛......

    网对网和Web数据挖掘在搜索引擎中的运用论文(大全五篇)

    摘 要:当今网络信息技术日益发展,传统意义上的搜索引擎更加难以满足广大用户日益增长的信息检索需求。在这种趋势下,智能技术在搜索引擎中的应用显得越来越重要。只有将智能技......

    数据挖掘在图书馆用户资源管理中的应用研究_周倩

    数据挖掘在图书馆用户资源管理中的应用研究 周 倩 (中科院文献情报中心中科院研究生院,北京,100080) 中42%的图书馆采用了数据挖掘技术,而剩余的 58%的还没有采用数据挖掘技......

    数据挖掘在保险精准营销中的应用-开题报告

    全日制工学(工程)硕士学位论文开题报告 课题来源及研究的目的和意义 1.1 课题来源 自选课题 1.2 选题价值及意义 大型的保险公司已将数据挖掘应用到保险业务中,但由于应用在......