第一篇:数据挖掘在体育教学中的应用的价值
数据挖掘在体育教学中的应用的价值
摘 要:进入21世纪以来,体育领域无论是运动训练、临场比赛,或是学校体育、体育管理、体育产业以及全民健身、国民体质调研与优化等,无不与大量数据紧密联系。面对大量的数据,原来的数据库管理方式和数据统计方法已经逐渐不能适应国家提出的“健康体育”、体育竞技人才梯队建设和体育产业发展的需要。而数据挖掘技术正好能满足这一需求,数据挖掘技术将有力地推动体育统计学向前发展。数据挖掘技术可以帮助我们从这些浩瀚的数据中深入寻找到各种因素的相互联系,发现体质健康数据、体育产业数据、运动训练和竞赛数据、体育教学数据等方面一些有价值的规律。因此,在实践过程中,如何应用数据挖掘技术对体育数据进行信息化管理和深层分析,是当前体育科研人员所要研究的一项重要课题,因此本课题具有重要意义。
关键词:数据挖掘 体育教学 教学评价
一、体育教学中的数据挖掘技术研究
近年来,国民体质监测、体育教学训练、竞技、管理数据剧增。体育数据如同矿藏一样,只有通过挖掘和提炼才能变成可用的财富。下面就体育教学领域中使用的数据挖掘技术做简要阐述。
1.关联规则
关联规则是体育教学中使用频率最多,范围最广的数据挖掘技术之一,也可以被广泛地应用于国内外教育教学的决策分析中。运用关联规则的方法可以判定哪一种教学方法适合某类学生或某门课程,从而方便教师进行教学方法的选择,使得分层次教学能够在实践中得到更进一步的应用和实施。
2.分类
分类算法中应用得最多的是决策树算法。决策树是以实例为基础的归纳学习算法。决策树主要用于对离散数据进行分类,在教学方面则能够用来对学生课程的选修、毕业课题的选择、就业等方面进行分析指导。
3.聚类分析
所有物体彼此之间都是相类似的,但又和其他分组里的物体是不同的。在基于教育的数据挖掘中,聚类分析已经被用于根据学生的行为对学生进行分组。例如聚类分析可以用来区分在非活跃的学生中表现较活跃的学生。
4.预测
预测是应用于模型的连续价值函数,也就是预测未知数据和缺失的值。在这个模型中,我们可以推导出许多组合数据的其他一些方面的数据。基于教育的数据挖掘预测可以用来检测学生的行为,预测与了解学生的学习成果。
5.Web数据挖掘
利用 Web 日志挖掘技术进行实例分析,找出访问频度较高的知识点网页,确定学生的兴趣点及知识点中的难点所在。在此基础上,帮助教育者调整教学策略,改善网络教学效果。
二、数据挖掘在体育教学中的应用研究
数据挖掘在体育教学领域中具有非常广泛的应用前景,以下本文详细从体育教学训练、教学评价和教学管理三个方面来详细阐述数据挖掘在体育教学中的应用。
1.数据挖掘在体育教学训练中的应用研究
数据挖掘在体育教学训练中的应用主要表现为对体育教材的选择、体育教学方法的选择、学生特征挖掘和对学生体质状况的预测等。
1.1体育教材的选择
随着科学技术的快速发展,我国体育教学教材由纸质化向电子化转变趋势明显。通过数据挖掘技术对体育教材的合理归类、检索、处理,建立知识体系结构,为体育教材进行体育教材的选择提供参考。
1.2教学方法的选择
教师在教学过程中可以采用多种教学方法来完成教学任务,比如讲授法、讨论法、实验法、计算机辅助教学法、参观法、调查法、实习法等。在通常情况下,可以采取一种或几种方法进行。
1.3学生特征的挖掘
在体育教学中,可以采用聚类分析来帮助教师分析学生初始知识体系、当前知识体系、和目标知识体系,深刻提交学生的生理、心理和社会特征,以便帮助学习修正个人学习行为、提高学习能力、完善个人人格,促进学生各方面素质的全面协调发展。
2.数据挖掘在体育教学评价中的应用研究
数据挖掘技术在体育教学评价中的应用,主要体现在学习评价、课程考核及教学管理评价三个方面:
2.1学生学习评价
对学生的学习评价是体育教师的主要教学工作之一,科学、合理地评定学生的学习行为,应针对学生的日常学习行为、奖惩记录等方面的信息,利用数据挖掘工具进行分析处理,得到对学生客观公正的评价,这样不仅对学生起到信息反馈和激发学习动机的作用,而且是考查学生个别差异,便于因材施教的途径。
2.2课程考核评价
在当前我国应试教育制度下,考试不仅是衡量学生学习工作量、学习能力的好坏,也是知道学生学习和培养终身体育观的内在动力。因此,在收集和整理学生理论知识、运动技能和体育素养等各项成绩的基础上,采用数据挖掘技术发现和抽取隐藏在数据额背后的知识和规律,针对考试内容的难易程度、考试方法的公平程度和考试标准的合理程度等进行预测和及时调整,以更好地体现体育教学考试在检验教学效果、提高教学质量等方面所起到的重要作用。
2.3教学管理评价
利用数据挖掘技术中的DEA系统分析方法可以对体育教学的决策单元做出评价,评估体育教学管理工作的有效性、决策单元管理政策的科学性和训练管理的有效性等,从而指导教学管理单位采取相应的措施来提高体育教学及训练管理工作水平。
3.数据挖掘在体育教学管理中的应用研究
3.1辅助考试
传统的体育考核方式将期末成绩作为评价标准,这对学习者而言往往是片面的、不公平的,利用数据挖掘可以对学生平时学习状况进行综合分析,从而对其进行全面的具有针对性的评价。
3.2科研选题
科研选题是广大体育教学和研究者普遍面临的棘手问题。本研究认为广大体育教学工作者和研究者可以利用数据挖掘技术根据纯数据间的关联性挖掘出潜在、容易被忽视的规则作为潜在的课题研究题项。如运用数据挖掘技术中的关联规则方法在研究学生体质的数据,挖掘出发掘出握力与平衡能力的关系、肺活量与握力间的关系后作为科研选题加以研究验证。
三、结语
总之,数据挖掘的兴起,为体育统计学与体育信息技术的结合带来良好的契机,数据挖掘技术将成为继数学、计算机科学之后,又一推动体育统计学发展的强大工具。但相比于数据挖掘技术在其他领域的应用程度而言,数据挖掘在体育教学领域的研究虽取得了一定的成果,但仍还有很多工作要做。
第二篇:数据挖掘在房地产营销中的应用
文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类
一、房地产行业需要数据挖掘技术的支持
随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。
数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。
二、数据挖掘在房地产行业的应用
1.数据挖掘的概念
对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。
数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。
数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:
(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。
(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”
(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。
(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。
(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。
2.数据挖掘的市场研究价值
数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:
(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。
(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。
(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。
(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。
目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。
3.数据挖掘在房地产客户研究中有着广泛的应用
房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。
对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:
4.明确商业目标
三、如何在房地产行业应用数据挖掘技术
应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。
5.数据准备
基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。
如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。
很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。
处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。
6.建立模型
建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。
一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。
接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。
大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。
7.输出结果的评价和解释
模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。
直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。
8.实施
模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。
在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。
四、应用举例:基于客户分类的关联分析
1.商业目标
为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备
本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。
3.建立模型
(1)对数据进行分类
本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。
案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。
(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:
注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。
b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。
c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。
d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。
上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:
关联规则A1:地理位置无关型客户=≥重视物业管理
支持率=9.7% 可信度=30.3% 兴趣度=2.4与
关联规则B1:重视物业管理 =≥地理位置无关型客户
支持率=9.7% 可信度=76.9% 兴趣度=2.4
对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。
其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。
需要说明:
a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。
b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。
c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。
五、房地产行业数据挖掘的应用前景
随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:
1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。
2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。
第三篇:关于数据挖掘在出口退税中的应用
关于数据挖掘在出口退税中的应用引言
出口货物退(免)税,简称 出口退税,其基本含义是一个国家或地区对已报送离境的出口货物,由税务机关将其在出口前的生产和流通的各环节已经缴纳的国内产品税、增值税、营业税和特别消费税等间接税税款退还给出口企业的一项税收制度。出口退税 主要是通过退还出口货物的国内已纳税款来平衡国内产品的税收负担,使本国产品以不含税成本进入国际市场,与国外产品在同等条件下进行竞争,从而增强竞争能力,扩大出口创汇[1]。
我国从1985年开始,全面地实行了 出口退税 政策,并从1995年开始全面实行电子化管理,它是全国税务系统第一个全面推广应用的税收管理软件,是金关工程和金税工程的一个子系统,在强化出口退税管理,提高出口退税工作效率,防范和打击骗税上发挥了巨大的作用[2]。但是,目前的出口退税电子化管理只完成了出口退税业务的电子化操作,还未在决策的电子化方面取得较大进展。经过十多年的发展,积累了大量涉税信息,如何将这些“历史的、静态的”数据变成动态的、具有分析决策性质的信息已成为当前急需研究的课题[3],数据挖掘技术的出现使这种应用成为现实。出口退税数据挖掘的目的和基本方法
现行的出口退税电子化管理主要是通过出口企业把申报退税的信息通过出口退税申报系统录入计算机并生成申报数据,然后再经过出口退税审核系统把企业申报的出口退税凭证的电子信息与税务机关接收到的其他部门(征税机关、海关 和外管)传来的凭证信息进行比对,以达到审核出口退税凭证的合法性和真实性的目的,进而根据比对审核通过的数据进行退税。可以看出,目前的出口退税电子化管理只侧重了出口退税的 单证 信息的计算机审核,而对于挖掘审核通过的 单证 信息和各部门传递来的电子信息的价值方面存在着很大的不足。随着金税二期网络建设的推动,各省现已基本实现了出口退税数据的省级大集中[4],这些数据都是各出口退税部门在日常的业务审核中积累下来的数据,十分宝贵,如何充分发挥其应有的作用,已成为人们研究的热点。1
数据挖掘的目的就是分析出口企业的出口退税数据,挖掘这些数据与经济的内在联系,全面掌握本地区出口退税的产品结构、出口的贸易方式、出口产品的地区差异等,对于调整一个地区的产业结构、经济发展方向以及制定经济发展战略有着重要的参考价值;对于税务机关掌握出口企业的实际生产出口情况,培养税源,打击偷税漏税和防范出口骗税等方面有着重要的意义。
对于出口退税部门在日常的业务审核中积累下来的数据进行挖掘,主要是指在了解和掌握具体纳税人生产经营情况和财务数据的基础上,对纳税人的税收经济关系和税收缴纳状况进行客观评价和说明的分析,主要是通过对历史数据进行纵横比较分析和逻辑关系稽核来进行挖掘,以指导税收管理工作。
1)横向比较分析
横向比较分析是指同一指标在不同个体、单位、地区之间的比较分析。横向比较分析最典型的分析例子就是同业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。总结这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。
2)纵向比较分析
纵向比较分析或历史数据分析是指同一个体的同一指标在不同历史时期的数据比较分析。常用的分析方法有趋势分析和变动率分析。分析的理论依据是大多情况下企业的生产经营是处于一种相对平稳的状态,不会出现突然的波动或大起大落现象。因此,如果企业生产能力没有作大的调整,一般情况下企业各个时期的数据指标彼此接近,不会出现大的差异。如果出现较大差异,应引起主管部门的注意,及时进行相关的纳税评估。
3)数据逻辑关系稽核
受会计核算原理的约束和税收制度规定的制约,反映纳税人生产经营情况和财务状况的众多数据指标之间存在非常严谨的、相互依存的逻辑关系。这种逻辑关系决定了企业的纳税申报数据必须满足企业财务数据相关性的特定要求,检查这些数据逻辑关系是否吻合,可以鉴别企业申报数据的真实性和合理性,从而发现税收问题,堵塞征管漏洞。出口退税数据挖掘的功能
数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能:
1)趋势预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。出口退税数据挖掘的预测趋势是对纳税人特定税收指标、经济指标或税收经济关系指标一段时期走势和趋向的分析和推断,了解和掌握税收经济的发展趋势,有利于判断未来出口退税形势的好坏,使出口退税做到心中有数。
趋势预测的两个基本要求是说明特定指标的发展方向和变化幅度,基础分析技术是时间序列分析技术,常用说明指标有变动率和平均变化速度等。
2)关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
在出口退税评估工作中,可以利用企业财务报表、纳税申报表和出口退税汇总表等各项数据指标之间的相互逻辑关系进行核算检查,对于不满足应有逻辑计算关系的内容,即认为破坏了会计核算或税款计征关系,均应视为异常做进一步的深入分析。由于企业财务指标和出口退税申报数据有上百条之多,所以与此相关的逻辑计算关系也会在此基础上更为丰富和复杂,只有通过关联分析,才有可能在出口退税申报环节实现实时的出口退税评估工作。
3)聚类分析
聚类分析是数理统计的一个分支,是运用事物本身所具有的某种数据特征,遵循“物以类聚”规律进行数据处理,为事物的分类管理提供数据支持的一种分析方法。借用这种方法开展税收分析,可将具有某种税收共同特征的事物聚集在一起,使我们更清楚地认识税收征管工作的分类特征。
聚类分析的基本原理是根据数据指标差异的绝对距离进行分类,结合矩阵分析技术,可以进行多指标的综合特征分析,为复杂事物的分类提供了一种可行的分析方法。聚类分析的关键是找到一组关系密切的相关指标,如退税增长、税源增长、退税变化弹性和出口影响等,均可以利用这一分析技术进行综合分析和技术处理。
4)差异分析
数据库中的数据常有一些异常记录,从数据库中检测这些差异很有意义。差异包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。
差异分析的基本方法是测算不同样本同一指标的差异程度。差异分析的关键是建立评价差异的标准,有了标准才能说明差异的影响程度。表示差异程度可以用绝对值,也可以建立参照系用相对值。应用差异分析开展微观税收分析的典型分析案例就是同业税负分析模型。应用同业税负分析模型可以测算出各项相关指标的客观水平和样本离散状况,以此为标准比对个别检验样本的具体数值,超出差异允许界限的即为预警对象。
5)波动分析
波动分析是描述税收事物运行变化平稳性的分析。税收事物的运行受经济变化影响、税收制度规定的约束和现有征管环境制约有其自身客观的规律。在经济
运行相对平稳、税制不变的条件下,税收事物运行平稳与否,直接反映税收征管情况的影响作用。因此,开展波动分析,一定程度上可以了解和说明退税管理的表现,反映退税管理是否能按税源的发展变化规律同步开展,监督退税管理的执行情况。出口退税数据挖掘的实现
出口退税数据挖掘应用系统由三部分组成:第一部分是由用户数据源到中央数据库的ETL过程;第二部分是根据出口退税业务模型建立业务智能分析模型;第三部分是面向税收管理人员进行数据的发布和多维分析工作。基本结构如图1所示。
数据的ETL(Extract-Transform-Load,数据抽取、转换、装载)过程采用微软的SSIS(SQL Server Integration Services)来完成数据预处理阶段对于原始数据的转换、清洗加载过程;中央数据库采用微软的SQL Server 2005,SQL Server 2005除了提供一个安全、可靠和高效的数据管理平台之外,它还是一个企业级数据整合平台,通过SSIS提供了构建企业级ETL应用程序所需的功能和性能,是一个集成的商业智能平台,通过Analysis Services提供了统一和集成的商业数据视图,可被用做所有传统报表、OLAP分析、关键绩效指标(KPI)记分卡和数据挖掘的基础。
SQL Server 2005分析服务提供了数据挖掘服务,支持集成其它个人或者企业的DM算法,并且将DM算法集成的复杂度不断降低,它主要是基于OLE DB for DM规范,使用灵活。开发人员能够利用数据挖掘功能开发应用程序,其数据挖掘语言非常类似于SQL,数据挖掘供应者是一个开放系统,因为它是OLE DB的一个部件,数据挖掘服务能够通过DSO(Decision Support Object)、或ADO可包含在任何用户应用程序中。将DM算法无缝集成到SQL Server的分析服务中,利用集成的DM算法来构建数据挖掘解决方案是一种理想的方式。
在SQL Server 2005数据挖掘平台中,创建关系型挖掘模型的语法如下:
Create mining model()using
它类似于建立一个关系表,其中包括输入、预测属性,每一个模型与一个数据挖掘算法相关联。
多维数据分析工具和报表工具使用统一空间模型UDM(Unified Dimensional Model),利用UDM中对业务实体的友好描述、等级导航、多视角、自动平滑 翻译 为本机语言等功能,可以实现出口退税数据挖掘过程中所得到的结果集的友好展示。结束语
随着数据仓库技术的发展,数据挖掘会越来越发挥其独到的分析优势,特别是将挖掘出的新知识通过用基于OLAP的决策支持系统加以验证、结合,可以更好地为决策者服务。出口退税管理的电子化系统已经积累了大量的业务数据,可以为数据挖掘提供大量数据,数据仓库和数据挖掘技术在收税管理具有广阔的应用前景。
第四篇:数据挖掘在企业竞争情报系统中的应用
数据挖掘在企业竞争情报系统中的应用
摘要:本文主要概述了数据挖掘技术的发展历史和研究现状。并将数据挖掘技术在企业竞争情报系统中的应用状况分别从国内和国外两方面作了介绍。同时对数据挖掘技术在企业竞争中的应用的相关经典理论与最新理论作了简要的介绍。
关键词: 数据挖掘;企业竞争情报;知识发现
中图分类号: TP39
21.引言
数据挖掘也称知识发现。数据挖掘是一门不断发展的综合交叉学科,兴起于20世纪80年代末,是当前计算机行业最热门的研究领域之一。数据挖掘理论汇聚了数据库、可视化、并行计算等方面的技术,集统计学、人工智能、模式识别、计算机科学、机器学习等多门学科理论知识为一体。数据挖掘技术从本质上来说是一种新的商业信息处理技术。[1]从商业角度看,数据挖掘技术就是按企业的既定的业务目标,对大量的企业数据进行深层次分析以揭示隐藏的,未知的规律并将其模型化,从而支持商业决策活动。[2]
2.研究历史
2.1 国外历史
从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。[3]
2.2 国内历史
与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。[4]目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。[5]
2.3 重要理论
1997年,Mannila对当时流行的数据挖掘理论的理论框架给出了综述。[6]结合最新的研究成果,有下面一些重要的理论。
模式发现架构理论,规则发现架构理论,基于概率与统计理论,微观经济学观点理论,基于数据压缩的理论,基于归纳数据库理论,可视化数据挖掘理论。这些经典的理论直到今天还是研究的热门。而且也不能算是完善的理论。毕竟数据挖掘的概念的提出不过几十年。Piatetsky-Shapiro说数据挖掘技术在被广泛应用之前,仍然有许多“鸿沟”要跨越,即所谓Chasm阶段。[7]
3. 研究现状
3.1国外研究与应用现状
最近,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。”[8]
据美国《幸福》杂志统计,全球500强企业的前100名企业和美国95%的公司均拥有自己的竞争情报系统,帮助企业根据竞争环境和竞争对手的各种变化,赢得竞争的主动权。根据美国未来集团对世界500强企业的调查统计,竞争情报对企业效益所作的贡献占企业总效益的比率分别是:微软为17%、摩托罗拉为11%、IBM为9%、宝洁为8%、通用电气为7%、惠普为7%、可口可乐为5%、英特尔为5%。[9]
3.2国内研究与应用现状
我国学者对竞争情报的研究始于20世纪80年代末期。当时,上海科技情报所的研究人员在国外进修期间接触到竞争情报的概念,并将其引入到国内,拉开了我国竞争情报研究的序幕。
1991—1994年,中国兵器工业情报研究所牵头进行了一项课题“情报研究的国内外比较研究“,提出了把我国情报研究工作的重点转向竞争情报,推进国家、集团和企业的科技进步,增强它们的竞争力和提高产品与服务的市场占有率方面来的重要对策。1992年中期,上海科学技术情报研究所成立了“市场调研部”,开始进行竞争情报实践的探索。由该所负责的“上海轿车工业竞争环境监视系统”是国内竞争情报领域第一个由政府立项的研究课题,于1992年10月立项、1993年底结束。1994年9月,国家计委、国家科委、国防科工委、北京市政府等部门联合召开了“全国竞争情报与企业发展研讨会”。1 996年,北京市科委将竞争情报软科学纳入“北京市工业振兴计划“中。作为四个示范工程之一,“北京市竞争情报示范工程”由兵器信息研究所、航天信息研究所具体承担。示范工程以中介组织与企业合作的方式开展,在电子,电器、医药、化工、纺织和烟草等行业中选择不同盈利状况的企业,共计8个项目,主要研究竞争情报系统(cis)的数据库设计报系统、网络设计等,至1999年10 月己完成了6个并通过验收。1999年年中,北京市科委决定成立“北京市竞争情报咨询服务中心”,以“北京市竞争情报示范工程”的主要承担单位航天信息研究所为依托单位,“在北京市企业开展竞争情报的推广工作,培养一批竞争情报研究专家,帮助企业开展竞争情报研究,建立符合企业实际的竞争情报组织体系,为企业科学决策提供依据”。进入2l世纪,我国的海尔、康佳、创维等大型企业集团分别在美国、印度、墨西哥设立了其海外工厂,竞争情报的应用为他们开拓海外市场起到事半功倍的作用。在国内已经有一些大中型企业开始接受外部咨询公司的服务,并着手建设自己的竞争情报体系。包括医药行业的:三九医药、哈药三厂、六厂、上海罗氏、西安杨森、同仁堂等;百货行业的:西单商场、武汉中商;金融行业的:深圳发展银行、上海浦发银行、中国民生银行等企业。2000年12月,由中国兵器工业第二一零研究所牵头,北京大学信息管理系、中国科技信息研究所和北京牡丹电子集团参与的一项国家自然科学基金会项目“企业竞争情报系统的模式和运行机制研究”结题,在总结国内外经验的基础上,构造了由三个网络、三个系统、一个中心、六大功能构成的企业竞争情报系统,并给出了竞争情报分析方法及其评价指标,详细介绍了竞争对手跟踪、关键成功因素分析、核心竞争力分析和多点竞争分析方法以及计算机技术在竞争情报分析中的应用。目前,国内市场上已出现了专业的竞争情报系统产品。2002年8月下旬,百度公司正式发布了业界首例企业竞争情报系统,据该公司的宣传材料称,名为e.CIS的百度企业竞争情报系统集情报计划、采集、管理和服务为一体,能够帮助企业对整体竞争环境和竞争对手进行全面监测,同时收集和分析商业竞争中企业商业行为的优势、劣势及潜在的机遇,可以由此使企业建立起·个强大的情报中心。竞争情报系统正在以燎原之势迅速发展。虽然竞争情报工作在我国已有相当程度的发展,企业界对竞争情报的认识正在逐渐深化,但是这项很有意义的工作还并没有大范围的推广普及。据“企业竞争情报系统的模式和运行机制研究”课题的一项以竞争情报分会会员为样本的调查显示,在调查对象中,只有18.75%的企业拥有竞争情报部门,并且已经建立了正规化的工作流程与情报网络。在27.78%的企业中,竞争情报工作只具有图书馆功黥没有建立正式的竞争情报流程或网络。而高达53.47%的企业处于正在建立正式的竞争情报组织与网络的发展过程中。但同时,竞争情报流程己制度化,拥有世界范围网络,并具有相当反应能力的企业数则为零,这说明我国多数企业竞争情报工作尚处于发展中,我国竞争情报事业的发展任重道远引。[10]
3.3目前的研究方向与重要理论
数据挖掘技术与特定商业的平滑问题。商业逻辑有机地嵌入数据挖掘过程等关键问题,将是数据挖掘技术研究和应用的重要方向。数据挖掘技术与特定数据存储类型的适应问题 不同的数据存储方式会影响数据挖掘的具体实现机制,目标定位,技术有效性等。大型数据的选择与规格化问题。数据挖掘技术是面向大型数据集的,而且源数据库中的数据时动态变化的,数据存在噪音,不确定性,信息丢失,信息冗余,数据分布稀疏等问题,因此挖掘前的预处理工作是必须的。数据挖掘技术又是面向特定商业目标的,大量的数据需要选择性的利用,因此针对特定挖掘问题进行数据选择,针对特定挖掘方法进行数据规格化是无法回避的问题。数据挖掘系统的架构与交互式挖掘技术。数据挖掘语言与系统的可视化问题。数据挖掘理论与算法研究。[11]
4.结语
当前商业竞争异常激烈,企业迅速掌握有效的信息非常重要。数据挖掘技术在企业竞争情报系统中的应用使得企业从海量信息中彻底解放出来。当前数据挖掘技术正在快速发展阶段,它对企业方方面面的价值日渐凸显。相关专业人士应该充分关注当前最新的发展理论。
参考文献
[1] 毛国君,段立娟,王实,石云.数据挖掘原理与算法(第二版)[M].北京:清华大学出版社,2007.[2] 毛国君.数据挖掘的概念﹑系统结构与方法[M].北京:清华大学出版社,2009.[3] 百度空间:数据挖掘[EB/OL].[2011-12-25]
[4] 洪家荣.空间数据挖掘和知识发现的理论与方法[M].北京:人民邮电出版社,2001.[5]邵峰晶,于忠清.数据挖掘原理与算法[M]北京:中国水利水电出版社,2003.
[6] 陈敏.数据挖掘技术在商业中的应用研究[M].上海:上海科学技术出版社,2005.[7]苏新宁杨建林等.数据仓库和数据挖掘[M]北京:清华大学出版社,2006:60—63.
[8] 百度百科:[EB/OL].[2011-12-25].[10]刘晓燕,单晓红.数据挖掘在竞争情报系统中的应用[J].管理学报,2009,2(2):1 29—1 30
[11] 史忠植.知识发现[M].北京:清华大学出版社,2010.
第五篇:数据挖掘在培训管理中的应用论文
1、引言
对很多培养机构而言,目前急需解决的问题主要有:如何根据不同成员需求设置合理的课程、如何通过教学方式提高成员学习积极性、如何提高成员培训效果、如何通过考核检验成员学习成果等,都是培养机构发展过程中必须面对的问题。随着我国信息化进程的加快,一些培养机构也开始进行信息化建设,通过信息系统对培训相关事宜进行管理。但目前在针对培养机构的信息系统中,所实现的功能和模块是进行简单的查询、统计。在了解培训评估效果时,目前的信息系统中,学员通过系统对不同课程的教师进行打分,系统自对进行汇总、统计,得出教师评价。但这种汇总、统计是最简单的,对教师评价也缺乏全面性和深度。
2、数据挖掘在培训管理系统中的应用
大数据时代下,数据信息呈现出海量特点。如何从海量、不完全的信息中寻找到真正有用的信息,是大数据时代中重要的问题。由此便利用到数据挖掘,顾名思义,数据挖掘就是从众多数据信息中寻找到有用、有价值的信息。大数据时代下,教育行业中,信息量也是海量的,要想提高教学质量就需要运用数据挖掘找寻到有用的教育信息,并运用到实际教学中。信息系统通过一段实际应用后,里面存储了大量数据,相应的,学习管理系统也是如此,里面蕴含了大量数据信息。如在线课程等功能中藏有大量师生应用过程中的数据资料。如图1为数据挖掘在培训管理中的流程图。
2.1初步探索
培训管理系统中一般具有数据统计功能,将相关事宜进行统计。如网络课程开展过程中,数据挖掘在培训管理系统中的应用文/张宏亮在大数据时代,如何使用现有的数据对学员进行培训管理,从而提高培训效率是当前培训管理中所面临的问题。本文分析了数据挖掘在培训管理中的应用主要表现在初步探索、数据预处理以及数据挖掘过程。其中数据预处理和数据挖掘是培训系统的核心功能。
2.2数据预期处理
数据预处理时,原始数据库会发生转变,以适应数据挖掘、数据挖掘算法等的要求。在处理结构化的数据时,数据预处理需要完成两项任务,即消除数据缺陷现象的存在和为数据挖掘奠定良好基础。数据处理是对现有的数据进行前期处理,方便后期数据挖掘。如图2为培训管理系统中数据预处理模块。
2.3数据挖掘
WangJ开发了一个将数据挖掘技术与基于模拟的培训相结合的混合框架,以提高培训评估的有效性。以信仰为基础的学习概念,用于从知识/技能水平和信心水平的两个维度来评估学员的学习成果。数据挖掘技术用于分析受训人员的个人资料和基于模拟的培训产生的数据,以评估学员的表现和学习行为。提出的方法论以台湾基于模拟的步兵射击训练的实例为例。结果表明,提出的方法可以准确地评估学员的表现和学习行为,并且可以发现潜在的知识来提高学员的学习成果。BodeaCN使用数据挖掘技术进行了培训学习管理,用于分析参加在线两年制硕士学位课程项目管理的学生的表现。系统数据来源是收集学生意见的调查数据,学生记录的操作数据和电子学习的平台记录的学生活动数据。
3、总结
目前培训机构在进行教学评估时,所选择的指标都是参考其他机构的,并没有真正从自身实际出发进行评估,因此教学评估时存在诸多问题。其中最明显的两个问题是:第一教学评估方式单一化严重,只以数字评估为主;第二评估时容易受各种主观因素影响。
参考文献
[1]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(07):117-118.[2]王全旺,赵兵川.数据挖掘技术在Moodle课程管理系统中的应用研究[J].电化教育研究,2011(11):69-73.[3]陈怡薇.数据挖掘技术:教育培训管理新手段[J].石油化工管理干部学院学报,2014(04):49-52.[4]肖明,陈嘉勇,栗文超.数据挖掘在学习管理系统中应用的研究进展综述[J].现代教育技术,2010,20(09):127-133.