第一篇:基于股票时间序列数据的关联规则挖掘研究
南昌大学2003级硕士学位论文
文献综述报告
基于股票时间序列数据的关联规则挖掘研究
Study on Mining Association Rules from Stock Time Series Data
系
别: 计算机科学与技术系 专
业: 计算机应用技术 研究方向: 人工智能 研 究 生: 汪廷华 导
师: 程从从(教授)
2005年03月
一.引言
随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(time series)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1],如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。
时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2]。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。
二.股票时间序列传统研究方法概述
随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类[3]:一类是基本分析和技术分析,另一类是经济统计分析。1.基本分析和技术分析
在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4]。
基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。
技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。2.经济统计学分析
主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于[5]:
●分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究; ●预测时间序列的未来发展情况。
传统的时间序列数据分析最基本的理论是40年代分别由Norbor Wiener和Andrei Kolmogomor提出的。20世纪70年代,G.P.Box和G.M.Jenkins发表专著《时间序列分析:预测和控制》,对平稳时间序列数据提出了自回归滑动平均模型(ARMA),以及一整套的建模、估计、检验和控制方法,使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信息会对当前的股票价格产生一定程度的影响。采用的方 1 法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集[6]。
[7]基于股票时间序列是一种混沌时间序列的认知,提出一种新颖的非线性时间序列预测模型,即滑动窗口二次自回归(MWDAR)模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内,系统的行为却可以用某种线性模型近似。[8]则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。
可以看出,经济统计学为问题的探索解决方案提供了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是,在大量数据集中往往存在一些未被人们预期到但又具有价值的信息,人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。
三.数据挖掘技术应用于股票时间序列分析的研究现状
数据挖掘(DM,Data Mining),也称为数据库中的知识发现(KDD,Knowledge Discovery in Database)是数据库技术和机器学习等人工智能技术相结合的产物,是一门新兴的数据智能分析技术[9]。20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(MIS)和网络数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟,导致了“信息爆炸”但“知识贫乏”的现象。到了90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成了数据挖掘技术的诞生。
所谓数据挖掘,简单地说,就是从大量数据中提取或挖掘知识[2];详细一点可以描述为主要利用某些特定的知识发现算法,在一定的运算效率的限制下,从大量的数据中抽取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1.相关技术介绍(1)关联规则挖掘
关联规则是美国IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出来的KDD研究的一个重要课题[10]。关联规则挖掘本质是从大量的数据中或对象间抽取关联性,它可以揭示数据间的依赖关系,根据这种关联性就可以从某一数据对象的信息来推断另一对象的信息。它可以做如下形式化定义:
设I = {i1,i2,...,im}是一组项的集合(例如一个商场的物品),D是一组事务集(称之为事务数据库)。D中的每个事务T是项的集合,且满足TI。称事务T支持物品集X,如果XT。关联规则是如下形式的一种蕴含式:X→Y,其中XI,YI,且X∩Y= 。
(1)称关联规则X→Y在事务数据库D中具有大小为s的支持度,如果物品集X∪Y的支持度为s%,即support(X→Y)=P(X U Y)。
(2)称规则X→Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y,即confidence(X→Y)=P(Y|X)。
从语义的角度来分析,规则的可信度表示这条规则的正确程度;支持度表示用这条规则可以推出百分之几的目标,即这一规则对于整体数据的重要程度。用户可以定义二个阈值,要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的阈值。这样,就用蕴含式、支持度和可信度唯一标识了每一个挖掘出来的关联规则。
已知事物数据库D,关联规则的挖掘问题就是产生支持度与置信度分别大于用户给定的最小阈值的所有关联规则。该问题分两步来求解:第一步是找出事务数据库D中所有满足条件的具有用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项集。第二步是从频繁项集中构造可信度不低于用户要求的规则。形式地,对于每一个频繁项目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf 2(可信度),就生成关联规则a→(A-a)。
识别或发现所有的频繁项集是关联规则挖掘算法的核心,也是计算量最大的部分。目前已有不少挖掘频繁项集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法[11],其核心是利用这样一个性质:频繁项集的所有非空子集都是频繁的。基于这样的先验知识,Apriori使用一种“逐层搜索“的迭代方法,k-项集用于探索(k+1)项集。首先找出频繁1-项集,记作L1;用L1找频繁2-项集L2;而L2用于找L3,如此下去,直到不能找到频繁k-项集。
虽然Apriori算法能最终挖掘出所有的关联规则,但由于处理的数据量非常大,因而算法的效率显得十分重要。后来的一些研究人员对算法的连接和剪枝过程进行各种优化。
如[12]提出了称为AprioriTid的改进算法,该算法提出了在每一步(第一步除外)计算候选频繁项集的支持度时不需要浏览整个事务数据库。它认为不包含任何k-项集的事务不可能包含任何k+1项集,这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们。该算法的本质是压缩进一步迭代扫描的事务数。
而[13]提出的AprioriPro算法,其基本思想与AprioriTid是一致的,也是减少对数据集的扫描,不同的是AprioriPro算法是通过在原有的数据集上增加一个属性,通过这个属性的取值来减少对某些事务的扫描。
[14]是结合Apriori和AprioriTid两种算法,提出了一种混合挖掘算法AprioriHybrid,其基本思想是在扫描的早期使用Apriori算法,当候选模式集中记录条数小到可以放进内存时就转向AprioriTid算法。
这些改进算法虽然比Apriori算法在挖掘效率上有一些提高,但本质上没有什么区别,都要在挖掘过程中生成大量的候选模式集。
“有没有这样的算法,挖掘全部的频繁项集而不产生候选?” 1999年Han等人提出FP-Growth算法[15],以及 Agrawal等人提出的树-投影(Tree Project)[16]关联规则挖掘算法就是这样的算法,它们在性能上均获得了突破,与Apriori算法相比,挖掘效率有了数量级的提高。利用FP-Tree 可以压缩事务数据集,压缩有的达到100多倍;而树-投影方法从原理上讲是适应任何数据集的,无论其据量多大该算法都能有效运行,从而使得关联规则挖掘可以应用于海量数据的挖掘和稠密数据集的挖掘。
除了上述关联规则挖掘的经典算法之外,人们着重在以下几个方面对关联规则进行了研究。
(1)继续通过各种手段提高挖掘效率。这方面包括对原有算法的进一步改进[17,18];提出一些并行挖掘算法[19,20]、增量算法[21]以及带约束的关联规则挖掘策略(元规则制导关联规则挖掘)[22,23]。
(2)不同形式关联规则的研究。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[24],由单层的关联规则扩展为多层次关联规则的研究[25]等等。关联规则形式的多样化,反映了人们从不同角度认识同一事物的不同视点,加深了对关联规则的认识与研究。
(3)结合其它理论(如软计算理论)对关联规则进行研究。引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度[26];通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现[27];还有基于遗传算法的多维关联规则挖掘[28]等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。
(4)关联规则的价值评判标准研究。如[29]分别讨论了关联规则的客观评价指标(支持度、可信度和相关强度)和主观评价指标(新颖性、用户感兴趣性和简洁性),在此基础上给出了一种关联规则的综合自动评价方法。
(5)关联规则的应用研究。理论从实践中来,但最终是为了指导实践。关联规则自提出以来,经过无数学者的研究努力,广泛应用于社会生产和科研的各个方面,产生了巨大的效益[30,31,32,33]。(2)序列模式挖掘
序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出来的[34]。设有一个交易数据库D,每个顾客可在不同时间购买不同物品,每次购买活动称为交易(Transaction)。这里,顾客、交易时间和 3 所购物品分别以Customer_ID、Transaction_Time和Itemset标识。如果以Customer_ID为第一关键字,Transaction_Time为第二关键字对数据库D排序,那么,对每一顾客而言,他进行的所有交易是以交易时间的升序排列的,从而构成一个序列,称这种序列为顾客序列CS(Customer Sequence)。一般地,令某顾客的各次交易时间为t1,t2,t3,„,tn,该顾客在交易时间ti购买的物品集记为itemset(i),于是该顾客的CS序列为itemset(t1), itemset(t2), itemset(t3),„, itemset(tn)。相应地,可以认为上述交易数据库D已转换为顾客序列数据库。如果某序列s包含在某顾客的CS序列中,那么称该顾客支持(Support)该序列s。某序列的支持度为支持该序列的顾客数与顾客序列数据库中顾客总数之比。序列模式就是在上述顾客序列数据库中满足用户指定最小支持度的最长序列。
序列模式的问题定义与关联规则很相似,它们之间的区别可以用下列例子描述,关联规则描述的是在一次购物中所购买物品之间的关联关系,而序贯模式则是描述同一顾客在不同次购物所购物品之间可能存在的某种关联关系。换句话说,关联规则仅仅发现事务内部(intra-transaction)的模式,而序列模式则是发现事务之间(inter-transaction)的模式。
序列模式的发现方法与关联规则的发现方法大致相同,R.Agrawal在Apriori算法的基础上提出了三个 序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome[34]。AprioriAll算法采用哈希树储存候选序列,将所有的候选序列均储存在哈希树的叶子节点中;将候选序列的记数划分为向前及向后两阶段:向前阶段跳跃性地产生所有特定长度的频繁序列,而向后阶段找出在向前阶段未考虑的频繁序列。
在[35][36]中提出了挖掘具有概念分层、滑动时间窗口及最大和最小时间约束的 GSP(Generalized Sequential Patterns)算法。该算法也采用哈希树存储候选序列,仍将候选序列的记数分为向前及向后阶段,但此法划分向前阶段与向后阶段的目的与实现均与 AprioriAll 算法不同。
PSP(Perfectly Sequential Patterns)算法在[37]中提出,该算法采用了前缀树结构(而非哈希树)存储候选序列,从而导致该算法的候选序列集的产生和记数均不同与GSP算法; 同时,由于前缀树的每个节点只 存储事务中的一项,故与哈希树结构相比较大的节省了内存空间。(3)软计算方法
软计算(Soft Computing)是方法论的集合,这些方法集互相协作,并以一种形式或其它某种形式为现实中的模糊情况提供灵活信息处理功能[38]。它的目的是为了获得易处理的、粗糙的、低成本的解决方法而对不确定的数据进行处理。遵从的原则是以追求近似解决模糊/精确问题,并低成本地设计解决方案。软计算方法主要包括模糊逻辑、Rough集、遗传算法、神经网络等。模糊逻辑是处理不确定性概念及其推理机制的过程,Rough集和神经网络常被用来分类和规则抽取,遗传算法包括最优解和搜索过程,像问题最优解和样本选择。针对时间序列挖掘,软计算方法的应用研究简要介绍如下:
模糊逻辑是最早、应用最广泛的软计算方法,模糊逻辑的发展导致了软计算方法的出现。[39]在挖掘时间序列数据时使用了模糊语言概化;[40]针对商业销售的智能分析需求,提出了一种基于模糊集合的数据挖掘时间序列模式算法。
神经网络是一个黑箱问题,它先前被认为不适合应用于数据挖掘,且在符号格式中,它并不能获得有用信息,但却适合进行解释。近年来,挖掘训练过的网络中的嵌入知识,已广泛地应用于数据挖掘中。它对属性或逐个或合并地进行判别,这对于决策或分类是非常重要的。它对数据挖掘的贡献是在规则提取和自组织性上。
遗传算法是可调节的、鲁棒的、有效率的搜索方法,它适应于搜索大空间集。它相对数据挖掘的标准来优化功能,并达到搜索最优解的目的。[41]提出了一个基于小生境遗传算法和模式缓存的时间序列中频繁结构模式的发现算法,该算法具有轻便、灵活、可扩展性好的特点,可根据实际情况合理配置计算时间和所占用的内存资源,可实现挖掘结果的实时动态更新输出,并通过在在实际时间序列数据上的实验证明了该算法的有效性。
Rough集理论由波兰逻辑学家Pawlak教授在20世纪80年代提出,是一种处理含糊和不确定问题的新型数学工具,其出发点是根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分的每一部分确定其对某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分别用三个近似 4 集合来表示为正域、负域和边界。它能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识和潜在的规律。同时,Rough集理论在处理大数据量,消除冗余信息等方面有着良好的效果,因此广泛应用于数据挖掘的数据预处理(数据约简)、规则生成等方面[42,43]。2股票时间序列挖掘
股票市场高风险和高收益并存,因此对于股票数据知识发现的研究一直受到人们的关注。目前对股票时间序列的数据挖掘方法大致集中在以下三个方面。(1)相似性的研究。
该方法是在时间序列数据库中找出与给定查询序列最接近的数据序列,它包含了全序列匹配和子序列匹配两种问题。子序列匹配就是找出与给定模式序列相似的所有子序列,而全序列匹配就是找出彼此间相似的序列。具体的操作时将时间窗口在时间序列上滑动,通过距离计算从一个时间序列和多个时间序列中寻找相似的时间序列模式进行聚类形成相似组群,当有一个新的时间序列需要分析时,可以从相似组群中寻找与它最相似的类来匹配。一般有两个研究方向,一种是将时间序列从时间域(time domain)到频率域(frequency domain)后在进行相似性匹配。至于为什么要进行这种数据变换,主要是基于许多信号分析技术(如离散傅立叶变换DFT和离散小波变换DWT)需要数据来自频率域[2]。另一种则是直接在时间域上研究。主要应用是从股票数据中识别具有相似变化趋势的模式,以预测新数据在未来的发展行为。在时间序列相似性方面的研究文献有[44,45,46,47]。(2)趋势分析与值预测研究。
趋势分析研究时间序列的变化趋势,其理论基础是将时间序列视为一个动力系统,认为在其过去的波动中蕴涵有可用于预测未来的信息。给定一组值(Y1,Y2,Y3,„),确定数据趋势的方法通常有两种[2]:一种是N阶的移动平均值,即(i1Yi)/n,(i2Yi)/n,(i3Yi)/n,„。移动平均可以降低数据集中的变化
d,其中偏差或误差di是指点(xi,yi)i1in2nn1n2总量,用移动平均替代时序,可以减少不希望出现的波动,故它也称为时序的平滑。另一种是最小二乘法,即以最好的拟合曲线C作为最小二乘曲线,即曲线具有最小的的值yi与对应曲线C的值之间的差值。
趋势分析可以用来值预测,除此之外,用得较多的是神经网络[48,49]。这种预测方法由于是基于时间序列的具体数值,而这些数据往往含有许多干扰数据,因此该值预测方法的抗干扰能力较弱。(3)时间序列中关联规则的抽取。
Gautam Das等对从时间序列中发现关联规则进行了研究[50],这里规则是对时间序列中不同模式间关系的一种描述,[50]的主要贡献在于给出了一个将原始时间序列转换成有各个模式表示符组成的符号序列的一般方案,该方案由三部分组成,即分割,聚类和符号替换。然后采用序列模式发现算法实现了符号序列中规则的发现。
针对股票时间序列的特殊性,许多学者在经典关联规则挖掘算法的基础上,又提出了许多新的算法。1996年R.Strikant给出了关系数据库中数量关联规则的挖掘算法[51];1998年H.Lu对股票变动的预测以及内联相关性分析进行了研究[52];1999年M.Garofalakis提出了具有约束限制的时序数据挖掘[53];2002年 Y.Chen对时序数据库的多维回归分析进行了研究[54]。国内学者在这方面也做了相当的研究,[55]对股票时间序列的挖掘,分别探讨了一维和二维关联规则的发现;[56]通过一个具体的实例描述了从股票时间序列中挖掘一维关联规则的方法;[57]提出了延迟关联规则的概念,并在股票时间序列上实现挖掘该规则的算法;[58]在时间序列中引入多重时间粒度,以模糊规则的形式给出数据挖掘的结果。
Rough集理论在数据挖掘领域的应用主要体现在数据约简和关联规则的抽取上,这方面的研究已经有了少量的文献。[59]提出的一种基于Rough集的时间序列数据挖掘策略,显然适用于股票时间序列的挖掘;[60]则提出将正则化神经网络与Rough集理论相结合应用于股票时间序列数据库的挖掘。该方法融合了正则神经网络优良的泛化性能和Rough集理论的规则生成能力,充分展示了软计算方法应用于时间序列数据分析的新颖性。
四.总结与展望
从大的方面来说,时间序列数据的挖掘技术可分为统计分析法和数据挖掘。众所周知,统计学是数据挖掘的三大支柱之一(另两种是数据库和人工智能);同时,数据挖掘在统计学的基础上另有扩充和发展,这使得数据挖掘技术成为一种更具优势性的研究方法。统计学为问题的探索解决方案提供了有用而实际的框架;模型是现代统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但数据挖掘却不同,它的核心是算法,当然也考虑模型和可解释性问题,但算法及可实现性是第一位的。它所强调的首先是发现,其次才是解释。数据挖掘,作为很多学科交叉的结果,继承了机器学习的“冒险”态度,比统计学更强调实践性、探索性和灵活性。
证券市场是国民经济的晴雨表,是政府主管部门、券商和广大投资者的兴趣中心。长期以来各券商的交易系统一直走在IT技术应用革新的前沿,同时也积累了大量的数据;挖掘、开发和利用这些数据一方面可以有效指导证券投资者的投资,另一方面可以使证券公司进行最适合的定位,从而使企业长期的积累得以充分发挥,树立竞争优势。作为数据挖掘的主要组成部分之一,关联规则挖掘获得了广泛的研究,但从关联规则的角度进行股票时间序列分析,从学术上来说具有一定的新颖性,其终极目标是以极大的概率预测股价的未来走势。股票的涨跌不是各自互不影响的,传统意义上的“板块联动”就是极好的证明。考察股票价格之间的涨跌关系,如能在传统分析方法的基础上,采用先进的数据挖掘技术,挖掘出股票之间的价格联动关联规则,显然具有十分重要的意义。
Rough集理论是一种处理含糊和不精确性问题的新型数学工具,是采用精确的数学方法分析不精确系统的一种理想方法。大量文献已经说明Rough集理论是从数据集中提取关联规则的有效方法,其中主要的原因应归功于Rough集理论强大的数据约简能力。应用Rough集理论对股票时间序列数据进行建模、约简、规则抽取,显然又是一个极具新颖和创新的研究领域。
参考文献
[1] 安鸿志,陈兆国,杜金观,潘一民.时间序列的分析与应用.科学出版社 1983.[2] Jiawei Han,Micheline Kamber.数据挖掘: 概念与技术.北京:机械工业出版社2001.3~6、278~285.[3] 贝政新,陈瑛.证券投资通论.上海:复旦大学出版社,1998.[4] 安妮.股票投资技术方法与应用.深圳:海天出版社,1995.[5] 王耀动,张德远,张海雄.经济时间序列分析.上海财经大学出版社 1996.[6] 李民,邵建中,李俊平等.用ARMA模型预测深沪股市.长沙铁道学院学报,2002,18(1):78~84.[7] 李爱国,覃征.滑动窗口二次自回归模型预测非线性时间序列.计算机学报,第27卷,第7期2004年7月.[8] 孙宏义,朱梅.混沌时间序列预测及在股票市场中的应用.安徽工程科技学院学报,第18卷,第4期2003年12月.[9] 李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究.管理工程学报 2004年第3期.[10] R.Agrawal, T.Imielinski, A.Swami.Mining Association Rules Between Sets of Items in Large Databases[C].Proceedings of ACM SIGMOD Int’1 Conf.Management of Data, Washington D.C., 1993.207~216.[11] R.Agrawal, R.Srikant.Fast Algorithms for Mining Association Rules[J].VLDB94, Santiago, Chile,1994:478~499.[12] Mannila H, Toivonen, Inkeri Verkamo A.Efficient algorithms for discovery association rules.In Proceedings of AAAI Workshop on Knowledge Discovery in database.July 1994.181~192.[13] Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal.Pruning and grouping discovered association rules.In Mlnet workshop on Statistics, Maching Learning and Discovery in Database.Heraklion, Rete.April 1995.[14] Agrawal R, Srikant R.Fast Discovery of Association Rules.In Fayyad.Ⅱ 1996.[15] J.Han, J.Pei.Mining Frequent Patterns Without Candidate Generation.In Proc.2000 ACM-SIGMOD Intl.Conf.on Management of Data(SIGMOD’2000)Dallas TX 2000,1~12.[16] R.Agarwal, C.Aggarwal, V.Prasad.A Tree Projection Algorithm for Generation of Frequent Itemsets.Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.[17] 倪旻,徐晓飞,邓胜春,赵政.基于频繁项目对支持矩阵的Apriori优化算法.小型微型计算机系统.Vol.25 No.5, May 2004.[18] 邓砚谷,王丽珍.对FP-Tree头表节点数据结构的改进.计算机工程与应用.2004,25.[19] R.Agrawal, J.Shafer.Parallel Mining of Association Rules.IEEE Trans.On Knowledge and Data Engineer 1996,962~969.[20] 张兆功,李建中,张艳秋.海量数据上挖掘关联规则的并行算法.哈尔滨工业大学学报,2004年05期.[21] 朱红蕾,李明.一种高效维护关联规则的增量算法.计算机应用研究,2004年09期.[22] M.Kamber, J.Han, J.Y.Chiang.Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl.Conf.Knowledge Discovery and Data Minin KDD’1997
Newport Beach CA.1997,207-210.[23] 程继华,郭建生,施鹏飞.元规则指导的知识发现方法研究.计算机工程与应用,1999年第10期.[24] 陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘[J].系统工程理论与实践,2002,2:28~32.[25] 程继华,施鹏飞.多层次关联规则的有效挖掘算法[J].软件学报,1998,9(12):937~941.[26] 程 岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究[J].管理工程学报,2001,15(3):73~77.[27] 倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规则[J].系统仿真学报,2000,12(6):685~687.[28] 高坚.基于免疫遗传算法的多维关联规则挖掘.计算机工程与应用.2003年32期.[29] 苏占东,游福成,杨炳儒.关联规则的综合评价方法研究与实例验证计算机应用.2004年10期.[30] 李虹,蔡之华.关联规则在医疗数据分析中的应用.微机发展.2003年06期.[31] 胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究.中央民族大学学报(自然科学版).2004年04期.[32] 姜南,唐晓青.应用关联规则构建质量活动链模型.北京航空航天大学学报,2004年05期.[33] 普杰信,薛冰冰.加权关联规则在网络入侵检测系统中的应用.信息技术.2004年04期.[34] Agrawal R, Srikant R.Mining Sequential Patterns.In Proc.95 Int’1 Conf Data Engineering, Taibei,Taiwan.March,5,1995.[35] Tamakrishnan Srikant, Rakesh Agrawal.Mining Sequential Patterns: Generalizations and 7
Performance Improvements.[36] Ramakishnan Srikant.Fast Algorithms for Mining Association Rules and Sequential Patterns,Chapter 5 Mining Sequential Patterns p113-146.[37] F.Masseglia, F.Cathala, P.Poncelet.The PSP Approach for Mining Sequential Patterns.[38] L.A.Zadeh.Fuzzy logic, neural networks, and soft computing, Commun.ACM, Vol.37, pp.77-84, 1999.[39] D.A.Chiang, L.R.Chow,Y.E.Wang.Mining time series data by a fuzzy linguistic summary system.Fuzzy Sets Syst.Vol.112, pp.419-432, 2002.[40] 吴煲宁,林天,孙志挥,汪晓刚.一种基于模糊集的时间序列挖掘算法的设计与实现.计算机工程与应用,2002年20期.[41] 李斌,汪祖媛,高清维,庄镇泉.基于遗传算法的时间序列中频繁结构模式发现研究.电路与系统学报.第九卷,第四期,2004年8月.[42] 刘清.Rough集及Rough推理.科学出版社,2001.[43] 韩中华,吴成东,刘海涛.数据挖掘技术研究进展.工控智能化,2003(10), pp.18-23.[44] Das G, Gunopulos D.Finding similar time series.In Proc.Of the Conference on Principles of Knowledge Discovery and Data Mining, Trondheim, Norway, 1997:124-135.[45] Eamonn Keogh.A Tutorial on Indexing and Mining Time Series Data.In the 2001 IEEE International Conference on Data Mining.November 29, san Jose.[46] R.Agrawal, C.Faloutsos, A.Swami.Efficient Similarity Search in Sequence Databases.In Int.Conference on Foundations of Data Organization(FODO)1993.[47] 李宏,陈松乔,王建新.基于时序模式关联的股票走势分析研究.计算机工程与应用,2001,13.[48] Hansen V J, Nelson R D.Data mining of time series using stacked generalizers.Neurocomputing, 2002,43(1):173-184.[49] 王晓华,李冬梅,王正欧.基于正则前馈神经网络的股票时间序列数据库的知识发现。计算机工程.第29卷,第12期,2003年7月.[50] G.Das, K.Lin, H.Mannila, G.Renganathan, P.Smyth: Rule Discovery from Time Series.KDD 1998:16-22.[51] R.Srikant, R.Agrwal.Mining quantitative rules in large rational table.In: Proc.Of the ACM SIGMOD Conference on Management of Data.New York: ACM Press, 1996.[52] H.Lu, J.Han, L.Feng.Stock movement and n-dimensional inter-transaction association rules.In: Proc.SIGMOD’ 98(12).Seattle: ACM Press, 1998.[53] M.Garofalakis, R.Rastoki.Spirit: sequential pattern mining with regular expression constraints.In: VLDB’ 99.Edinburgh: Morgan Kaugmann Publishers, 1999.[54] Y.Chen, G.Dong, J.Han.Multi-dimensional regression analysis of time-series data steams.In: VLDB’ 2002.Hong Kong: Morgan Kaugmann Publishers, 2002.[55] 方依兰,黄智兴,张为群.股票信息的数据挖掘.西南师范大学学报(自然科学版).第25卷,第2期,2000年4月.[56] 郑朝霞,刘廷建.关联规则在股票分析中的应用.成都大学学报(自然科学版)Vol.21,No.4 2002.[57] 喻伟,陈国青.基于时序数据的延迟关联规则的挖掘.计算机应用研究.2002年,第12期.[58] 张竹润,谢康林,张忠能.多粒度时间序列中模糊规则的提取.上海交通大学学报.第35卷,第9期,2001年9月.[59] 马志锋,刑汉承,郑晓妹.一种基于Rough集的时间序列数据挖掘策略.系统工程理论与实践.2001年12月,第12期.[60] 王晓华,王正欣.正则化训练的神经网络与粗集理论相结合的股票时间序列数据挖掘技术.电子与信息学报.第26卷,第4期,2004年4月.
第二篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世
第三篇:数据挖掘关联规则实验报告
实验七
关联规则
1.实验目标
• 使用SSAS进行关联规则挖掘实验
2.实验要求
(1)按“实验内容”完成操作,并记录实验步骤;
(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。
3.实验内容
生成市场篮方案。Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。
4.实验步骤
(1)创建市场篮挖掘模型结构
1.在 Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。此时,系统将打开数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规则”,再单击“下一步”。
“选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的 Adventure Works DW 为选中状态。
5.单击“下一步”。
6.在“指定表类型”页上,选中 vAssocSeqOrders 表旁的“事例”复选框,选中
vAssocSeqLineItems 表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。
7.在“指定定型数据”页上,依次清除 CustomerKey 旁边的“键”复选框和 LineNumber
旁边的“键”和“输入”复选框。
8.选中 Model 列旁边的“键”和“可预测”复选框。然后,系统也将自动选中“输入”复选框。
9.单击“下一步”。
10.在“指定列的内容和数据类型”页上,单击“下一步”。11.在“完成向导”页的“挖掘结构名称”中,键入 Association。12.在“挖掘模型名称”中,键入 Association,再单击“完成”。
(2)调整关联模型的参数和处理关联模型
在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support 和 Probability。Support 定义规则被视为有效前必须存在的事例百分比。Probability 定义关联被视为有效前必须存在的可能性。
调整关联模型的参数步骤如下:
1.打开数据挖掘设计器的“挖掘模型”选项卡。
2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。
系统将打开“算法参数”对话框。
3.在“算法参数”对话框的“值”列中,设置以下参数:
MINIMUM_PROBABILITY = 0.1 MINIMUM_SUPPORT = 0.01 4.单击“确定”。
处理关联模型步骤如下:
1.在 Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。
系统将打开“处理挖掘结构关联”对话框中,单击“关闭”。
(3)浏览市场篮模型
使用数据挖掘设计器的“挖掘模型查看器”选项卡中的 Microsoft 关联查看器浏览该模型。浏览模型时,可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。
Microsoft 关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。
“项集”选项卡
“项集”选项卡显示与 Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。根据算法参数的设置方式,算法可以生成大量的项集。使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。
也可以使用“筛选项集”框来筛选查看器中显示的项集。例如,若要仅查看包含有关 Mountain-200 自行车信息的项集,可在“筛选项集”中输入 Mountain-200。您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。查看器中返回的每个项集都包含有关销售 Mountain-200 自行车事务的信息。例如,在“支持度”列中包含值 710 的项集表示:在所有事务中,710 个购买 Mountain-200 自行车的人也购买了 Sport-100 自行车。
“规则”选项卡
“规则”选项卡显示与算法发现的规则相关的以下信息。 概率 规则发生的可能性。
重要性 用于度量规则的有用性,值越高则意味着规则越有用。只看概率可能会产生误解。例如,如果每个事务都包含一个 x 项,规则 y 预测 x 发生的概率为 1,即 x 一定会发生。即使规则的准确性很高,但这并未传达很多信息,因为不管 y 如何,每个事务都会包含 x。 规则 规则的定义。
像使用“项集”选项卡一样,可以筛选规则,以便仅显示最关心的规则。例如,如果只想查看包含 Mountain-200 自行车的规则,可在“筛选规则”框中输入 Mountain-200。查看器将仅显示包含“Mountain-200”字样的规则。每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。例如,由第一个规则可知:如果一个人购买了 Mountain-200 自行车和水壶,则此人还会购买 Mountain 水壶套的概率为 1。
“相关性网络”选项卡
使用“相关性网络”选项卡,可以研究模型中不同项的交互。查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在 Mountain-200。通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。
滑块与规则的概率关联。上下移动滑块可以筛选出弱关联。例如,在“显示”框中,选择“仅显示属性名称”,再单击 Mountain Bottle Cage 节点。查看器显示,Mountain 水壶套预测了水壶和 Mountain-200 自行车,而水壶和 Mountain-200 自行车也预测了 Mountain 水壶套。这意味着,这些项有可能同时在事务中出现。也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。
5.实验结果及问题讨论
(1)根据实验结果给出市场部统一放置在网站的一个位置上的可能被集中购买的项的建议。通过项集与规则图,我们可以看出各商品之间的关联程度,及这种关联程度的可信度,通过综合来达到相关联商品的相互促销
通过点击依赖关系网络图中的各项,观察其周围与之相关的其他项的数量,数量越多。说明此项影响其他销售的项目越多,我们就可对此项进行促销,还可将相互影响的物品放在
一起,形成相互促销。(2)写出自己对关联规则的理解。
对于那些很难直接看出关系的各项交易,我们可以通过查询其交易的相关性,即购买此种产品会连带购买另一产品的概率,来发现其隐藏的关系,从而通过产品位置的调整或相互促销,来提高销售量
第四篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第五篇:客户关系管理论文:客户关系管理 零售业 数据挖掘 关联规则
客户关系管理论文:基于关联规则的零售业CRM的设计和实现
【中文摘要】随着我国零售行业竞争日益激烈,尤其是大型超市越来越多,传统的营销模式已经不适应现代的新形势了。客户关系管理(CRM)作为一种“以客户为核心”的支持有效市场推广、营销和服务过程的重要经营策略,越来越受到企业重视,有效做好客户关系管理对于企业提升竞争力起着很重要的作用。而在客户关系管理系统的基础上加入数据挖掘技术,可以透过数理模式来分析商家在营销过程中产生的大量资料,划分出不同类型的客户或不同的市场,分析出消费者的爱好和行为的方法,帮助商家保住原有客户,开发新客户,进一步提升客户的满意度。本文在传统客户关系管理系统的基础上,整合了数据挖掘(关联规则)及手机平台的应用,使得系统能够更有效地完成数据分析,更深度地挖掘潜在客户,更及时地为使用者反馈信息。本论文从以下几个方面进行了研究:(1)针对大型超市的工作流程,设计开发了一个大型超市零售业务的CRM,包括客户管理和智能分析等子系统,包含有客户资料查询、商品销量分析、商品销售关联分析和客户消费关联分析等等功能。(2)在客户消费关联分析中,使用数据挖掘中的关联规则Apriori算法对客户消费的商品进行了挖掘,建立了客户消费方式模型,根据客户选择规...【英文摘要】With the increasingly fierce competition of China’s retail industry, especially the wide spread of large
supermarket, the traditional marketing mode cannot adapt to the new situation today.Customer Relationship Management(CRM), an important kind of management tactic, are now attached great importance to which means take the customer as the core to support effective market promotion, marketing and service process.Effecting the CRM effectively plays a very important role in enhancing enterprise’s competiti...【关键词】客户关系管理 零售业 数据挖掘 关联规则
【英文关键词】CRM Retail Industry Data mining Association rules 【索购全文】联系Q1:138113721 Q2:139938848 【目录】基于关联规则的零售业CRM的设计和实现6-71113-1614-16ABSTRACT7-8
第1章 绪论11-17
摘要1.1 引论1.2 系统开发背景11-131.3.1 国外现况13-14
1.3 国内外研究状况1.3.2 国内现况
第2章 客户1.4 本文的内容和组织结构16-17关系管理与数据挖掘理论17-2517-19
2.1 客户关系管理
2.1.2 2.1.1 客户关系管理的基本内涵17-18零售业客户关系管理的特点18-1919-212.2.1 数据挖掘的定义19
2.2 数据挖掘技术
2.2.2 数据挖掘与知
2.3 基于识发现19-202.2.3 数据挖掘的方法20-21关联规则的数据挖掘21-242.3.1 关联规则的概述
21-2224-252.3.2 关联规则挖掘22-242.4 本章小结
3.1 3.1.2 3.2.1 第3章 零售业CRM系统的分析与设计25-47
3.1.1 功能性需求分析25-26
3.2 总体设计27-36需求分析25-27非功能性需求分析26-27设计思想27-31框架结构33-35台的选择36-3936-37
3.2.2 算法模型31-333.2.4 业务数据流35-363.3.1 ADO.NET开发技术
3.2.3 系统的3.3 开发平3.3.2.NET Framework开发技术37-39
3.4.1 操作型数据与分析型数据
3.4 数据设计39-4539-413.4.2 数据库设计41-453.5 零售业CRM系统
第4章 零售
4.2 4.4 进4.6 系功能模块设计45-46业CRM系统的实现47-58短信平台模块49-50销存管理模块54-55统管理模块57望58-6059-60项目63-64
3.6 本章小结46-47
4.1 客户管理模块47-494.3 智能分析模块50-544.5 报表打印模块55-57
4.7 本章小结57-58第5章 总结与展5.1 总结58-59参考文献60-63
致谢64
5.2 今后工作展望攻读硕士学位期间参加的科研