基于属性重要度约简算法在数据挖掘中的应用研究论文(最终5篇)

时间:2019-10-30 09:55:11下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《基于属性重要度约简算法在数据挖掘中的应用研究论文》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《基于属性重要度约简算法在数据挖掘中的应用研究论文》。

第一篇:基于属性重要度约简算法在数据挖掘中的应用研究论文

摘 要:属性约简是粗糙集理论研究的核心内容之一,本文通过对属性重要度的计算,以核为基础计算条件属性集中除核以外其他属性的重要性来确定最小的约简,最后通过实例分析验证了算法的有效性与可行性。

关键词:数据挖掘 属性约简 重要度

数据挖掘是从海量的且不断动态变化的数据中,借助有效的方法挖掘出潜在、有价值的知识过程。而粗糙集理论它是一种刻画不完整性和不确定性的数学工具,能在保持分类能力不变的前提下,通过知识约简从中发现隐含的知识,揭示潜在的规律,是由波兰科学家Pawlak在1982年提出的。而属性约简是粗糙集理论研究的核心内容之一,它能保证在分类能力不变的情况下,消除重复、冗余的属性和属性值,减少数据挖掘要处理的信息量,提高数据挖掘的效率。本文提出了通过计算单个属性的重要性,以重要性大于零的属性为核,来选取其它属性加入核中形成新的集合RED,直至剩下的所有属性的重要性为零,得到的集合REDn即为属性约简。粗糙集的基本理论[1-2]

定义1设 是一个信息系统,其中 是对象的非空有限集合,即;是属性的非空有限集合;,是属性 的值域;是一个信息函数,即每个对象在每个属性上对应的信息值。若,其中 为非空有限条件属性集合,为非空有限决策属性集合,且,则称信息系统为决策表。

定义2对决策表,,考虑单决策属性的情况,即,则的分辨矩阵是一个 矩阵,其中的元素定义如下:

定义3对分辨矩阵中每个,用布尔函数 来表示,若,则决策表的分辨函数 可定义为:。基于粗糙集的数据挖掘的属性约简算法[3-4]

2.1 算法分析

第一步:求核。通过求条件属性C中的每个属性a对在整个条件属性集C的重要性SigC(x)来确定属性核CORE(x),重要性SigC(x)>0的属性为核属性。

第二步:通过向属性核CORE(x)中依次加入重要性大的属性来确定属性集x的最小约简,详细步骤如下:(1)把a加入到属性集R 中,计算重要性,选择重要性最大的属性;(2)如果两个属性有相同的重要性,取离散值小的属性。

2.2 算法复杂度

通过算法的分析,在对决策表进行划分的时间复杂度为O(n2)。而计算条件属性的重要性也是满足划分的线性关系,因此所求属性核的时间复杂度为O(n2),依次添加次重要度的属性也没有增加额外的开销,因此整个时间复杂度还是O(n2)。

2.3 实例及分析

为了进一步验证算法的可行性,下面以表1中的决策表为例进行分析说明,其中对象集,条件属性集,决策属性。

以上对计算出的实验数据的重要性进行统计得出信息系统的两个约简为{c1,c4}和{c2,c4}。结语

本文针对属性约简算法中的属性重要度的计算来确定核,适合对海量数据的挖掘,不仅节省了存储空间,而且在时间复杂度开销少,通过实验分析验证了算法的可行性与有效性,为决策表的属性约简提供了一条高效的途径。

参考文献:

[1]张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社,2001:18-19

[2]周献中,黄兵,李华雄,等.不完备信息系统知识获取的粗糙集理论与方法[M].南京:南京大学出版社,2010:10-11

[3]饶泓,夏叶娟,李娒竹.基于分辨矩阵和属性重要度的规则提取算法[J].计算机工程与应用,2008,44(3):163-165

[4]黄国顺,刘云生.一种改进的决策表属性重要性及其快速约简算法[J].计算机工程与应用,2007,43(28):173-176

第二篇:数据挖掘在图书馆用户资源管理中的应用研究_周倩

数据挖掘在图书馆用户资源管理中的应用研究

周 倩

(中科院文献情报中心中科院研究生院,北京,100080)中42%的图书馆采用了数据挖掘技术,而剩余的 58%的还没有采用数据挖掘技术的图书馆中有 98%的表示它们将在不久的未来采用数据挖掘技 术。此外,调查还显示,目前图书馆采用数据挖掘技 术的主要模式是基于用户数据与基于用户行为的数 据挖掘,各种数据挖掘软件或工具的发展与成熟为 图书馆利用数据挖掘技术提供了便利的条件[8]。与国外图书馆相比,数据挖掘技术目前在我国 图书馆中并没有大规模地使用,只有为数不多的图 书馆采用了此项技术。但国内图书馆界已普遍认识 到,数据挖掘技术是图书馆现代化发展的关键技术, 将对图书馆信息资源建设和个性化、知识化服务的 发展起到至关重要的作用。基于数据挖掘的图书馆用户资源管理

从以上分析可看出,用户资源管理是图书馆应用 数据挖掘技术的主要领域之一,基于数据挖掘的图书 馆用户资源管理主要体现两层含义:一是图书馆利用 数据挖掘技术提高自身用户资源管理的水平,实现分 析型用户资源管理模式;二是图书馆以数据挖掘的需 求为牵引,组织好用户资源管理的各项工作,从最初 用户数据获取开始就要以后期顺利地实现数据挖掘 为目标,分析、设置好工作标准与内容意义。3.1 用户数据搜集与存储

用户资源管理的第一步工作是搜集用户数据。要实现对用户数据的有效挖掘的基本条件是要将搜 集到的数据以一致的模式存储,建立用户数据仓库。因此,可以说用户数据仓库建设是图书馆用户资源 管理的基础。

(1)搜集用户数据。用户数据按数据类型可大

致分为用户描述类数据、用户需求类数据、用户行为 类数据和用户反馈类数据四个类。目前,随着数字 图书馆的深入发展,图书馆获取用户数据的技术与 渠道不断拓宽,既可以通过传统方式获取,也可以在 数字图书馆服务过程中获取。

(2)构建用户数据仓库。数据挖掘在集成、一

致、经过清理的数据上才能更好地实现,因此必须对 搜集到的图书馆用户数据,进行数据清理、数据变 换、数据集成和数据装入等必要的数据处理过程,建 立一个整合的、结构化的用户数据仓库,并及时更 新。图书馆通过多个渠道获取的用户数据中既有结 构化的、也有非结构化的。结构化数据如用户借阅 资料的数量、Web访问日志等数据,非结构化数据 如用户反馈信息、用户需求信息等。目前数据挖掘 的对象主要是结构化数据,因此,应尽可能采用多种 方法对非结构化的数据进行处理,将其转化为结构 化数据。

3.2 用户多维特征分析和群体分类

(1)用户多维特征分析。针对数据仓库中的图

书馆用户数据,采用简单关联、时序关联、因果关联 等关联分析与序列规则等数据分析与挖掘方法,对 图书馆用户特征进行分析,挖掘用户的隐性信息需 求,获得对管理用户与图书馆交互活动所必需的关 键性特征,并预测用户未来的信息行为。图书馆用 户特征主要由用户的知识结构特征、用户的信息需 求特征和用户的信息行为特征组成。知识结构特征 说明了用户目前对其专业领域或感兴趣的专业领域 的知识掌握情况;用户的信息需求特征表明了用户 信息需求的专业范围、载体、类型、语种以及用户需 求的现有满足程度等;用户的信息行为特征反映了 用户使用信息的习惯和模式,以及访问信息的规律、特点和趋势等。

(2)用户群体聚类分类。对于图书馆用户特征

进行多维分析的主要目标,并不是仅对单个用户在 图书馆内的信息行为进行分析,而是希望对具有相 似特征的用户建立模型,进行图书馆用户的有效分 类与聚类,发现各种虚拟用户社区,为针对不同类型 的用户群提供不同的个性化服务方案[9]。对数据集 合的分类是数据挖掘技术的主要功能之一。图书馆 用户分类是找出一组能够描述用户群体典型特征的 模型(或函数),以便能够分类识别未知图书馆用户 的归属或类别或预测未知图书馆用户实例的归属类 别。分类挖掘所获得的模型可以采用多种挖掘方式 获得,按照难易程度分为分类规则(IF-THEN)、数 学公式(Mathematical formulae)、决策树(Deci-siontrees)和神经网络等方法。图书馆用户聚类分 析是把一组图书馆用户按照相似性和差异性分为几 个类别,其目的是使得属于同一类别的用户间的相 似性尽可能大,不同类别中的数据间的相似性尽可 能小。每一个聚类分析所获得的图书馆用户组可以 看成是一个同类别归属的用户对象集合,然后对这 些同类别数据集通过分类,获得相应的分类预测模 型(规则)。由此,通过反复不断地对所获得的聚类 组进行聚类分析,可获得初始图书馆用户数据集合 的一个层次结构模型。

3.3 面向用户生命周期的数据挖掘

图书馆用户生命周期主要由三个阶段组成:用

户的获取、用户的保持和用户的流失。图书馆用户 资源管理的主要目标是要最大限度地延长用户的生 89 周 倩:数据挖掘在图书馆用户资源管理中的应用研究

Zhou Qian:A Study on the Application of Data Mining in the User Resources Management of Libraries 能真正以用户使用的效益方式体现出来[2]。(2)用户资源管理是图书馆个性化服务的重要基 础。图书馆个性化信息服务的实质就是一种以用户 需求为中心的服务方式。一个图书馆的个性化服务 的通常步骤为:一是收集用户的各种信息;二是分析 用户数据,创建符合用户特性的访问模式;三是结合 用户特性,向用户提供符合其特殊需求的个性化服 务[3]。图书馆用户资源管理的本质与目标是对用户 信息及信息行为经过深入的研究与分析,在满足用户 直接信息需求的基础上,发掘用户的潜在需求,使用 户得到延伸的服务收益,以此给予用户强烈的个性化 服务感受和“无缝式体验”,提高满意度,在实现用户 价值最大化前提下实现用户和图书馆双赢。(3)用户资源管理是图书馆知识管理的主要途

径。图书馆实施知识管理的主要目的就是把最恰当 的知识在最恰当的时候传递给最恰当的用户,这正 是与用户资源管理的最终目标相一致的。图书馆用 户资源管理中含有大量可供共享的信息,包括用户 基本信息、需求信息、服务活动信息、服务效果信息 以及在整个用户生命周期中同图书馆交互活动的信 息。用户的信息就像原材料一样,被进行系统整理、分析后可以在图书馆内部形成共享,从用户信息变 为用户知识。“用户”、“知识”和“管理”处在一个封 闭的循环系统中,图书馆运用这个循环体系中的用 户知识,从与用户的交互活动中实现其社会价值。1.3 图书馆用户资源管理现状分析

用户资源管理在实际运作中可以大致分为两个 层次。一是描述型用户资源管理。它更多关注用户 信息的组织和管理的简单化,包括用户与图书馆交 流渠道的集成,用户信息的归档与简单化的定量统 计。二是分析型用户资源管理。这种管理方式强调 对用户数据进行规范化存储、提取、处理、解释,产生 相关用户知识报告。可以说,分析型的用户资源管 理通过对用户数据的分析,真实反映用户的行为特 征和属性,并据此进行各种推理和分析,为图书馆决 策和服务行为提供客观依据。就目前而言,国内大 多数图书馆用户资源管理仍属于描述型用户资源管 理,还不能大范围地实现对用户属性特征和信息行 为特征的整理和分析,不能广泛地从用户信息中发 现能够反映其信息与服务需求特质的模式或模型并 进行相关用户的规模化分类与聚类。而数据挖掘技 术的发展与在图书馆的应用则为图书馆解决上述问 题,突破描述型用户资源管理的局限性,开展分析型 用户资源管理提供了有力的支持和保障。2 图书馆研究与应用数据挖掘技术概况

数据挖掘(Data Mining)是从大量、不完全、有噪

声、模糊、随机的数据中,抽取出隐含在其中的、人们 事先不知道但又是潜在的、有价值的知识、模型或规 则的过程,是一类深层次的数据分析方法。它根据数 据的微观特征,发现其表征的、带有普遍性的、较高层 次概念的知识,是信息优势成为知识优势的基础工 程。数据挖掘是一门交叉学科,包括机器学习、数理

统计、神经网络、数据库、模式识别、粗糙集、模糊数学 等相关技术。数据挖掘技术包括三个主要部分:算法 和技术、数据和建模能力;按照功能分为两大类:预测 型(Predictive)模式和描述型(Descriptive)模式[4]。自20世纪90年代后期,图书馆开始高度关注 并研究数据挖掘技术,并致力于将其引入到图书馆 的现代化建设中,有不少图书馆学专家提出了面向 图书馆的数据挖掘技术应用理论与方法。例如: May Chau博士提出了几种学术型图书馆与数 据挖掘的相关性理论模型,并且开发了图书馆网上 数据挖掘系统,帮助用户查找信息[5]。Kyle Baner-jee先生研究了数据挖掘技术帮助图书馆的不同方 式。在1998年,他提出,全文本、动态变化的数据库 更适于采用数据挖掘技术[5]。2002年,Nicholson 和Stanton就图书馆中的数据挖掘过程提出了一个 专业术语“Bibliomining”(书目挖掘),指出书目挖掘 是在图书馆中,将数据挖掘技术、书目计量方法、统 计学理论与报告工具有机结合在一起,从基于行为 的信息与数据中获取隐含的模式[5]。1996年,ALA 的《Library Administration and Management》期刊 出版了一期关于图书馆数据挖掘的特刊,当时在文 章中提到的数据主要来自图书馆自动化系统,后来, 随着数字图书馆的发展使得可以用于数据挖掘的数 据大幅度提高。鉴于此种情况,《Library Adminis-tration and Management》于2003年再次出版一期 以数字图书馆数据挖掘技术为主题的特刊,并列举 了一些图书馆利用数据挖掘技术的实际案例[6]。2005年6月,OCLC公布了三个新的研究计划,其 中之一就是数据挖掘研究计划,其主要目标是通过 对WorldCat及其它数据源的挖掘,找到隐含的、有 用的信息,以此帮助图书馆管理者更好地做出馆藏 建设与服务的决策[7]。

就图书馆利用数据挖掘技术的规模和应用潜 力,研究图书馆联盟(ARL)2003年曾做过一次调 查。ARL中的124个会员图书馆参加了此次调查, 其中有52%的图书馆反馈了调研表。调查显示这 88 2006年第6期

图书·情报·知识

[摘要] 用户资源管理是现代图书馆资源管理的核心内容,是图书馆实现个性化服务的重要基础。

数据挖掘作为一种深层次的数据分析方法,可以从大量的数据中挖掘出反映用户属性特征和信息

行为特征的信息和规则,从而为图书馆用户资源管理提供极大的帮助。基于数据挖掘的图书馆用

户资源管理包括用户数据搜集、用户数据仓库构建、用户多维特征分析和群体分类、面向用户生命

周期的数据挖掘等主要内容。

[关键词] 数据挖掘 图书馆 用户资源管理 应用 个性化服务 数据仓库 [中图分类号]G252 [文献标识码]A [文章编号]1003-2797(2006)06-0087-04 [Abstract] The user resources management of libraries based on data mining should include the following methods:collecting user data,constructing user data warehouse,analyzing user char-acteristics and classifying group,data mining for the whole user life cycle and so on.[Key words] Data mining Library User resources management Application Personalized services Data warehouse 1 图书馆用户资源管理

图书馆用户是指利用图书馆信息资源及信息服 务的一切个体或群体。图书馆用户资源是图书馆在 长期的信息服务过程中逐步形成的,是图书馆服务 能力在社会关系体系中的呈现。与图书其它资源相 比,用户资源有它特殊的性质,例如动态的伸缩性和 拓展性,对其它类型资源强烈的依附性。1.1 图书馆用户资源管理的内涵

在图书馆的发展历程中,其资源的内涵不断拓 展,资源管理的内容也不断丰富。早期的图书馆资 源管理主要是指对有形的资产进行管理,包括文献

资源管理、设备资源管理、人力资源管理、经费管理、服务场所管理等。其后图书馆资源概念扩展到无形 资产,包括服务品牌、图书馆文化等。但这种管理的 概念也仅仅局限于图书馆内部。在现代信息社会, 伴随着数字图书馆的发展,图书馆将“用户”这种外 部资源纳入到自身的资源管理体系中,把用户作为 图书馆的一种资源进行有效的管理,并实现与图书 馆其它资源的整合。

从资源管理的理论层面上讲,用户资源管理是 对有使用价值的用户资源,通过有效的管理与控制

[作者简介] 周倩,女,1972年生,中国科学院文献情报中 心及中科院研究生院在读博士生,中国国防科技信息中心副 研究馆员,发表论文20多篇。

程序,来实现图书馆某种服务效益的目标活动。从 实际工作层面上讲,用户资源管理主要是指对用户 和图书馆之间的交互活动进行管理,具体包括用户 信息管理、用户服务活动管理、用户后期支持管理。用户信息管理的主要任务是系统地搜集、组织与存 储用户的相关信息,通过对用户信息的统计和分析, 明确用户信息需求和服务需求,划分用户群;用户服 务活动管理则负责将对用户在图书馆内的信息行为 进行管理,针对用户个性化需求,制定出图书馆相应 的信息资源建设和服务策略,实现与用户服务活动 相关的所有信息的集成;用户后期支持管理主要是 对用户接受服务后的情况进行跟踪了解和分析,发 现问题,提出不断修正和提高的方案[1]。1.2 用户资源管理在图书馆中的重要地位(1)用户资源管理是图书馆管理的核心。图书

馆管理主要包括三个方面:一是信息资源管理,即对 信息的搜集、加工、组织、开发利用等实施全寿命管 理;二是信息环境管理,主要包括信息技术管理、信 息政策管理、组织机构管理、设施与经费管理以及人 力资源管理;三是用户资源管理。其中,用户资源管 理是核心内容,信息资源管理与信息环境管理必须 以用户资源管理的要求和目标开展工作,因为只有 这样才能将“用户”作为一种资源有效地贯穿于图书 馆管理工作的全过程中,图书馆管理的效果与价值 87 命周期,抑制用户的流失。

(1)用户的获取。图书馆要在竞争日益激烈的

服务环境中生存和壮大就需要不断获得新的用户, 维持老的用户,而当用户数量不断增长,用户的细节 因素增多时,要为用户提供更好的服务并赢得更多 的用户只能依靠数据挖掘技术才能完成。利用数据 挖掘中的一些技术(如统计回归、逻辑回归、决策树、神经网络)揭示新用户的行为习惯,生成预测模型和 建立评分模型,预测发现一些在不同情况下有相似 行为的新用户,对潜在用户进行筛选,有效增加服务 推广效应,把潜在的用户名单和这些用户感兴趣的 资源与服务系统地结合起来,为每一个用户提供主 动化、个性化服务,使潜在用户转化为正式用户,以 不断地获取新用户。

(2)用户的保持与流失。用户保持与图书馆服

务能力息息相关。图书馆用户流失的主要原因之一 就是图书馆对用户的关怀和服务不够,因此保持原 有用户的工作对于图书馆来说变得非常重要。数据 挖掘技术可以对用户数据仓库中的大量数据进行分 析和处理,以识别、分析和评价用户流失风险,分析 出用户为什么会流失?哪些因素会导致用户的流 失?用户流失风险主要来自于何处?如何保留住图 书馆的高价值用户?在用户保持中,一般涉及3个 过程:首先,建立模型用来预测和识别潜在的流失用 户;其次,通过数据挖掘识别潜在流失用户中的图书 馆重要用户;第三,利用聚类分析等方法对图书馆重 要用户中的潜在流失者进行分析挖掘,识别其行为 模式等,从而有针对性地采取相应的服务措施,保留 住用户[10]。几个相关问题的思考

首先是数据挖掘精度的问题。当前许多数据挖 掘系统或工具都是数据驱动的数据挖掘,仅仅是在 数据内容上产生规则,因此来源数据的准确性对数 据挖掘精度将会产生很大的影响。此外,数据挖掘 不是万能的,而只是一个工具,它只是帮助图书馆工 作人员更深入、更容易地分析数据,它无法告诉你某 个用户模型对你的图书馆的实际价值。而且数据挖 掘中得到的模型必须要在实践中进行验证。将本体 理论与数据挖掘技术相结合是有效解决数据挖掘精 度问题的一种途径,因为基于用户本体的数据挖掘 将利用领域知识或背景知识,可在高层次上进行数 据挖掘,产生高层次或多层次的规则,甚至是具有语 义意义的规则,同时可利用本体进行数据预处理,提 高待挖掘数据的质量[11]。

其次是用户隐私保护问题。在构建用户数据仓

库的前期,对于用户数据进行预处理阶段要注意将显 示用户隐私的数据处理掉,例如对不愿透露自己IP 地址的用户,如果日志记录访问时间为10:32/10-29-02,可以用102902-1032-A作为其IP地址代码[12]。第三是数据挖掘系统嵌入图书馆其它应用系统 的问题。目前数据挖掘技术正在不断发展和成熟, 许多数据挖掘工具可以和图书馆相关应用系统集 成,成为嵌入式的技术。参考文献 周倩.构建图书馆现代化CRM系统.图书情报工作, 2004(6)2 周倩.复合图书馆信息资源管理研究.图书情报知识, 2003(5)3 冯是聪单松巍等.基于Web挖掘的个性化技术研究.Http://net.cs.pku.edu.cn/~webg/twpaper/fsch web personalize.pdf(2005-11-08)4 朱建平,张润楚等.数据挖掘的发展及其特点.知识丛 林,2002(7)5 Scott Nicholson.Bibliomining for Automated Collection Development in a Digital Library Setting:Using Data Mining to Discover Web-Based Scholarly Research Works.Http://dlist.sir.arizona.edu/625/01/asisdiss.html(2005-10-26)6 Nicholson,Scott and Stanton,Jeffrey.Gaining Strategic Advantage through Bibliomining:Data Mining for Man-agement Decisions in Corporate,Special,Digital,and Traditional Libraries.Http://dlist.sir.arizona.edu/826/(2005-12-28)7 New OCLC Research projects:Curiouser,Data Mining, and WikiD(nee MetaWiki).Http://(2005-10-28)10杨中华.数据挖掘在客户关系管理中的应用研究.湖北 汽车工业学院学报,2004(1)11邢平平等.基于本体论的数据挖掘方法.计算机工程, 2001(5)12 Scott Nicholson.The Bibliomining Process:Data Ware-housing and Data Mining for Library Decision-Making(收稿日期:2006-04-10)

第三篇:数据挖掘在培训管理中的应用论文

1、引言

对很多培养机构而言,目前急需解决的问题主要有:如何根据不同成员需求设置合理的课程、如何通过教学方式提高成员学习积极性、如何提高成员培训效果、如何通过考核检验成员学习成果等,都是培养机构发展过程中必须面对的问题。随着我国信息化进程的加快,一些培养机构也开始进行信息化建设,通过信息系统对培训相关事宜进行管理。但目前在针对培养机构的信息系统中,所实现的功能和模块是进行简单的查询、统计。在了解培训评估效果时,目前的信息系统中,学员通过系统对不同课程的教师进行打分,系统自对进行汇总、统计,得出教师评价。但这种汇总、统计是最简单的,对教师评价也缺乏全面性和深度。

2、数据挖掘在培训管理系统中的应用

大数据时代下,数据信息呈现出海量特点。如何从海量、不完全的信息中寻找到真正有用的信息,是大数据时代中重要的问题。由此便利用到数据挖掘,顾名思义,数据挖掘就是从众多数据信息中寻找到有用、有价值的信息。大数据时代下,教育行业中,信息量也是海量的,要想提高教学质量就需要运用数据挖掘找寻到有用的教育信息,并运用到实际教学中。信息系统通过一段实际应用后,里面存储了大量数据,相应的,学习管理系统也是如此,里面蕴含了大量数据信息。如在线课程等功能中藏有大量师生应用过程中的数据资料。如图1为数据挖掘在培训管理中的流程图。

2.1初步探索

培训管理系统中一般具有数据统计功能,将相关事宜进行统计。如网络课程开展过程中,数据挖掘在培训管理系统中的应用文/张宏亮在大数据时代,如何使用现有的数据对学员进行培训管理,从而提高培训效率是当前培训管理中所面临的问题。本文分析了数据挖掘在培训管理中的应用主要表现在初步探索、数据预处理以及数据挖掘过程。其中数据预处理和数据挖掘是培训系统的核心功能。

2.2数据预期处理

数据预处理时,原始数据库会发生转变,以适应数据挖掘、数据挖掘算法等的要求。在处理结构化的数据时,数据预处理需要完成两项任务,即消除数据缺陷现象的存在和为数据挖掘奠定良好基础。数据处理是对现有的数据进行前期处理,方便后期数据挖掘。如图2为培训管理系统中数据预处理模块。

2.3数据挖掘

WangJ开发了一个将数据挖掘技术与基于模拟的培训相结合的混合框架,以提高培训评估的有效性。以信仰为基础的学习概念,用于从知识/技能水平和信心水平的两个维度来评估学员的学习成果。数据挖掘技术用于分析受训人员的个人资料和基于模拟的培训产生的数据,以评估学员的表现和学习行为。提出的方法论以台湾基于模拟的步兵射击训练的实例为例。结果表明,提出的方法可以准确地评估学员的表现和学习行为,并且可以发现潜在的知识来提高学员的学习成果。BodeaCN使用数据挖掘技术进行了培训学习管理,用于分析参加在线两年制硕士学位课程项目管理的学生的表现。系统数据来源是收集学生意见的调查数据,学生记录的操作数据和电子学习的平台记录的学生活动数据。

3、总结

目前培训机构在进行教学评估时,所选择的指标都是参考其他机构的,并没有真正从自身实际出发进行评估,因此教学评估时存在诸多问题。其中最明显的两个问题是:第一教学评估方式单一化严重,只以数字评估为主;第二评估时容易受各种主观因素影响。

参考文献

[1]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(07):117-118.[2]王全旺,赵兵川.数据挖掘技术在Moodle课程管理系统中的应用研究[J].电化教育研究,2011(11):69-73.[3]陈怡薇.数据挖掘技术:教育培训管理新手段[J].石油化工管理干部学院学报,2014(04):49-52.[4]肖明,陈嘉勇,栗文超.数据挖掘在学习管理系统中应用的研究进展综述[J].现代教育技术,2010,20(09):127-133.

第四篇:在现代档案信息管理系统中引入数据挖掘技术论文

计算机技术的不断发展,信息技术不断加强,在社会新的发展趋势下,以往的传统管理模式落后于现代化发展的管理水平。为了创新档案管理的模式,提高档案管理的质量,在现代档案信息管理系统中引入数据挖掘技术。

1、信息挖掘技术

1.1数据挖掘技术概述

数据挖掘技术是一种基于统计学、人工智能等等技术基础上,能够自动分析原有数据,从而做出归纳整理,并对其潜在的模式进行挖掘的决策支持过程,简单来说就是从一系列复杂的数据中提取人们需要的潜在性信息。

1.2数据挖掘技术的方法

二十世纪末,计算机挖掘技术产生。其一般用到的方法有:

(1)孤立点分析。孤立点分析法主要用于对于特殊信息的挖掘。

(2)聚类分析。聚类分析方法是在指定的对象中,对其价值联系进行搜索。

(3)分类分析。分类分析就是找出具有一定特点的数据,对需要解读的数据进行识别。

(4)关联性分析。关联性分析方法是对指定数据中出现频繁的数据进行挖掘。

(5)序列分析。与关联性分析法一样,由数据之间内在的联系得出潜在的关联。

1.3计算机挖掘技术的形式分析

计算机挖掘技术在使用过程中,收集到的数据不同,数据收集的方法也就不同。在对数据挖掘技术进行形式分析的时候,主要用到:分类形式、粗糙集形式、相关规则形式。

2、计算机数据挖掘技术在档案信息管理

系统中的应用计算机挖掘技术,能够将隐藏的信息挖掘出来并进行总结和利用,运用到档案管理中来,在充分发挥挖掘技术作用的同时,极大的提高了档案数据的利用价值。数据挖掘技术在档案管理系统中,一般用到的方法为:

2.1收集法

该方法在对数据库中的数据进行分析的基础上,建立对已知数据详细描述的概念模型。然后将每个测试的样本与此模型进行比较,若有一个模型在测试中被认可,就可以以此模型对管理的对象分类。例如,档案管理员就某事向客户进行问卷调查并将答案输入到数据库中。在该数据库中,对客户的回答进行具体属性描述,当有新的回答内容输入的时候,系统会自动对该客户需求分类,在减轻管理员工作压力的同时,提高了档案管理的效率。

2.2保留法

该方法是防止老客户档案丢失并将客户留住的过程。对于任何一个企业来说,发展一个新的客户的成本要远远高于留住一个来客户的成本。在客户保留的过程中,对客户档案流失原因的分析至关重要,因此,采用挖掘技术对其进行分析是必要的。

2.3分类法

通过计算机挖掘技术对档案进行分类,按照不同的性质进行系统的划分,将所有相似或相通的档案进行整理,在人们需要的时候,能够快速的被提取出来,提高了检索的效率和分类的专业性。

3、档案管理引入计算机挖掘技术的必要性

计算机挖掘技术的应用,对档案管理方式的不断完善有着极其重要的意义,其重要性主要体现在:

3.1对档案的保护更全面

一部分具有历史意义的档案,随着保存的时间不断增加,其年代感加强,意义和价值增大。相应的,利用的频率会随着利用的价值增加,也更容易被损坏从而导致档案信息寿命折损,此外,管理不当造成泄密,使档案失去了原本的利用价值,这种存在于档案管理和利用之间的矛盾,使得档案管理面临着巨大的难题。挖掘技术的运用,缓解了这种矛盾,在档案管理工作中具有重要的意义。

3.2提升档案管理的质量

在档案信息管理系统中引入计算机挖掘技术,使得档案信息管理打破了传统的模式,通过挖掘技术,对管理的模式有了极大的创新,工作人员以往繁重的工作压力得到释放,时间和精力更加丰富,在对档案管理的细节方面也就更加注意,同时也加快了对档案的数据信息进行处理的速度,提升档案管理的整体质量。

4、结语

综上所述,计算机数据挖掘技术涉及的内容很广,对挖掘技术的运用,使得各行各业的发展水平得到了很大的提高,推动社会经济的发展,带动社会发展模式的创新。在档案管理中使用计算机挖掘技术,使得档案信息保存的方法及安全性有了很大的提高。同时,也需要档案信息管理人员在进行档案信息管理的时候,能合理利用计算机信息挖掘技术,在提高工作效率的同时,促进管理模式的不断创新,以适应时代发展的要求。

第五篇:数据挖掘在房地产营销中的应用

文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类

一、房地产行业需要数据挖掘技术的支持

随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。

数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。

二、数据挖掘在房地产行业的应用

1.数据挖掘的概念

对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。

数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。

数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:

(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。

(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”

(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。

(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。

(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。

2.数据挖掘的市场研究价值

数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:

(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。

(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。

(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。

(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。

目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。

3.数据挖掘在房地产客户研究中有着广泛的应用

房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。

对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:

4.明确商业目标

三、如何在房地产行业应用数据挖掘技术

应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。

5.数据准备

基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。

如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。

很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。

处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。

6.建立模型

建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。

一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。

接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。

大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。

7.输出结果的评价和解释

模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。

直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。

8.实施

模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。

在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。

四、应用举例:基于客户分类的关联分析

1.商业目标

为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备

本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。

3.建立模型

(1)对数据进行分类

本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。

案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。

(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:

注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。

b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。

c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。

d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。

上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:

关联规则A1:地理位置无关型客户=≥重视物业管理

支持率=9.7% 可信度=30.3% 兴趣度=2.4与

关联规则B1:重视物业管理 =≥地理位置无关型客户

支持率=9.7% 可信度=76.9% 兴趣度=2.4

对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。

其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。

需要说明:

a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。

b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。

c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。

五、房地产行业数据挖掘的应用前景

随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:

1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。

2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。

下载基于属性重要度约简算法在数据挖掘中的应用研究论文(最终5篇)word格式文档
下载基于属性重要度约简算法在数据挖掘中的应用研究论文(最终5篇).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    我的读书笔记(一):数据信息中的相似度计算算法

    我的读书笔记(一):数据信息中的相似度计算算法 无意中发现这本貌似不错的书 Mining of Massive Datasets,随便记一下学到的东西。因为对数据挖掘没什么研究,理解肯定很肤浅,请过往......

    高校管理中数据挖掘技术的研究论文

    摘要:近年来,数据库挖掘技术的普遍应用,使数据价值实现最大化,在我国金融、商业、市场营销等领域得到广泛应用。然而在我国高校管理中并没有得到推广,为使高校管理系统中的数据充......

    关于数据挖掘在出口退税中的应用

    关于数据挖掘在出口退税中的应用1 引言 出口货物退(免)税,简称 出口退税 ,其基本含义是一个国家或地区对已报送离境的出口货物,由税务机关将其在出口前的生产和流通的各环节已经......

    数据挖掘在企业竞争情报系统中的应用

    数据挖掘在企业竞争情报系统中的应用摘要:本文主要概述了数据挖掘技术的发展历史和研究现状。并将数据挖掘技术在企业竞争情报系统中的应用状况分别从国内和国外两方面作了介......

    公共管理论文--将数据挖掘技术应用在客户关系管理中

    [摘要] 在客户关系管理中,企业将面临大量的来自于客户和市场的数据和信息,这些数据是大量的、不完全的、有噪声的、模糊的、随机的,但同时又是非常有用的。数据挖掘技术可以将......

    浅谈数据挖掘技术及其在高等学校教学中的应用教育论文

    关键词:数据挖掘 高校教学 教育信息化摘要:数据挖掘技术目前在商业、金融业等方面都得到了广泛的应用,而在教育领域应用较少。本文通过时数据挖掘在高校教学中的应用分析,认为......

    数据挖掘技术在客户关系管理中如何应用毕业论文.

    数据挖掘技术在客户关系管理中如何应用 根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最......

    现代教育技术在英语教学中的应用研究 论文

    一 现代教育技术是科学技术高速发展的产物。随着新课程改革的不断深入, 现代教育技术越来越多的被应用于英语课堂教学中为英语学科教学带来了革命性的变化。多媒体技术和英......