第一篇:数据挖掘研究的现状与发展趋势_郑继刚
数据挖掘研究的现状与发展趋势
郑继刚,王边疆
(保山学院数学系,云南保山678000)影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等.目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法.4.2多媒体数据挖掘
多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术.有研究者提出了多媒体数据挖掘的系统原型
MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域.4.3时序数据挖掘
时序数据挖掘通过研究信息的时间特性,深入洞
悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.国内对于时序数据的研究比较少,使用的方法和 技术主要有人工神经网络技术,利用它预测和处理混 沌观测时间序列能达到较高的精度[9].此外还有通 过对时序数据进行离散傅立叶变换将其从时域空间 变换到频域空间,将时序数据映射为多维空间的点, 在此基础上,有学者提出一种新的基于距离的离群数 据挖掘算法[10].4.4Web数据挖掘
随着Internet/Web技术的快速普及和迅猛发展, 使各种信息可以在网络上获得,但是它是巨大的、分 布广泛的、全球性多样的和动态变化的.面对如此大 量的Web数据,如何在这个全球最大的数据集合中 发现有用信息成为Web数据挖掘研究的热点.当前, Web数据挖掘可分为四类,即Web内容挖掘、Web结 构挖掘、Web使用记录挖掘和Web用户性质挖掘.4.5不确定数据挖掘
传统的数据挖掘技术处理位置已经被精确给定 的对象,然而在实际应用领域,由于测量仪器的局限 性会造成测量值的不准确,数据的不确定性是不可避 免的.数据的不确定性主要可以分为存在的不确定性 和值的不确定性两大类,存在的不确定性指的是不确 定对象或元组的存在与否,如关系数据库的某个元组 和一个概率相关联表示这个元组存在的可信度,值的 不确定指的是一个元组的存在是确定的,但它的值是 不确定的.现在对不确定数据挖掘的研究已成为热点,在聚
类分析、关联规则、空间挖掘等方面都有突破,经典的
K-means算法扩展到了UK-means算法,Apriori算 法扩展到了UApriori算法等.5数据挖掘面临的问题
数据挖掘任务、数据挖掘方法、用户交互、性能和 各种数据类型的多样性,给数据挖掘提出了许多挑战 性的课题.数据挖掘语言的设计,高效而有用的数据 挖掘方法和系统的开发,交互和集成的数据挖掘环境 的建立,以及应用数据挖掘技术解决大型应用问题, 都是目前数据挖掘、系统、研究人员和应用开发人员 所面临的主要问题[11].5.1挖掘方法和用户交互问题
这反映所挖掘的知识类型、在多粒度上挖掘知识 的能力、知识的使用、特定的挖掘和知识可视化.如, 数据库中挖掘不同类型的知识;多个抽象层的交互知 识挖掘;结合背景知识;数据挖掘查询语言和特定的 数据挖掘;数据挖掘结果的表示和可视化;处理噪声 和不完全数据;模式评估即兴趣度问题.5.2性能问题
主要包括数据挖掘算法的有效性、可伸缩性和并 行处理等性能问题.如,数据挖掘算法的有效性和可 伸缩性;并行、分布式和增量挖掘算法.5.3关于数据库类型的多样性问题
如,关系的和复杂的数据类型的处理;由异种数 47红河学院学报 2009.2/数学 表1 数据挖掘研究的进化历程
进化阶段支持技术产品厂家产品特点 数据搜集
(20世纪60年代)计算机、磁带和磁盘IBM、CDC提供历史性的、静态的数据信息 数据访问
(20年代80世纪)关系数据库、结构化查询语言、ODBC Oracle、Sybase、Informix、IBM、Microsoft 在记录级提供历史 性的、动态的数据信息 数据仓库、决策支持(20世纪90年代)联机分析处理、多维数据库、数据仓库
Pilot、Comshare、Arbor、Cognos、Microstrategy 在各种层次上提供
回溯的、动态的数据信息 数据挖掘(正在流行)高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其它初创公司提供预测性的信息 3数据挖掘研究的现状与成果
在国外,数据挖掘技术已被广泛的应用于各个领 域,其中一些典型应用如加州理工学院喷气推进实验 室与天文科学家合作开发的SKICAT系统,能够帮助 天文学家发现遥远的类星体,是人工智能技术在天文 学和空间科学上的第一批成功应用之一;生物学研究 中用数据挖掘技术对DNA进行分析;利用数据挖掘 技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout)系统针对NBA 的比赛数据,帮助教练优化战术组合等[5].在学术研究上,数据库、人工智能、信息处理、知 识工程等领域的国际学术刊物也纷纷开辟了数据挖
掘专题或专刊,如IEEE的KnowledgeandDataEngi-neering会刊领先在1993年出版了数据挖掘技术专 刊,在Internet上还有不少数据挖掘电子出版物,其中
以半月刊KnowledgeDiscoveryNuggets最为权威.另 一份在线周刊为DS*(DS代表决策支持),1997年
10月7日开始出版,可向dstrial@tgc.com提出免费 订阅申请.与国外相比,国内对数据挖掘的研究稍晚,没有
形成整体力量.1993年国家自然科学基金首次支持 数据挖掘领域的研究项目,目前,国内的许多科研单 位和高等院校竞相开展数据挖掘和知识发现的基础 理论及其应用研究,这些单位包括清华大学、中科院 计算技术研究所、空军第三研究所、海军装备论证中 心等.例如,复旦大学施伯乐教授领导开发了数据挖
掘工具集AMINER;北京大学智能科学系的唐世渭和 杨冬青教授领导开发了基于空间数据挖掘的客户分 析系统模型CASDM.此外,清华大学周立柱教授领导 的数据挖掘研究小组,四川大学唐常杰教授领导的针 对时间序列方面的数据挖掘研究小组,中国科技大学 蔡庆生教授领导的针对关联规则的研究小组,复旦大 学朱扬勇教授领导的数据挖掘工作组,云南大学王丽 珍教授带领的针对不确定数据挖掘的研究小组等,都 取得了许多重要的研究成果.在数据挖掘算法研究方 面,中科院计算所史忠值研究员、清华大学石纯
一、陆 玉昌教授、武汉大学李德仁院士、北京科技大学杨炳 儒教授、复旦大学周傲英教授等都取得了许多重要的 研究成果.国内比较重要的会议有全国数据库学术会
议(NationalDataBaseAcademicConference,简称ND-BC),权威的杂志有《计算机学报》、《软件学报》和 《计算机研究与发展》等[6].4数据挖掘研究方向
数据挖掘涉及的学科领域和方法很多,有不同的 分类分支.根据挖掘任务可以分为:分类或预测模型
发现、数据总结与聚类发现、关联规则发现、序列模式 发现、相似模式发现、混沌模式发现、依赖关系或依赖 模型发现、异常和趋势发现等;根据挖掘对象可以分 为:关系型数据库挖掘、面向对象数据库挖掘、空间数 据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体 数据库挖掘、异质数据挖掘、遗产数据挖掘、Web数据 挖掘等;根据挖掘方法可以分为:机器学习方法、统计 方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证 据理论和元模式的方法、现代数学分析方法、粗糙集 方法和集成方法等;根据数据挖掘所发现的知识可以 分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型 知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定 性知识等[7].4.1空间数据挖掘
空间数据是从遥感、地理信息系统(GIS)、多媒 体系统、医学和卫星图像等多种应用中收集而来,收 集到的数据远远超过了人脑的分析能力.空间数据挖 掘技术按功能划分可分为三类:描述、解释、预测.描 述性的模型将空间现象的分布特征化,如空间聚类;解释性的模型用于处理空间关系,如处理一个空间对 46郑继刚王边疆:数据挖掘研究的现状与发展趋势
摘 要:数据挖掘作为提取知识的过程,概述了数据挖掘研究的过去和现状,着重分析了目前数据挖掘的分支方向、面临的
问题,并对数据挖掘技术的发展趋势作了展望.关键词:数据挖掘;分支;研究;现状;趋势
中图分类号:TP31文献标识码:A
文章编号:1008-9128(2010)02-0045-04
进入信息时代,保存在计算机中的文件和数据库 中的数据量正在以指数速度增长,同时人们期望从数 据中获得更有用的信息.实际上,这些数据中只有一 小部分有用,但人们却渴求获得知识,正面临“数据丰 富而知识贫乏”的问题,所以迫切需要一种新的技术 从海量数据中自动、高效地提取所需的有用知识,这 时,数据挖掘技术由此而生.数据挖掘(DataMining,简称DM)所要处理的问 题,就是在庞大的数据库中找出有价值的隐藏事件, 并且加以分析,其主要的贡献在于从数据库中获取有 意义的信息以及对数据归纳出有用的结构,作为企业 进行决策的依据.此外,数据挖掘的也是发现数据库 拥有者先前关心却未曾知悉的有价值信息.事实上, 数据挖掘并不只是一种技术或是一套软件,而是一种 结合数种专业技术的应用[1].1数据挖掘的定义
数据挖掘又叫做数据库中发现知识(Knowledge
DiscoveryinDatabase,简称KDD),是20世纪90年代 以来发展起来的数据库系统和数据库应用领域一个 欣欣向荣的前沿学科,是从大量的、不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中 的但又是潜在有用的信息和知识的过程[2].它涉及 到对数据库中的大量数据进行抽取、转换、分析以及 模型化处理,从中提取辅助决策的关键性数据.数据 挖掘可以帮助决策者寻找规律,发现被忽略的要素, 预测趋势,进行决策,也是对数据内在和本质的高度 抽象与概括,是对数据从理性认识到感性认识的升 华.数据挖掘是一门交叉学科,它把人们对数据的应 用从低层次的简单查询,提升到从数据中挖掘知识, 提供决策支持.是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术 基础上的一门新兴技术.因此,在这种需求牵引下,汇 聚了不同领域的研究者,吸引了数据库技术、人工智 能技术、数理统计、可视化技术、并行计算等方面的学 者和工程技术人员投身到数据挖掘这一新兴的研究 领域,形成新的技术热点.2数据挖掘研究的过去
数据库中发现知识一词首次出现于1989年在美 国底特律召开的第十一届国际联合人工智能学术会 议上,到1995年在加拿大蒙特利尔召开的首届KDD
&DataMining国际学术会议,再到以后每年都要召开 一次的KDD&DataMining国际学术会议,经过十多年 的努力,数据挖掘技术的研究已经取得了丰硕的成 果,不少软件公司已研制出数据挖掘软件产品,并在 北美、欧洲等国家得到应用[3].数据挖掘可以认为是数据库技术和信息技术自 然演变的结果.在数据库业界,数据挖掘的进化经历 了四个阶段:数据搜集、数据访问、数据仓库和决策支 持(见表1)[4].收稿日期:2010-02-26 作者简介:郑继刚(1983-),男,云南保山人,讲师,云南大学在读硕士.研究方向:数据挖掘.据库和全球信息系统挖掘信息.6数据挖掘的发展趋势
数据挖掘任务和数据挖掘方法的多样性对数据
挖掘提出了许多挑战性的研究问题,在将来会形成更 大的高潮,研究焦点可能会集中到以下几个方面:研 究专门用于知识发现的数据挖掘语言,走向形式化和 标准化;寻求数据挖掘过程中的可视化方法,使得知 识发现的过程能够被用户理解,也便于在知识发现过 程中的人机交互;研究在网络与分布式环境下的数据
挖掘技术,特别是在Internet上建立数据挖掘服务器, 与数据库服务器配合,实现数据挖掘;加强对各种非 结构化数据的挖掘,如文本数据、图形图像数据、多媒 体数据;探索可伸缩的和可交互的数据挖掘方法,全 面提高挖掘过程的总体效率,尤其是超大规模数据集 中数据挖掘的效率;扩大数据挖掘应用范围,如金融 分析、生物医药研制、犯罪侦查等;开发适应多数据类 型、容噪的挖掘方法,以解决异质数据集的数据挖掘 问题;动态数据和知识的数据挖掘等.结语
在这个年轻且充满希望的研究领域,商业利益的 强大驱动力将会不停地促进数据挖掘技术的发展,每 年都有新的数据挖掘方法和模型问世,人们对它的研 究正日益广泛和深入.虽然对数据挖掘的研究取得了 一定的成果,但是数据挖掘研究仍然面临着许多问题 和挑战,还存在许多问题等待我们去探索和研究.参考文献: [1]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发 展[J].统计与信息论坛,2008(5):94-96.[2]JiaweiHan,MichelineKamber.数据挖掘概念与技术 [M].北京:机械工业出版社,2007:25-26.[3]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑 与信息技术,2006(2):46-49.[4]陆建江,张亚非,宋自林.模糊关联规则的研究与应用 [M].北京:科学出版社,2008.[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发 展研究[J].管理工程学报,2004(3):10-15.[6]徐雪琪.基于统计视角的数据挖掘研究[D].杭州:浙 江工商大学,2007.[7]毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.[8]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(5):44-47.[9]臧洌.人工神经网络在混沌观测时序数据处理中的应 用[J].数据采集与处理,2001(4):486-489.[10]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据 挖掘新算法[J].控制与决策,2002(3):324-327.[11]林建勤.数据挖掘主要问题的对策研究[J].贵阳学 院学报,2007(2):1-4.[责任编辑 宋焕斌] CurrentSituationandDevelopmentTrendofDataMining
ZHENGJi-Gang,WANGBian-Jiang
(BaoshanCollege,Baoshan678000,China)Abstract:Thispaperoutlinesthepastandpresentsituationofdataminingasaprocessofknowledgeextraction.ItfocusesonanalyzingthebranchofdataminingandProblemoffacing,givinganoutlookonthedevelopmenttrendof dataminingtechnology.Keywords:datamining;branch;research;currentsituation;trendClassNo:TP311DocumentMark:A 48郑继刚王边疆:数据挖掘研究的现状与发展趋势
第二篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世
第三篇:生物制药现状与发展趋势研究
生物制药技术现状与未来发展趋势研究
学生姓名 张溢峰
班 级 生物技术132 专业名称
生物技术
学院名称 生命科学与技术学院
指导教师 李文兰
提交日期 2016年1月15日
广西大学生命科学与技术学院
2016年 1月
摘要:生物技术药物(biotech drugs)又称为生物药物(biopharmaceutics)。以组合化学、药学基因(功能抗原学、生物信息学等高技术为依托,融合了医学、生物学、药物学等先进技术,以分子遗传学、分子生物、生物物理等基础学科的突破为后盾形成的产业。生物制药技术将对生物技术药物的创新与发展产生十分重要的影响和作用。笔者总结了生物制药的现状,生物技术药物的分类,生物制药的发展趋势,我国生物技术制药的发展方向,并展望了我国生物制药行业的前景。
关键词 :生物制药技术;发展趋势;发展;现状;研究;生物技术
“21 世纪是生物的世纪”这一观点已经逐渐地被越来越多的人所接受,且正沿着它特有的轨道一步步的成为现实。生物制药是指运用微生物学、生物学、医学、生物化学等的研究成果“从生物体生物组织细胞体液等”综合利用微生物学、化学、生物化学、生物技术、药学等科学的原理和方法制作的一类用于预防、治疗和诊断的制品。其中最为主要的是基因工程方法,即利用克隆技术和组织培养技术,对DNA进行切割、插入、连接和重组,从而获得生物医药制品。生物制药产品主要包括三大类:基因工程药物、生物疫苗和生物诊断试剂。其在诊断、预防、控制乃至消灭传染病,保护人类健康延长寿命中发挥着越来越重要的作用。这些成果还可以帮助人类加速植物和动物的人工进化以及改善生态环境对人类的影响等,产生新的有机生命的研究也会取得进展。
目前,生物制药产业已经成为21世纪最具前途的产业之一, 是生物工程应用研发中最活跃和进展最快的领域。生物制药行业具有高技术、高投入、高风险、高收益、周期长等特点。世界上许多国家都把生物技术产业作为优先发展的战略性产业之一,不断加大对生物制药产业的政策扶持与资金投入。生物药物的阵营很庞大,全世界的医药品已有一半是生物合成的,特别是合成分子结构复杂的药物时,它不仅比化学合成法简便,而且有更高的经济效益。它的发展将帮助人类解决很多当前无法人类疾病,同时还可以改革食品的生产过程,彻底消除人类的营养不良。这些将极大的延长人类寿命,改善人们的生活。
一.生物制药的现状
目前生物制药主要集中在以下几个方向: 1 肿瘤
在全世界肿瘤死亡率居首位,美国每年诊断为肿瘤的患者为100万,死于肿瘤者达54.7万。用于肿瘤的治疗费用1020亿美元。肿瘤是多机制的复杂疾病,现在仍主要运用早期诊断、手术、放疗、化疗等手段进行综合治疗。今后10年抗肿瘤生物药物会迅速增多。如利用基因药物抗体抑制肿瘤的发展和扩散,如利用导向IL-2受体的融合毒素治疗CTCL肿瘤,如利用基因治疗法对肿瘤进行治疗(使用γ-干扰素基因对骨髓瘤的治疗)。基质金属蛋白酶抑制剂(TNMPs)可抑制肿瘤血管生长,阻止肿瘤生长与转移。这类抑制剂有可能成为广谱抗肿瘤治疗剂,已有3种化合物进入临床试验。神经退化性疾病 现在利用生物技术治疗老年痴呆症、脑中风、帕金森氏病及脊椎损伤的药物,如胰岛素生长因子rhIGF-1 目前已开始Ⅲ期临床实验。神经生长因子(NGF)和BDNF(脑源神经营养因子)用于治疗末稍神经炎,肌萎缩硬化症,均已进入Ⅲ期临床。全国每年中风患者大概60 万,每年死于中风患者达15 万。中风症的有效防治药物不多,尤其是可治疗不可逆脑损伤的药物更少,CerestaL已被证明能对中风患者的脑力有显著改善和稳定作用,已经进入Ⅲ期临床试验。自身免疫性疾病
许多炎症由自身免疫缺陷引起,如哮喘、风湿性关节炎、多发性硬化症、红斑狼疮等。我国风湿性关节炎患者多达4000 多万,每年花费巨额医疗费,很多制药公司正对这类疾病进行研究。如 Genentech公司研究一种人源化单克隆抗体免疫球蛋白E用于治疗哮喘,已进入Ⅱ期临床;美国Cetor′s 公司开发出一种用于治疗风湿性关节炎的TNF-α 抗体,治疗的有效率达80%。还有的公司在应用基因疗法治疗糖尿病,如将胰岛素基因导入患者的皮肤细胞,再将细胞注入人体,使工程细胞产生全程胰岛素供应。我国每年有接近一百万人死于冠心病,每年都要花费高额的治疗费。今后10年,防治冠心病的药物将是制药工业的重要增长点。Centocor′s Reopro公司应用单克隆抗体治疗冠心病的心绞痛和恢复心脏功能取得成功,这标志着一种新型冠心病治疗药物的延生。随着基因组科学的建立以及基因操作技术的迅速发展,目前基因治疗与基因测序技术正在进行商业化开发,推动了治疗学的发展。转基因技术用于构造转基因植物和转基因动物,已逐渐进入产业阶段,用转基因绵羊生产蛋白酶抑制剂ATT,用于治疗肺气肿和囊性纤维变性,已进入Ⅱ,Ⅲ期临床。大量的研究成果表明转基因动、植物将成为未来制药工业的另一个重要发展领域。
二.生物制药分类
生物药物的原料以天然的生物材料为主, 包括微生物、人体、动物、植物、海洋生物等。所以说,生物药物(或称生物技术药物)是集生物学、医药学的先进技术为一体,以化学、药学基因等高技术为依托,以分子遗传学、分子生物学等基础学科的突破为后盾所形成的产业。生物药物按它的用途不同可分为三大类: 生化药物、生物工程药物和生物制剂。
然而也可以用别的方式来进行分类。其一,重组蛋白质和重组多肽药物:即利用DNA重组技术,将重组对象的基因插入载体,拼接后转入新的宿主细胞,构建成工程菌(或细胞),实现遗传物质的重新组合,并使目的基因在工程菌内进行复制和表达,最后将表达的目的产物纯化并做成制剂,得到重组多肽、蛋白质类药物。其二,重组DNA药物:基因治疗是指向靶细胞或组织中引入外源基因DNA或RNA片断,以纠正或补偿基因的缺陷;关闭或抑制异常表达的基因;刺激产生相应的抗体,从而达到治疗和预防疾病的目的。其三,其他生物技术药物:如微生态制剂,另外还有利用生物技术生产的血液代用品、肿瘤疫苗等等。三.生物制药的发展趋势
现代生物技术已对医药产业发展产生了革命性影响,生物产业是一个以科学为基础的产业,它对工艺的依赖性低,对基础工业的要求相对较低。自从人类基因组计划完成以耒,结构基因组,功能基因组,蛋白质组等研究计划相继起动。这为生物技术的发展注入了强大的活力。各国对此十分重视,并把生物技术产业的发展作为国家经济发展中新的增长点之一。
生物学的革命不仅依赖于生物科学和生物技术的自身发展,而且依赖于很多相关领域的技术走向。尽管生物技术的高速发展使人们难以作出准确的预测,但是基因组图谱、克隆技术、遗传修改技术、生物医学工程、疾病疗法和药物开发方面的进展正在加快。
各种新技术的出现有助于新药物的开发。计算机模拟和分子图像处理技术相结合可以继续提高设计具有特定功能特性的分子的能力,成为药物研究和药物设计的得力工具。药物与使用该药物的生物系统相互作用的模拟在理解药效和药物安全方面会成为越来越有用的工具。
到下世纪初生物技术药物的种类数目尚不会超过一般药物的总数,但生物技术制药公司总数将超过前10年的6倍。
药物的研究开发成本目前已经高到难以为继的程度,每种药物投放市场前的平均成本大约为6亿美元。这样高的成本会迫使医药工业对技术的进步进行巨大的投资,以增强医药工业的长期生存能力。
总之,综合多学科的努力,通过新技术的创立可以大大拓宽发明新药的空间,增加发明新药的机遇与速度。因为这些手段可以寻找快速鉴定药物作用的靶,更有效地发现更多新的先导物化学实体,从而为发明新药提供更加广阔的前景。
四.我国生物技术制药的发展方向
我国生物医药产业还相对落后,但是国家和地方政府都在不断加大对该产业的发展力度,从政策和资金等各方面给予其便利。当前,我国已将生物制药作为经济发展的重点建设行业和高新技术的支柱产业来发展。当前一些科技发达或经济发达地区正在不断建立国家级生物制药产业基地,并初步形成了初具规模的生物医药产业集群,这对我国的生物医药产业发展起到了很好的带动作用。总体而言,中国生物制药产业未来充满希望,前景看好,中国的生物制药产业将呈继续增长态势。
综合起来考虑, 我国生物技术制药业今后的发展方向可以确定为:1)中草药及其有效生物活性成分的发酵生产;2)改造抗生素工艺技术;3)大力开发疫苗与酶诊断试剂;4)开发活性蛋白与多肽类药物这方面的开发5)开发研制靶向药物, 以开发肿瘤药物为重点6)发展氨基酸工业和开发甾体激素;7)人源化的单克隆抗体的研究与开发;8)血液替代品的研究与开发;9)人体基因组的研究。
五.我国生物制药行业的前景
(1)创投机构看好中国生物制药领域全球金融危机加剧,让创投机构在中国的脚步变得格外谨慎。但于北京举行的“2008ChinaVenture中国投资年会”上,以生物制药为代表的医疗领域,却被参会的创投精英一致看好。(2)眼光盯准生物新领域
虽然政府一直在鼓励创新研究,但是国内新药非常少,大部分都是舶来品。《规划》提出,“十二五”期间,将重点突破一批药物创制关键技术和生产工艺,完善新药创制与中药现代化技术平台,建设一批医药产业技术创新战略联盟,基本形成具有中国特色的国家药物创新体系。(3)前途光明,道路曲折
从历史情况看,产业政策在很大程度上决定了医药行业的景气度。已出台的《生物医药产业发展“十二五”规划》将会在产业发展方向和财政支持上给予更为明确的扶持。如果前瞻性地看未来五年的中国生物医药行业,我们认为:第一,中国生物医药市场空间依然广阔,第二,政策将引导行业走向更高层次的创新之路,第三,生物医药企业、尤其是中成药企业的类消费品化趋势亦会更加明显,第四,研发成本上升及周期加长,使得跨国药企的产业重心转移至中国,同时中国企业也将进一步尝试走向规范市场。
六.结语
生物制药是21世纪最核心的高新技术之一,,过去我们由于闭关锁国而错过工业革命的发展良机,由于文革而痛失信息技术革命带来的黄金发展机遇,,现在我们不能再次丧失生物技术带来的这次飞跃式发展机遇。我们要清醒认识到自身的差距与不足,找出制约我国生物制药发展的瓶颈,大力发展动物细胞大规模培养技术和治疗性抗体研究与开发的上中下游技术,把握机会, 实现跨越式发展。相信在完成人体基因组测序后,从人体基因组中寻找开发各种新药,将是一个激动人心的壮举。
(1)胡显文,陈惠鹏,汤仲明等.生物制药的现状和未来(一):历史与现实市场.中国生物工程杂志,2007,24(12).(2)熊宗贵,于荣敏,肖成祖等.生物技术制药.北京:高等教育出版社,2008.(3)李元,陈松森,王渭池等.基因工程药物.北京:化学工业出版社,2006.(4)杨汝德.基因克隆技术在制药中的应用.北京:化学工业出版社,2008.(5)胡显文,陈惠鹏,汤仲明等.美国、欧盟和中国生物技术药物的比较.中国生物工程杂志,2009,25(2).(6)彭俊文,蒋铭敏.生物技术药物的研究开发与产业化现状及前景.生物技术通讯,2008.(7)雷中良,张晓红,生物制药技术的发展现状及未来趋势.哈药集团制药总厂103车间,2012(8)吴梧桐,王友同,吴文俊,药物生物技术进展,药物生物技术,1995,2(3):40.(9)张国全,药学科学,国家自然科学基金委员会,北京:科学出版社,1995:48.(10)吴梧桐等,基因工程药物-基础与临床,人民卫生出版社,1996.(11)李元等,基因工程药物,化学工业出版社,2002,11,1.(12)唐冬生,夏家辉,新型基因工程药物,生命科学研究,第三卷第2 期.
第四篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第五篇:数据挖掘与电子商务
数据挖掘与电子商务
姓名:龚洪虎
学号:X2009230111
[摘 要] 企业的竞争优势并不取决于信息的拥有量,而是取决于信息的处理利用能力。如何化信息优势为竞争优势,是企业制胜于市场的一个法宝。本文论述了一种信息处理利用的有效工具——数据挖掘方法及其在电子商务中的应用。
[关键词] 数据挖掘 方法 电子商务 应用
随着网络技术和数据库技术的成熟,传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
一、电子商务和数据挖掘简介。
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。
数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。数据挖掘的过程有时也叫知识发现的过程。
而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、计算机语言、信息学、统计学等多个领域。
二、何谓数据挖掘及方法
确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。比较典型的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析等。它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。
1.关联分析。关联分析,即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如”90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。
2.序列模式分析。序列模式分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。它能发现数据库中形如”在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度S。
3.分类分析。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个②
记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。
4.聚类分析。聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,数据挖掘可以直接跟踪数据并辅助用户快速做出商业决策,用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中。
三、选择数据挖掘技术的两个重要依据。
数据挖掘使用的技术很多,其中主要包括统计方法、机器学习方法、和神经网络方法和数据库方法。统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等。机器学习方法可细分为归纳学习方法(决策树、规则归纳)、基于范例学习、遗传算法等。神经网络方法可细分为钱箱神经网络(BP算法)、自组织神经网络等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。由于每一种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,并且与具体的应用问题密切相关,因此成功的应用数据挖掘技术以达到目标过程本身就是一件很复杂的事情,本文主要从挖掘任务和可获得的数据两个角度来讨论对数据挖掘技术的选择。
三、数据挖掘在电子商务中的应用
数据挖掘能发现电子商务客户的的共性和个性的知识、必然和偶然的知识、独立和关联的知识、现实和预测的知识等,所有这些知识经过分析,能对客户的消费行为如心理、能力、动机、需求、潜能等做出统计和正确地分析,为管理者提供决策依据。具体应用如下:
1.分类与预测方法在电子商务中的应用。在电子商务活动中,分类是一项非常重要的任务,也是应用最多的技术。分类的目的是构造一个分类函数或分类模型,通常称作分类器。分类器的构造方法通常由统计方法、机器学习方法、神经网络方法等。这些方法能把数据库中的数据映射到给定类别中某一个,以便用于预测,也就是利用历史数据记录,自动推导出给定数据的推广描述,从而对未来数据进行预测。
2.聚类方法在电子商务中的应用。聚类是把一组个体按照相似性原则归成若干类别。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。市场细分的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体之间的距离尽可能大,通过对聚类的客户特征的提取,电子商务网站可以为客户提供个性化的服务。
3.数据抽取方法在电子商务中的应用。数据抽取的目的是对数据进行浓缩,给出它的紧凑描述,如求和值、平均值、方差值、等统计值、或者用直方图、饼状图等图形方式表示,更主要的是他从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、最基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用维数据分析方法进行数据抽取,他针对的是电子商务活动中的客户数据仓库。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大,可把汇集操作结果预先计算并存储起来,以便用于决策支持系统使用。
4.关联规则在电子商务中的应用。管理部门可以收集存储大量的售货数据和客户资料,对这些历史数据进行分析并发现关联规则。如分析网上顾客的购买行为,帮助管理者规划市场,确定商品的种类、价格、质量等。通常关联规则有两种:有意义的关联规则和泛化关联规则,有意义的关联规则,即满足最小支持度和最小可信度的规则。最小支持度,它表示一组对象在统计意义上的需满足的最低程度,如电子商务活动中的客户数量、客户消费能力、消费方式等。后者即用户规定的关联规则的最低可靠度。第二是泛化规则,这种规则更实用,因为研究对象存在一种层次关系,如面包、蛋糕属西点类,而西点又属于食品类,有了层次关系后,可以帮助发现更多的有意义的规则。
5、优化企业资源
节约成本是企业盈利的关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史的财务数据、库存数据和交易数据, 可以发现企业资源消耗的关键点和主要活动的投入产出比例, 从而为企业资源优化配置提供决策依据, 例如降低库存、提高库存周转率、提高资金使用率等。通过对Web数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化的响应能力和创新能力,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。
例如:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。
6、管理客户数据
随着“以客户为中心”的经营理念的不断深入人心, 分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。通过Web资源的挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何, 有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品, 以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后, 针对目标客户发送的广告的有效性和回应率将得到大幅度的提高, 推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促
①进客户关系管理的自动化和智能化。
三、结束语
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在在电子商务的潮流中立于不败之地。随着数据挖掘算法的不断发展和成熟,数据挖掘一定会有更加广阔的应用前景。
参考文献:
(1)《浅谈数据挖掘在电子商务中的运用》 钟连福;
(2)《电子商务中商业数据的挖掘方法》 中国电子商务研究中心;
(3)《在电子商务中如何正确有使用数据挖掘技术》 侠名;
(4)《曾贞:数据挖掘在电子商务中的应用》 甘肃农业,2004(7);
(5)《冯艳王坚强:数据挖掘在电子商务上的应用》 2002(3);
(6)《吕延杰徐华飞:中国电子商务发展研究报告》北京邮电大学出版社 ;
(7)《数据挖掘与电子商务》 邓鲲鹏,周延杰,严瑜筱。①