数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文

时间:2019-05-13 09:11:51下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文》。

第一篇:数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文

谢邦昌

辅仁大学统计信息学系 教授

中华资料采矿(Data Mining)协会理事长

中国人民大学统计学系Data Mining中心客座教授

北京商智通信息技术有限公司(bistone.com)首席统计学家厦门大学计划统计学系讲座教授兼博导

北京首都经贸大学统计学院兼职教授暨博士生导师

中央财经大学统计学院兼职教授暨博士生导师

北京理工大学管理学院兼职教授

天津财经大学客座教授

西南财经大学客座教授

西安统计学院特聘研究员

JournalofDataScience执行编辑(2003-迄今)

调查研究—方法与应用编辑委员

数据分析 Journal of Data Aanlysis主编

◎前言

在解决问题之前,我们往往必须收集相关的信息以工作分析。然而,在日常商业过程中执行作业应用程序会产生大量的数据,将这些数据有效运用在决策过程中,可以有很大的加值效益。而数据挖掘(Data Mining)能探勘信息所隐含的真实意义,能自动挖掘出数据间微妙的关联性或发觉某种决策模型,协助决策者建立预测及决策模型。

Data Mining所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析。主要的贡献在于,它能从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为企业进行决策的依据。此外,数据挖掘主要目的是发现数据库拥有者先前关心却未曾知悉的有价值信息。事实上,数据挖掘并不只是一种技术或是一套软件,而是一种结合数种专业技术的应用。

为了对数据挖掘有更进一步的了解,兹对于数据挖掘的过去、现在与未来做一些阐述。

◎ 数据挖掘的过去

□Usama Fayyad为数据挖掘的开山祖师爷

Usama Fayyad 出生于突尼西亚,1987 年就读密西根大学时,参加 GM 的暑期工作,目的是从数以千万计的维修记录中找出规则,协助维修人员迅速发现问题。Fayyad 发现的 Pattern 辨识算法,不但成了他 1991 年论文的主题,也衍生出后来 Data Mining的发展。

离开密西根后,Fayyad 加入 NASA 的喷射推进实验室,他的算法在太空探测、地质研究等工作上均展现了非常惊人的潜力,最后连美国军方也开始应用这样的技术来增强雷达解读与辨识数据的能力。

Fayyad 与同好在 1995 年召开首次的 KDD Conference,几年下来,已成为 Data Mining 界的年度盛会了。

Data Mining最早是被应用在天文学上,藉由机器学习、类型辨识及统计等技术,在短短4小时内所发现的行星胜过20多位天文学家4年的研究成果。

◎ 数据挖掘的现在□数据在积年累月地储存以后,数据量大量暴增,Data Mining已成为企业挖掘信息金矿的核心技术

时至今日,在网络环境的促使下,企业每日增加的数据量正以惊人的速度成长,而随着理论与算法成熟及计算机运算能力大幅进步,Data Mining已成为企业挖掘信息金矿的核心技术。

□Data Mining结合智能化的、能综合应用各种统计方法的软件来分析庞大数据数据,成为目前国际上统计最热门的话题

随着计算机、网络技术的发展,要获取某一问题的有关数据已经不是非常困难的事情了。但是对于数量大、涉及面宽的数据,靠以往人工汇总报表是无法完成的,而那种由简单汇总、按指定模式去分析的统计方法也无法适应这类数据的分析。因此,一种智能化的、能综合应用各种统计方法来分析庞大数据数据的软件就应运而生,这就是目前国际上统计最热门的话题Data Mining技术的市场需求和它的技术支持背景。

□有许多不同领域的专家纷纷投入Data Mining这新领域

Data Mining是一个浮现中的新领域。在范围和定义上、推理和期望上有一些不同。挖掘的信息和知识从巨大的数据库而来,它被许多研究者在数据库系统和机器学习当作关键研究议题,而且也被企业体当作主要利基的重要所在。有许多不同领域的专家,对Data Mining展现出极大兴趣,例如在信息服务业中,浮现一些应用,如在Internet之数据仓储和线上服务,并且增加企业的许多生机。并且产学合作下,发展出许多实用的系统,例如MDT、Coverstory and Spotlight、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项增加各企业潜能的重要指针。

□为适应外界的竞争,利用数据库来进行信息的获取已成为企业的焦点

随着信息科技的进步以及电子化时代的来临,现今企业所面对的是一个与以往截然不同的竞争环境,不仅企业竞争的强度与速度倍增,市场交易也使得各企

业所需储存与处理的数据量越来越庞大。在这种情况下,企业的焦点已从以往的数据整理与搜集转向有效的利用数据库来进行信息的获取。企业如何适应外界的竞争,能快速有效地从数据库中取得有用的信息,反映市场或消费者的需求,成为各企业重视的焦点。

□Data Mining目前已被广泛应用在许多领域

Data Mining的技术可将原始数据转换为可执行的企业指针,诸如如何了解客户的全貌,更进而预测未来的行为以创造客户更高的价值、建立客户流失预测模型以防止客户的流动、建立风险及信用评估模型来降低企业经营风险、区隔市场挖掘新商机等等企业经营决策指针。也唯有将信息转化为企业利润的提升,才能真正显数据仓储及客户关系管理等系统的投资效益。因此,Data Mining运用的范围广泛,不但可用来将数字资产转换为有形的企业营收,更可用来稽核其它系统的效益。

目前企业界把Data Mining应用在许多领域。例如,科学、行销、工业、商业、体育、财务、银行、制造厂、通讯、电信业、网络相关行业、零售商、制造业、医疗保健及制药业等等。

◎ 数据挖掘的未来

□企业获取及利用信息的方式将决定企业的竞争优势

网际网络盛起前,握有最多信息的便是赢家;迈入信息爆炸的网络世代后,原先善于掌握信息的赢家却纷纷淹没在信息洪流中,于是Bill Gates在「数字神经系统」一书中大力急呼,『企业获取及利用信息的方式将决定企业的竞争优势』。

□数据仓储是将为极重要的成长领域

未来几年,数据仓储是极为重要的成长领域;而数据挖采工贝则可以从数据仓储获取很高的回报。数据仓储是庞大賌料量的集合体,其数据有时候高达数兆位,是由消费市场行销人员、零售商或服务公司,在监控数百万顾客交易状况时,所汇集而得的。数据仓储是在超高速计算机以特殊软件执行的,是企业想要达成实时作业的基础设备-实时作业指立即调整产品组合、库存状况、现金准备、行销方案,或其它改变商业状况的因素。

□市场对于能够将数据转变成可靠与可用信息的系统需求增加

对于现代的企业而言,数据可以被视为重要的资产,但是您必须要能利用这些数据,也就是把这些庞大的数据转换为有用的信息,才能产生真正的价值!研究结果显示,企业所处理的数据每五年就会呈倍数成长。大部份的企业并没有数

据不足的问题,过度的数据重复与不一致才是大问题,这使得企业无论在使用、有效管理、以及将这些数据用于决策过程方面都遭遇到了困难。因此市场需要的是能够将数据转变成可靠与可用信息的系统。

□ 将来会有一系列的 Data Warehousing 程序

企业的 Data Warehouse会将数据输入Data Mart 中,而 Data Mart 又会将数据输入个人的「方块」(cube),也就是桌上型计算机 Data Warehouse 中,包括使用 Congos 公司的 Powerplay 或 BusinessObjects 的工具。这就需要一套完整的数据库管理工具才能天衣无缝地支持这种数据库阶层组织。西蒙度斯先生认为在这个工具箱中,将会有大型的 Data Mining 架构,例如针对大型企业 Data Warehouse 操作的 Intelligent Miner,而较小型的架构则在较小型的 Data Mart 上运作。

□ 更多的人才、Data Mining 工具、数据库、以及 OLAP 的将更紧密地整合更多的商业人士,而非分析人员将会投入商业智能(Business Intelligence)发掘的过程(与现在刚好相反),「您将不只会看到更多的人在从事 Data Mining,更会看到更多不同类型的人在从事 Data Mining。」她并预测使用工具来筛检与分析 Data Mining 结果的情形(如英国 Safeway 的情形)会越来越普遍。

但是在这种预测成真以前,数据的传播方面还需要有长足的进步才行。西蒙度斯先生说:「Meta Group 估计目前只有四十万人在使用 Data Warehouse。如果我们真的想看到 Business Intelligence 完全发挥效能的话,这个数字必须成长到数百万的范围才行。虽然在这几百万人中,并不是每一个人都会进行 Data Mining,但是他们至少要能使用 Data Mining 所萃取出来的信息。」

□ Data Mining技术的导入企业体,它的重点不是数据库本身,而在于以企业领域为主

现代的企业体经常搜集了大量数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。所以妥善的运用Data Mining技术,从巨量的数据库中,发掘出不同的信息与知识出来,作为决策支持之用,必能产生企业的竞争优势。

◎ 结语

有很多的事情,「做的好、不如做的早」,举个反例来说,英文字母的A、E、I、O、U,应使用频率最高的英文字母,理当放在键盘的右手边,然而因为当初最早设计者的没有按照这原理,导致日后的所有键盘上的最常用的这些字母都散落在各个角落。而数据挖掘这领域虽不算新,但也是近几年才开始红的主题,有兴趣的人应该把握机会尽早抢滩,因为有些事情、有些时候,做的早不早要比做的好不好来的重要多了。

DataMining与统计学有某种程度的重叠,其发展趋势均如下图所示:

所谓的研究计划指的就是理论难度很高,而且可以同时解决很困难的问题的领域,然而,这并不是统计与数据挖掘未来的发展趋势,相反的,未来的发展方向是着重于以困难较低的理论去解决困难度很高的问题。

另一方面统计与数据挖掘都像「瞎子摸象」,他说了一句很有智能的话「瞎子摸象的结果,每个摸到不同部位的人,对大象有都不一样的诠释;所以你的对不表示别人的错,事实上大家的体悟都是对的」。

我深信,数据挖掘的过去、现在、与未来是属于那些最快且最勤于摸象的人,就像统计及人生!未來發展 研究計劃 解決的問題 數理 理論的難度

下载数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文word格式文档
下载数据挖掘与商业智能的现况及未来发展-谢邦昌-Datamining提升范文.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐