Web使用挖掘在电子商务个性化服务中的应用

时间:2019-05-14 21:31:16下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《Web使用挖掘在电子商务个性化服务中的应用》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《Web使用挖掘在电子商务个性化服务中的应用》。

第一篇:Web使用挖掘在电子商务个性化服务中的应用

Web使用挖掘在电子商务个性化服务中的应用

摘要

电子商务的快速发展和电子商务系统积累大量的数据为Web使用挖掘提供了一个广阔的应用领域。通过Web使用挖掘技术挖掘出电子商务用户潜在模式,对用户提供个性化服务。

关键词: Web挖掘技术

电子商务 个性化服务

随着Internet应用迅速发展,电子商务以其成本低廉、快捷、不受时空限制为许多企业提供了新的发展机会,但是这种新型的商务模式也对企业提出了新的挑战。一方面,24小时的在线销售让用户有了更为便捷、更为广泛的选择,企业之间的竞争骤然加剧;另一方面,虚拟的网络环境让用户不能直接接触商品、不能全面地了解商品的质量特征,增加了用户挑选商品的难度。因此,如何利用技术手段了解电子商务系统用户的偏好、习惯、购物模式和潜在的消费意识,为不同用户提供不同的信息和商品服务策略,以完成对用户个性化服务已

成为电子商务企业获取成功的关键。电子商务企业收集了大量的Web使用上的电子数据,采用数据挖掘技术发现这些数据的规律性,提取出有效信息,为企业实施“一对一服务”提供了可能。

1.电子商务中Web使用挖掘的资源

Web使用挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘,对了解用户 的网络行为数据所具有的意义,Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据,这些数据总结起来有以下几种类型:

1.1 Web日志数据

当用户访问电子商务系统,Web服务器便会自动建立该用户的访问日志信息。用户每访问一个页面,Web服务器的日志中就会增加一条记录不同的Web服务器产品,其日志格式不同,但通常都包括访问者的IP地址、访问时间、访问方式(GET或POST)、访问的页面、协议、错误代码以及传输的字节数等信息。通过这些日志文件还能够得到查询数据,它是电子商务站点在服务器上产生的一种典型数据,是在线客户在查询需要的信息时生成的。如在线存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或登记信息连接到服务器的访问日志上。

1.2用户注册数据

用户注册数据是指用户通过网页输入提交给服务器的相关信息。因为HTTP协议是无状态的,所以不能区分和跟踪一个访问者在网站上的所有行为,仅依靠分析日志文件所得到的用户信息是很少的。因此要吸引访问者成为注册用户,以便得到更多的用户信息,例如姓名、职业、收入、年龄、地址、爱好等。

1.3用户交易数据

用户交易数据主要是用户的历史购买信息,如商品代码、数量、价格等。

2.电子商务中Web使用挖掘的流程

Web使用挖掘遵循传统数据挖掘的研究思路,挖掘过程分为三个步骤:数据预处理、模式发现和模式分析。

2.1数据预处理

实际系统中的数据一般都具有不完全性、冗余性和模糊性。为了使数据挖掘的过程效率更高,数据挖掘的结果更合理、用于挖掘的数据应该准确、简介且易于处理,为此要通过数据预处理。数据预处理包括数据清理、用户识别、会话识别和路径补充事件识别和格式化等处理。

2.2模式发现

模式发现阶段就是对预处理后的数据利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于We b使用的挖掘技术有路径分析、关联规则、分类分析、聚类分析、序列分析等等。路径分析是用于发现一个站点中最经常被访问的路径;关联规则揭示数据项之间的内在的联系;分类分析是给出类的公共属性描述,并将新的记录分配到预先定义好的类中或分类新的项。聚类分析是分类的逆过程,按照“类内相似性最大,类间相似性最小”的原则,对数据进行类的聚集。序列分析挖掘出数据的前后时间顺序关系分析是否存在一定趋势,以预测未来的访问模式。

2.3模式分析

模式分析的目的是根据实际应用,通过观察和选择,将发现的统计结果、规则和模型转化为知识、再经过某种度量得到真正有价值的模式,即我们感兴趣的模式,使用可视化技术以图形界面的方式提供给使用者,模式分析常用的方法有信息过滤、可视化、联机分析等。

3.电子商务个性化服务中Web使用挖掘的应用

个性化服务是针对不同的用户提供不同的服务策略和服务内容的服务模式。电子商务个性化服务通过收集和挖掘用户的兴趣和行为来实现以用户需求为中心的Web服务。因此,基于Web使用挖掘的个性化服务体系包括收集用户兴趣和行为的用户信息收集模块、挖掘用户兴趣和行为的用户建模模块、个性化服务模块和用户四个层次,其结构见图1。

在个性化服务体系结构中,用户信息收集模块是个性化服务系统的基础模块。用户访问的过程中产生的信息有:用户输入搜索引擎的查询关键词、用户浏览的页面、用户浏览的行为、用户手工输入的其他信息、用户的购物过程、用户交易结果等等,这些信息可通过Web服务器和数据库服务器中获取。个性化服务系统收集到用户信息后,提交给用户建模模块来进行处理,构建用户模型。个性化服务模块根据用户模型向用户提供相应的服务,如个性化的网页、个性化的商品、个性化的信息服务。根据服务形式的不同,个性化服务模块提供的功能也不一样,如提供个性化Web页面的过程,个性化服务模块需分析用户的当前会话,识别出用户的当前会话后,得到用户当前访问页面集合,然后与用户模型相匹配,将匹配后推荐页面的地址附加到用户当前请求的页面的底部发送给用户,这些被推荐的页面不一定是用户计划要访问的页面,而是用户可能比较感兴趣的页面。当用户访问时,看到这样针对他本人特点的推荐,有可能会对其中的一些页面进行访问,对页面中的商品进行购买。用户对个性化服务的反馈用于调整个性化服务系统。

参考文献

1.韩家炜,孟小峰.web挖掘研究[J].计算机研究与发展.2001(4)

2.粱英.电子商务个性化推荐技术研究[J].商场现代化.2007(9)

3.王玉珍.Web使用模式挖掘在电子商务中的应用[J].计算机应用研究.2003(10)

4.靳明霞,李玉华,管建军.序列模式挖掘在电子商务个性化服务中的应用[J]、计算机技术

与发展.2006(10)

5.赵艳霞.梁昌勇.基于关联规则的推荐系统在电子商务中的应用[J].价值工程,2006(5)

第二篇:数据挖掘电子商务应用中调研报告

调研题目: :关于数据挖掘在电子商务中

应用得调研报告

指导老师: :

学生姓名:

号:

西安交通大学软件学院2016 年 年 3 3 月 月 2 2 1日

关于数据挖掘在电子商务中应用得

调研报告

摘要

电子商务正处在蓬勃发展得大好时期,它所产生得丰富得信息资源,为数据挖掘得应用开辟了广阔得应用舞台。本文通过优化企业资源、管理客户数据、评估商业信用、确定异常事件四个方面来阐述数据挖掘在电子商务中得应用,揭示了数据挖掘在电子商务中得广阔得应用前景.关键词:电子商务;数据挖掘;调查报告 目 录 一、概述

随着网络技术与数据库技术得成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。电子商务就是商业领域得一种新兴商务模式,它就是以网络为平台,以现代信息技术为手段,以经济效益为中心得现代化商业运转模式,其最终目标就是实现商务活动得网络化、自动化与智能化。电子商务得产生改变了企业得经营理念、管

理方式与支付手段,给社会得各个领域带来了巨大得变革。随着网络技术得迅猛发展与社会信息化水平得提高,电子商务显示出巨大得市场价值与发展潜力。

当电子商务在企业中得到应用时,企业信息系统将产生大量数据,并且迫切需要将这些数据转换成有用得信息与知识,为企业创造更多潜在得利润,数据挖掘概念就就是从这样得商业角度开发出来得。数据挖掘就是一种新得商业信息处理技术,其主要特点就是对商业数据库中得大量业务数据进行抽取、转换、分析与其她模型化处理,从中提取辅助商业决策得关键性数据。利用功能强大得数据挖掘技术,可以使企业把数据转化为有用得信息帮助决策,从而在市场竞争中获得优势地位。

二、数据挖掘在电子商务中得应用

1、优化企业资源

节约成本就是企业盈利得关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史得财务数据、库存数据与交易数据,可以发现企业资源消耗得关键点与主要活动得投入产出比例,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高资金使用率等。通过对 Web 数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化得响应能力与创新能力,使企业最大限度地利用人力资源、物质资源与信息资源,合理协调企业内外部资源得关系,产生最佳得经济效益。促进企业发展得科学化、信息化与智能化。

例如:美国运通公司(American Express)有一个用于记录信用卡业务得数据库,数据量达到54 亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”得促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大得折扣,这样既可以增加商店得销售量,也可以增加运通卡在该商店得使用率。

2、管理客户数据

随着“以客户为中心”得经营理念得不断深入人心,分析客户、了解客户并引导客户得需求已成为企业经营得重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为得分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在得有价值得客户,开展个性化服务,提高客户得满意度与忠诚度.通过 Web 资源得挖掘,了解客户得购买习惯与兴趣,从而改善网站结构设计,推出满足不同客户得个性化网页。

利用数据挖掘可以有效地获得客户.比如通过数据挖掘可以发现购买某种商品得消费者就是男性还就是女性,学历、收入如何,有什么爱好,就是什么职业等等。甚至可以发现不同得人在购买该种商品得相关商品后多长时间有可能购买该种商品,以及什么样得人会购买什么型号得该种商品等等。在采用了数据挖掘后,针对目标客户发送得广告得有效性与回应率将得到大幅度得提高,推销得成本将大大降低.同时,在客户数据挖掘得基础上,企业可以发现重点客户与评价市

场性能,制定个性化营销策略,拓宽销售渠道与范围,为企业制定生产策略与发展规划提供科学得依据。通过呼叫中心优化与客户沟通得渠道,提高对客户得响应效率与服务质量,促进客户关系管理得自动化与智能化。

成功案例:美国得读者文摘(Reader‘s Digest)出版公司运行着一个积累了 40 年得业务数据库,其中容纳有遍布全球得一亿多个订户得资料,数据库每天 24 小时连续运行,保证数据不断得到实时得更新,正就是基于对客户资料数据库进行数据挖掘得优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊与声像制品得出版与发行业务,极大地扩展了自己得业务。

3、评估商业信用

低劣得信用状况就是影响商业秩序得突出问题,已经引起世人得广泛关注。由于网上诈骗现象层出不穷,企业财务“造假“现象日益严重,信用危机成为制约电子商务发展得重要因素.利用数据挖掘技术对企业经营进行跟踪,开展企业得资产评估、利润收益分析与发展潜力预测,构建完善得安全保障体系,实施网上全程监控,强化网上交易与在线支付得安全管理。基于数据挖掘得信用评估模型,对交易历史数据进行挖掘,发现客户得交易数据特征,建立客户信誉度级别,有效地防范与化解信用风险,提高企业信用甄别与风险管理得水平与能力.4、确定异常事件

在许多商业领域中,异常事件具有显著得商业价值,如客户流失、银行得信用卡欺诈、电信中移动话费拖欠等.通过数据挖掘中得奇异点分析可以迅速准确地甄别这些异常事件,为企业采取决策提供依据,减少企业不必要得损失。

三、总结

电子商务就是现代信息技术发展得必然结果,也就是未来商业运作模式得必然选择。电子商务领域具有丰富得信息资源,为数据挖掘得应用开辟了广阔得应用舞台.数据挖掘将为电子商务提供有力得技术支持,极大地促进电子商务得发展与普及,推动电子商务得应用进程.数据挖掘技术作为电子商务得重要应用技术之一,将为正确得商业决策提供强有力得支持与可靠得保证,就是电子商务不可缺少得重要工具,有着广阔得发展前景.

第三篇:关于数据挖掘在出口退税中的应用

关于数据挖掘在出口退税中的应用引言

出口货物退(免)税,简称 出口退税,其基本含义是一个国家或地区对已报送离境的出口货物,由税务机关将其在出口前的生产和流通的各环节已经缴纳的国内产品税、增值税、营业税和特别消费税等间接税税款退还给出口企业的一项税收制度。出口退税 主要是通过退还出口货物的国内已纳税款来平衡国内产品的税收负担,使本国产品以不含税成本进入国际市场,与国外产品在同等条件下进行竞争,从而增强竞争能力,扩大出口创汇[1]。

我国从1985年开始,全面地实行了 出口退税 政策,并从1995年开始全面实行电子化管理,它是全国税务系统第一个全面推广应用的税收管理软件,是金关工程和金税工程的一个子系统,在强化出口退税管理,提高出口退税工作效率,防范和打击骗税上发挥了巨大的作用[2]。但是,目前的出口退税电子化管理只完成了出口退税业务的电子化操作,还未在决策的电子化方面取得较大进展。经过十多年的发展,积累了大量涉税信息,如何将这些“历史的、静态的”数据变成动态的、具有分析决策性质的信息已成为当前急需研究的课题[3],数据挖掘技术的出现使这种应用成为现实。出口退税数据挖掘的目的和基本方法

现行的出口退税电子化管理主要是通过出口企业把申报退税的信息通过出口退税申报系统录入计算机并生成申报数据,然后再经过出口退税审核系统把企业申报的出口退税凭证的电子信息与税务机关接收到的其他部门(征税机关、海关 和外管)传来的凭证信息进行比对,以达到审核出口退税凭证的合法性和真实性的目的,进而根据比对审核通过的数据进行退税。可以看出,目前的出口退税电子化管理只侧重了出口退税的 单证 信息的计算机审核,而对于挖掘审核通过的 单证 信息和各部门传递来的电子信息的价值方面存在着很大的不足。随着金税二期网络建设的推动,各省现已基本实现了出口退税数据的省级大集中[4],这些数据都是各出口退税部门在日常的业务审核中积累下来的数据,十分宝贵,如何充分发挥其应有的作用,已成为人们研究的热点。1

数据挖掘的目的就是分析出口企业的出口退税数据,挖掘这些数据与经济的内在联系,全面掌握本地区出口退税的产品结构、出口的贸易方式、出口产品的地区差异等,对于调整一个地区的产业结构、经济发展方向以及制定经济发展战略有着重要的参考价值;对于税务机关掌握出口企业的实际生产出口情况,培养税源,打击偷税漏税和防范出口骗税等方面有着重要的意义。

对于出口退税部门在日常的业务审核中积累下来的数据进行挖掘,主要是指在了解和掌握具体纳税人生产经营情况和财务数据的基础上,对纳税人的税收经济关系和税收缴纳状况进行客观评价和说明的分析,主要是通过对历史数据进行纵横比较分析和逻辑关系稽核来进行挖掘,以指导税收管理工作。

1)横向比较分析

横向比较分析是指同一指标在不同个体、单位、地区之间的比较分析。横向比较分析最典型的分析例子就是同业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。总结这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

2)纵向比较分析

纵向比较分析或历史数据分析是指同一个体的同一指标在不同历史时期的数据比较分析。常用的分析方法有趋势分析和变动率分析。分析的理论依据是大多情况下企业的生产经营是处于一种相对平稳的状态,不会出现突然的波动或大起大落现象。因此,如果企业生产能力没有作大的调整,一般情况下企业各个时期的数据指标彼此接近,不会出现大的差异。如果出现较大差异,应引起主管部门的注意,及时进行相关的纳税评估。

3)数据逻辑关系稽核

受会计核算原理的约束和税收制度规定的制约,反映纳税人生产经营情况和财务状况的众多数据指标之间存在非常严谨的、相互依存的逻辑关系。这种逻辑关系决定了企业的纳税申报数据必须满足企业财务数据相关性的特定要求,检查这些数据逻辑关系是否吻合,可以鉴别企业申报数据的真实性和合理性,从而发现税收问题,堵塞征管漏洞。出口退税数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能:

1)趋势预测

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。出口退税数据挖掘的预测趋势是对纳税人特定税收指标、经济指标或税收经济关系指标一段时期走势和趋向的分析和推断,了解和掌握税收经济的发展趋势,有利于判断未来出口退税形势的好坏,使出口退税做到心中有数。

趋势预测的两个基本要求是说明特定指标的发展方向和变化幅度,基础分析技术是时间序列分析技术,常用说明指标有变动率和平均变化速度等。

2)关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

在出口退税评估工作中,可以利用企业财务报表、纳税申报表和出口退税汇总表等各项数据指标之间的相互逻辑关系进行核算检查,对于不满足应有逻辑计算关系的内容,即认为破坏了会计核算或税款计征关系,均应视为异常做进一步的深入分析。由于企业财务指标和出口退税申报数据有上百条之多,所以与此相关的逻辑计算关系也会在此基础上更为丰富和复杂,只有通过关联分析,才有可能在出口退税申报环节实现实时的出口退税评估工作。

3)聚类分析

聚类分析是数理统计的一个分支,是运用事物本身所具有的某种数据特征,遵循“物以类聚”规律进行数据处理,为事物的分类管理提供数据支持的一种分析方法。借用这种方法开展税收分析,可将具有某种税收共同特征的事物聚集在一起,使我们更清楚地认识税收征管工作的分类特征。

聚类分析的基本原理是根据数据指标差异的绝对距离进行分类,结合矩阵分析技术,可以进行多指标的综合特征分析,为复杂事物的分类提供了一种可行的分析方法。聚类分析的关键是找到一组关系密切的相关指标,如退税增长、税源增长、退税变化弹性和出口影响等,均可以利用这一分析技术进行综合分析和技术处理。

4)差异分析

数据库中的数据常有一些异常记录,从数据库中检测这些差异很有意义。差异包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

差异分析的基本方法是测算不同样本同一指标的差异程度。差异分析的关键是建立评价差异的标准,有了标准才能说明差异的影响程度。表示差异程度可以用绝对值,也可以建立参照系用相对值。应用差异分析开展微观税收分析的典型分析案例就是同业税负分析模型。应用同业税负分析模型可以测算出各项相关指标的客观水平和样本离散状况,以此为标准比对个别检验样本的具体数值,超出差异允许界限的即为预警对象。

5)波动分析

波动分析是描述税收事物运行变化平稳性的分析。税收事物的运行受经济变化影响、税收制度规定的约束和现有征管环境制约有其自身客观的规律。在经济

运行相对平稳、税制不变的条件下,税收事物运行平稳与否,直接反映税收征管情况的影响作用。因此,开展波动分析,一定程度上可以了解和说明退税管理的表现,反映退税管理是否能按税源的发展变化规律同步开展,监督退税管理的执行情况。出口退税数据挖掘的实现

出口退税数据挖掘应用系统由三部分组成:第一部分是由用户数据源到中央数据库的ETL过程;第二部分是根据出口退税业务模型建立业务智能分析模型;第三部分是面向税收管理人员进行数据的发布和多维分析工作。基本结构如图1所示。

数据的ETL(Extract-Transform-Load,数据抽取、转换、装载)过程采用微软的SSIS(SQL Server Integration Services)来完成数据预处理阶段对于原始数据的转换、清洗加载过程;中央数据库采用微软的SQL Server 2005,SQL Server 2005除了提供一个安全、可靠和高效的数据管理平台之外,它还是一个企业级数据整合平台,通过SSIS提供了构建企业级ETL应用程序所需的功能和性能,是一个集成的商业智能平台,通过Analysis Services提供了统一和集成的商业数据视图,可被用做所有传统报表、OLAP分析、关键绩效指标(KPI)记分卡和数据挖掘的基础。

SQL Server 2005分析服务提供了数据挖掘服务,支持集成其它个人或者企业的DM算法,并且将DM算法集成的复杂度不断降低,它主要是基于OLE DB for DM规范,使用灵活。开发人员能够利用数据挖掘功能开发应用程序,其数据挖掘语言非常类似于SQL,数据挖掘供应者是一个开放系统,因为它是OLE DB的一个部件,数据挖掘服务能够通过DSO(Decision Support Object)、或ADO可包含在任何用户应用程序中。将DM算法无缝集成到SQL Server的分析服务中,利用集成的DM算法来构建数据挖掘解决方案是一种理想的方式。

在SQL Server 2005数据挖掘平台中,创建关系型挖掘模型的语法如下:

Create mining model()using

它类似于建立一个关系表,其中包括输入、预测属性,每一个模型与一个数据挖掘算法相关联。

多维数据分析工具和报表工具使用统一空间模型UDM(Unified Dimensional Model),利用UDM中对业务实体的友好描述、等级导航、多视角、自动平滑 翻译 为本机语言等功能,可以实现出口退税数据挖掘过程中所得到的结果集的友好展示。结束语

随着数据仓库技术的发展,数据挖掘会越来越发挥其独到的分析优势,特别是将挖掘出的新知识通过用基于OLAP的决策支持系统加以验证、结合,可以更好地为决策者服务。出口退税管理的电子化系统已经积累了大量的业务数据,可以为数据挖掘提供大量数据,数据仓库和数据挖掘技术在收税管理具有广阔的应用前景。

第四篇:数据挖掘在房地产营销中的应用

文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类

一、房地产行业需要数据挖掘技术的支持

随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。

数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。

二、数据挖掘在房地产行业的应用

1.数据挖掘的概念

对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。

数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。

数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:

(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。

(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”

(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。

(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。

(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。

2.数据挖掘的市场研究价值

数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:

(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。

(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。

(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。

(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。

目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。

3.数据挖掘在房地产客户研究中有着广泛的应用

房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。

对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:

4.明确商业目标

三、如何在房地产行业应用数据挖掘技术

应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。

5.数据准备

基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。

如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。

很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。

处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。

6.建立模型

建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。

一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。

接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。

大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。

7.输出结果的评价和解释

模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。

直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。

8.实施

模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。

在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。

四、应用举例:基于客户分类的关联分析

1.商业目标

为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备

本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。

3.建立模型

(1)对数据进行分类

本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。

案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。

(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:

注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。

b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。

c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。

d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。

上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:

关联规则A1:地理位置无关型客户=≥重视物业管理

支持率=9.7% 可信度=30.3% 兴趣度=2.4与

关联规则B1:重视物业管理 =≥地理位置无关型客户

支持率=9.7% 可信度=76.9% 兴趣度=2.4

对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。

其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。

需要说明:

a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。

b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。

c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。

五、房地产行业数据挖掘的应用前景

随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:

1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。

2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。

第五篇:网对网和Web数据挖掘在搜索引擎中的运用论文

摘 要:当今网络信息技术日益发展,传统意义上的搜索引擎更加难以满足广大用户日益增长的信息检索需求。在这种趋势下,智能技术在搜索引擎中的应用显得越来越重要。只有将智能技术引进搜索引擎,才能提高用户的工作效率,满足人们日益增长的客观需求。主要介绍了如今搜索引擎的几大分类,传统搜索引擎需要改进的不足以及两大智能技术在搜索引擎中的应用。在智能技术将会更加智能更加发达的未来,搜索引擎也将不断地更新和发展,为人们提供更加高效的搜索体验。

关键词:智能技术;搜索引擎;网对网技术;数据挖掘。

搜索引擎是根据一定的策略,运用特定的计算机程序来搜索互联网上的信息,在对信息进行组织和处理后,将处理后的结果显示给用户,是为用户提供检索服务的系统。而智能技术在搜索引擎中的实际应用也越来越广泛,不断有新兴的智能技术,搜索引擎也不断地结合这些智能技术来进行自身的变革和发展。这是一个渐进的过程。本文将详细介绍 2 种智能技术在搜索引擎中的应用。

1.搜索引擎的分类。

搜索引擎可分为以下 3 类:①全文搜索引擎。全文搜索引擎是最标准的搜索引擎,国外的主要代表是 Google,而国内的主要代表则是百度。全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容,继而建立数据库,按序排列并且将其展示给用户。②目录搜索引擎。从本质来说,目录搜索引擎其实不能算是真正的搜索引擎。只是将网站链接目录分类,用户并不需要输入关键字,根据目录就完全可以找到想要的信息。目录索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用户的搜索请求后,可以在各个搜索引擎上同时搜索,随后将结果显示给用户。这一种搜索引擎的国内代表是搜星搜索引擎。

2.传统搜索引擎相比网络信息检索的缺点。

传统搜索引擎作为用户在互联网进行信息检索的一个重要途径,给广大用户提供了相当大的便利,随着互联网的迅速发展,用户对搜索引擎又提出了搜索速度更快、搜索效率更高等诸多要求。正是用户的这些需求刺激着搜索引擎的快速发展。传统搜索引擎越来越满足不了用户的需求,主要存在以下几点不足:①搜索引擎从互联网搜索的各种网页水准不一,存在着根本没用或者暂时性的网页。这严重加大了用户检索信息的困难程度,并且严重影响了检索速度。②主流搜索引擎大多采用关键词来检索,由于用户水平的差异,极少数可以总结出关键词或关键词组,以至于用户搜索不到想要的内容,从而加大了检索难度。③每个搜索引擎覆盖的范围虽然不小,但与庞大的互联网相比,简直是九牛一毛。④检索的结果不准确、不唯一,搜索结果为零或者为数万的情况时有发生。⑤不能智能搜索,难以满足用户深层次的需求。

3.智能技术的运用。

由于传统引擎的各种缺点,用户越来越渴望更好用、更便捷的搜索方式出现。在这种刺激下,智能技术在搜索引擎中的应用大量出现。这使得搜索引擎需具有一定的智能化和理解能力。当前主要有以下两大智能技术。

3.1 网对网技术。

顾名思义,“网对网技术”就是网络和网络对应起来的意思。这其中又要提到两个概念了,是两个单词。一个单词我们都相当熟悉了--Internet.我们常说的互联网,就是这个单词。而在这里,这个单词指的是一个信息网络,也就是我们所说的网络中的信息网。我们想要搜索什么东西时,将它输入搜索引擎中,引擎就会在这个网络库中查找,找到相关信息,然后呈现在我们面前。而另一个词可能就有一些陌生了--Innernet.表面上看起来与 Internet 很像,英文词典中并没有这个词,我们在这里叫它“内联网”.与看起来更像数据库的 Internet 比起来,内联网更像是人类大脑的一个信息网络。这里面不仅仅有我们生活和工作中所用到的各种各样的信息,更重要的是,信息之间繁杂又紧密的联系。就像我们在生活中和他人交流,提到“小伙伴”这个词,我们会想到其他与之有联系的词汇,比如“朋友”“同学”等。同样的,当提到“师父”,我们的大脑也会迅速联想到“师门”“师生”这样的相关词汇。我们所说的内联网,它所着重的,也是信息与信息之间这样息息相关的联系。Internet 和 Innernet都是知识的网络,互联网时代的信息社会发展日新月异,因此无论是哪个网络,其内的信息都是不断变化着的。人们将这个技术运用在搜索引擎中,大大提高了搜索引擎的实用性。作为内联网的 Innernet 和 Internet 联结起来,运用信息之间存在的各种各样的联系,将用户输入搜索引擎中,将复杂的联系正确分割开,然后各自拓展出一些对人们而言有用的信息,将 Internet 中庞大、杂乱的信息进行有序化的筛选和整理,最终将信息呈现在人们的眼前。这大大提高了搜索引擎的可操作性,缩短了人们不断删改语句来配合 Internet 的时间,自然也就提高了用户的工作效率。

3.2 Web 数据挖掘技术。

数据挖掘作为一门交叉学科,其原理比较复杂,可以从庞大的数据中将更有用、更有新意的数据挖掘出来,而 Web 挖掘,便是将数据挖掘和 Web 发展联系起来。Web 数据挖掘有 3 种不同的挖掘形式,即内容挖掘、结构挖掘和使用记录的挖掘。

3.2.1 内容挖掘。

内容挖掘指的是从 Web 文档中或是描述中挖掘,在网页中进行数据挖掘,其中包括文本、超链接、图像和视频等,而半结构化的数据和无结构的文本便是主要的挖掘对象。

3.2.2 结构挖掘。

Web 结构挖掘则是通过网页中的超链接,发现其中信息之间的结构及其紧密或稀疏的联系。在平时上网时,我们只能看到一个个的网页,打开浏览或者关闭。但是在这些页面的背后,其实隐藏着无数个结构链接。Web 数据挖掘就能够通过这些结构上的链接,发现页面与页面、数据与数据之间的联系,随后对它们分类,以便为用户提供含有相似信息的更多页面,帮助用户完善自己想要在搜索引擎中得到的信息。

3.2.3 使用记录的挖掘。

与前两者相比,Web 使用记录的挖掘让我们感觉更加熟悉,至少“使用记录”4 个字是我们上网过程中能够看到的。当我们点击一下搜索引擎的输入框想要输入文本时,搜索引擎会自动下拉出我们前几次使用时所查询的内容,以便我们重复查看相似内容的信息。搜索引擎有时也会为我们推荐一些内容的信息。这些信息也会是我们所感兴趣的一些内容,是搜索引擎结合了我们之前的使用记录,为我们提供感兴趣的相类似的内容。这些都是 Web 使用记录挖掘在搜索引擎中的实用例子,但并不是全部。搜索引擎会从用户的访问痕迹中挖掘出很多有意义的数据,包括数据端、服务器端和代理端的数据。而其获得这些数据的途径又分为 KDD 和专业化追踪。这些方法和深度的挖掘,使搜索引擎更加“智能”地了解用户的兴趣和需要。

4.总结。

搜索引擎是我们工作、学习和生活中必不可少的实用性技术,正如一个调查中所显示的,85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站,可见搜索引擎的重要性。随着智能技术的不断更新,人们的生活变得越来越智能,对搜索引擎的要求也会随之越来越高,因此不断利用新的技术完善和提高搜索引擎的智能性,是用户的选择,也是时代的选择,是搜索引擎在现在和未来的发展中必然的趋势,且将一直持续下去。

参考文献:

[1]陈勇跃,张玉峰。智能技术在搜索引擎中的应用[J].情报杂志,2004(02):2-3,6.[2]杨占华,杨燕。数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.[3]朱素媛,马溪俊,梁昌勇。人工智能技术在搜索引擎中的应用[J].合肥工业大学学报(自然科学版),2003(S1):657-661.

下载Web使用挖掘在电子商务个性化服务中的应用word格式文档
下载Web使用挖掘在电子商务个性化服务中的应用.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    探究基于asp.netajax在web数据开发中的应用

    探究基于ASP.NET AJAX在Web数据开发中的应用 摘要:AJAX是实现Web数据开发的一种重要技术,能够有效降低整页刷新时,白屏现象的发生频率,也能有效减轻服务器负荷。随着新ASP.NET.A......

    RSA数字签名在电子商务中的应用

    RSA数字签名算法探析 摘 要 随着电子商务飞速发展、普及和应用,安全问题已经成为电子商务发展的瓶颈。本文从电子商务交易过程对电子商务安全性的需求出发,介绍了数字签名的原......

    防火墙技术在电子商务中的应用[范文大全]

    防火墙技术在电子商务中的应用 目 录 目录 ............................................................................ 内容摘要.....................................

    移动电子商务在餐饮业中的应用

    目 录 一、移动电子商务的相关知识 ................................................. 1 (一)移动电子商务概括 ..............................................................

    数字签名技术在电子商务中的应用

    公选课论文 数字签名技术在电子商务中的应用 袁志祥 0915034120 生化工程系 轻化1班 方明 学生姓名: 学号: 所在系部: 专业班级: 评阅老师: 日期: 二○一一年六月 摘 要 以互联网......

    浅谈电子商务在房地产行业中的应用

    浅谈电子商务在房地产行业中的应用 随着科技的进步和人们生活节奏的加快,网络购物已然成为了人们生活中一部分。虽然对于绝大多数人而言,购房绝不是轻动鼠标就可以解决的小事......

    BOM在电子商务网站中的应用

    BOM在电子商务网站中的应用 我们讨论的BOM是狭义的BOM,与ERP中用于生产的BOM有很大区别。同时,我们讨论的主要是B2B平台,更细致的限制为:工业品的B2B平台。一、 什么是BOM BOM是......

    浅谈电子商务在钢铁物流中的应用

    浅谈电子商务在钢铁物流中的应用 论文关键词:电子商务 钢铁物流 实践 论文摘要:随着经济全球化的发展,以及科学技术的不断进步,钢铁物流对我国国民经济的发展发挥重要作用,钢铁物......