第一篇:数据挖掘电子商务应用中调研报告
调
研
报
告
调研题目: :关于数据挖掘在电子商务中
应用得调研报告
指导老师: :
学生姓名:
学
号:
西安交通大学软件学院2016 年 年 3 3 月 月 2 2 1日
关于数据挖掘在电子商务中应用得
调研报告
摘要
电子商务正处在蓬勃发展得大好时期,它所产生得丰富得信息资源,为数据挖掘得应用开辟了广阔得应用舞台。本文通过优化企业资源、管理客户数据、评估商业信用、确定异常事件四个方面来阐述数据挖掘在电子商务中得应用,揭示了数据挖掘在电子商务中得广阔得应用前景.关键词:电子商务;数据挖掘;调查报告 目 录 一、概述
随着网络技术与数据库技术得成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。电子商务就是商业领域得一种新兴商务模式,它就是以网络为平台,以现代信息技术为手段,以经济效益为中心得现代化商业运转模式,其最终目标就是实现商务活动得网络化、自动化与智能化。电子商务得产生改变了企业得经营理念、管
理方式与支付手段,给社会得各个领域带来了巨大得变革。随着网络技术得迅猛发展与社会信息化水平得提高,电子商务显示出巨大得市场价值与发展潜力。
当电子商务在企业中得到应用时,企业信息系统将产生大量数据,并且迫切需要将这些数据转换成有用得信息与知识,为企业创造更多潜在得利润,数据挖掘概念就就是从这样得商业角度开发出来得。数据挖掘就是一种新得商业信息处理技术,其主要特点就是对商业数据库中得大量业务数据进行抽取、转换、分析与其她模型化处理,从中提取辅助商业决策得关键性数据。利用功能强大得数据挖掘技术,可以使企业把数据转化为有用得信息帮助决策,从而在市场竞争中获得优势地位。
二、数据挖掘在电子商务中得应用
1、优化企业资源
节约成本就是企业盈利得关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史得财务数据、库存数据与交易数据,可以发现企业资源消耗得关键点与主要活动得投入产出比例,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高资金使用率等。通过对 Web 数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化得响应能力与创新能力,使企业最大限度地利用人力资源、物质资源与信息资源,合理协调企业内外部资源得关系,产生最佳得经济效益。促进企业发展得科学化、信息化与智能化。
例如:美国运通公司(American Express)有一个用于记录信用卡业务得数据库,数据量达到54 亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”得促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大得折扣,这样既可以增加商店得销售量,也可以增加运通卡在该商店得使用率。
2、管理客户数据
随着“以客户为中心”得经营理念得不断深入人心,分析客户、了解客户并引导客户得需求已成为企业经营得重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为得分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在得有价值得客户,开展个性化服务,提高客户得满意度与忠诚度.通过 Web 资源得挖掘,了解客户得购买习惯与兴趣,从而改善网站结构设计,推出满足不同客户得个性化网页。
利用数据挖掘可以有效地获得客户.比如通过数据挖掘可以发现购买某种商品得消费者就是男性还就是女性,学历、收入如何,有什么爱好,就是什么职业等等。甚至可以发现不同得人在购买该种商品得相关商品后多长时间有可能购买该种商品,以及什么样得人会购买什么型号得该种商品等等。在采用了数据挖掘后,针对目标客户发送得广告得有效性与回应率将得到大幅度得提高,推销得成本将大大降低.同时,在客户数据挖掘得基础上,企业可以发现重点客户与评价市
场性能,制定个性化营销策略,拓宽销售渠道与范围,为企业制定生产策略与发展规划提供科学得依据。通过呼叫中心优化与客户沟通得渠道,提高对客户得响应效率与服务质量,促进客户关系管理得自动化与智能化。
成功案例:美国得读者文摘(Reader‘s Digest)出版公司运行着一个积累了 40 年得业务数据库,其中容纳有遍布全球得一亿多个订户得资料,数据库每天 24 小时连续运行,保证数据不断得到实时得更新,正就是基于对客户资料数据库进行数据挖掘得优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊与声像制品得出版与发行业务,极大地扩展了自己得业务。
3、评估商业信用
低劣得信用状况就是影响商业秩序得突出问题,已经引起世人得广泛关注。由于网上诈骗现象层出不穷,企业财务“造假“现象日益严重,信用危机成为制约电子商务发展得重要因素.利用数据挖掘技术对企业经营进行跟踪,开展企业得资产评估、利润收益分析与发展潜力预测,构建完善得安全保障体系,实施网上全程监控,强化网上交易与在线支付得安全管理。基于数据挖掘得信用评估模型,对交易历史数据进行挖掘,发现客户得交易数据特征,建立客户信誉度级别,有效地防范与化解信用风险,提高企业信用甄别与风险管理得水平与能力.4、确定异常事件
在许多商业领域中,异常事件具有显著得商业价值,如客户流失、银行得信用卡欺诈、电信中移动话费拖欠等.通过数据挖掘中得奇异点分析可以迅速准确地甄别这些异常事件,为企业采取决策提供依据,减少企业不必要得损失。
三、总结
电子商务就是现代信息技术发展得必然结果,也就是未来商业运作模式得必然选择。电子商务领域具有丰富得信息资源,为数据挖掘得应用开辟了广阔得应用舞台.数据挖掘将为电子商务提供有力得技术支持,极大地促进电子商务得发展与普及,推动电子商务得应用进程.数据挖掘技术作为电子商务得重要应用技术之一,将为正确得商业决策提供强有力得支持与可靠得保证,就是电子商务不可缺少得重要工具,有着广阔得发展前景.
第二篇:数据挖掘与电子商务
数据挖掘与电子商务
姓名:龚洪虎
学号:X2009230111
[摘 要] 企业的竞争优势并不取决于信息的拥有量,而是取决于信息的处理利用能力。如何化信息优势为竞争优势,是企业制胜于市场的一个法宝。本文论述了一种信息处理利用的有效工具——数据挖掘方法及其在电子商务中的应用。
[关键词] 数据挖掘 方法 电子商务 应用
随着网络技术和数据库技术的成熟,传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
一、电子商务和数据挖掘简介。
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。
数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。数据挖掘的过程有时也叫知识发现的过程。
而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、计算机语言、信息学、统计学等多个领域。
二、何谓数据挖掘及方法
确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。比较典型的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析等。它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。
1.关联分析。关联分析,即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如”90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。
2.序列模式分析。序列模式分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。它能发现数据库中形如”在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度S。
3.分类分析。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个②
记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。
4.聚类分析。聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,数据挖掘可以直接跟踪数据并辅助用户快速做出商业决策,用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中。
三、选择数据挖掘技术的两个重要依据。
数据挖掘使用的技术很多,其中主要包括统计方法、机器学习方法、和神经网络方法和数据库方法。统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等。机器学习方法可细分为归纳学习方法(决策树、规则归纳)、基于范例学习、遗传算法等。神经网络方法可细分为钱箱神经网络(BP算法)、自组织神经网络等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。由于每一种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,并且与具体的应用问题密切相关,因此成功的应用数据挖掘技术以达到目标过程本身就是一件很复杂的事情,本文主要从挖掘任务和可获得的数据两个角度来讨论对数据挖掘技术的选择。
三、数据挖掘在电子商务中的应用
数据挖掘能发现电子商务客户的的共性和个性的知识、必然和偶然的知识、独立和关联的知识、现实和预测的知识等,所有这些知识经过分析,能对客户的消费行为如心理、能力、动机、需求、潜能等做出统计和正确地分析,为管理者提供决策依据。具体应用如下:
1.分类与预测方法在电子商务中的应用。在电子商务活动中,分类是一项非常重要的任务,也是应用最多的技术。分类的目的是构造一个分类函数或分类模型,通常称作分类器。分类器的构造方法通常由统计方法、机器学习方法、神经网络方法等。这些方法能把数据库中的数据映射到给定类别中某一个,以便用于预测,也就是利用历史数据记录,自动推导出给定数据的推广描述,从而对未来数据进行预测。
2.聚类方法在电子商务中的应用。聚类是把一组个体按照相似性原则归成若干类别。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。市场细分的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体之间的距离尽可能大,通过对聚类的客户特征的提取,电子商务网站可以为客户提供个性化的服务。
3.数据抽取方法在电子商务中的应用。数据抽取的目的是对数据进行浓缩,给出它的紧凑描述,如求和值、平均值、方差值、等统计值、或者用直方图、饼状图等图形方式表示,更主要的是他从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、最基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用维数据分析方法进行数据抽取,他针对的是电子商务活动中的客户数据仓库。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大,可把汇集操作结果预先计算并存储起来,以便用于决策支持系统使用。
4.关联规则在电子商务中的应用。管理部门可以收集存储大量的售货数据和客户资料,对这些历史数据进行分析并发现关联规则。如分析网上顾客的购买行为,帮助管理者规划市场,确定商品的种类、价格、质量等。通常关联规则有两种:有意义的关联规则和泛化关联规则,有意义的关联规则,即满足最小支持度和最小可信度的规则。最小支持度,它表示一组对象在统计意义上的需满足的最低程度,如电子商务活动中的客户数量、客户消费能力、消费方式等。后者即用户规定的关联规则的最低可靠度。第二是泛化规则,这种规则更实用,因为研究对象存在一种层次关系,如面包、蛋糕属西点类,而西点又属于食品类,有了层次关系后,可以帮助发现更多的有意义的规则。
5、优化企业资源
节约成本是企业盈利的关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史的财务数据、库存数据和交易数据, 可以发现企业资源消耗的关键点和主要活动的投入产出比例, 从而为企业资源优化配置提供决策依据, 例如降低库存、提高库存周转率、提高资金使用率等。通过对Web数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化的响应能力和创新能力,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。
例如:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。
6、管理客户数据
随着“以客户为中心”的经营理念的不断深入人心, 分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。通过Web资源的挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何, 有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品, 以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后, 针对目标客户发送的广告的有效性和回应率将得到大幅度的提高, 推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促
①进客户关系管理的自动化和智能化。
三、结束语
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在在电子商务的潮流中立于不败之地。随着数据挖掘算法的不断发展和成熟,数据挖掘一定会有更加广阔的应用前景。
参考文献:
(1)《浅谈数据挖掘在电子商务中的运用》 钟连福;
(2)《电子商务中商业数据的挖掘方法》 中国电子商务研究中心;
(3)《在电子商务中如何正确有使用数据挖掘技术》 侠名;
(4)《曾贞:数据挖掘在电子商务中的应用》 甘肃农业,2004(7);
(5)《冯艳王坚强:数据挖掘在电子商务上的应用》 2002(3);
(6)《吕延杰徐华飞:中国电子商务发展研究报告》北京邮电大学出版社 ;
(7)《数据挖掘与电子商务》 邓鲲鹏,周延杰,严瑜筱。①
第三篇:电子商务数据挖掘方法论文
摘要: 电子商务是现代商业的主流趋势,如何充分利用网络技术和数据库技术发挥企业优势,成为企业制胜的法宝。本文介绍了常用的数据挖掘方法,以及在电子商务领域的应用,分析了利用数据挖掘技术建设动态、高效电子商务的可行性。
关键词:数据挖掘 电子商务 数据库
一、引言
电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。
二、数据挖掘技术
1.数据挖掘
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。
2.数据挖掘过程
挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。
(1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。
(2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。
(3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。
三、电子商务中几种常用的数据挖掘方法
1.关联规则
关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…, m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=>B)=p(A∪B),Confidence(A=>B)=p(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油→牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。
2.聚类分析方法
类聚分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
聚类分析用于把有相似特性的客户、数据项集合到一起。在电子商务中, 聚类分析常用于市场细分。根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。如自动给一个特定的客户聚类发送销售邮件,为一个客户聚类动态地改变一个特殊的站点等。通过对聚类的客户特征的提取,电子商务网站还可以为客户提供个性化的服务。
3.分类分析
分类系统是基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。分类系统正在被人们越来越多地应用于科学、工程和经济领域中,是目前遗传算法研究领域中一个非常活跃的领域。
分类分析是数据挖掘中应用最多的方法。分类要解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未来的数据。分类通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对邮寄广告、产品目录等有反应,可以针对这一类客户的特点展开商务活动,提供个性化的信息服务。
4.序列模式
序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,找到那些“一些项跟随另一些项”,以预测未来的访问模式。序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小置信度C和最小支持度S。
序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。
四、结束语
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,帮助企业制定有效的营销策略,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力。
随着电子商务发展的势头越来越强劲, 面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。随着硬件环境、挖掘算法的深入研究及应用经验的积累,数据挖掘技术及在电子商务中的应用必将取得长足的进展。
第四篇:数据挖掘在房地产营销中的应用
文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类
一、房地产行业需要数据挖掘技术的支持
随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。
数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。
二、数据挖掘在房地产行业的应用
1.数据挖掘的概念
对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。
数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。
数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:
(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。
(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”
(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。
(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。
(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。
2.数据挖掘的市场研究价值
数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:
(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。
(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。
(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。
(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。
目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。
3.数据挖掘在房地产客户研究中有着广泛的应用
房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。
对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:
4.明确商业目标
三、如何在房地产行业应用数据挖掘技术
应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。
5.数据准备
基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。
如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。
很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。
处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。
6.建立模型
建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。
一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。
接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。
大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。
7.输出结果的评价和解释
模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。
直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。
8.实施
模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。
在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。
四、应用举例:基于客户分类的关联分析
1.商业目标
为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备
本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。
3.建立模型
(1)对数据进行分类
本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。
案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。
(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:
注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。
b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。
c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。
d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。
上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:
关联规则A1:地理位置无关型客户=≥重视物业管理
支持率=9.7% 可信度=30.3% 兴趣度=2.4与
关联规则B1:重视物业管理 =≥地理位置无关型客户
支持率=9.7% 可信度=76.9% 兴趣度=2.4
对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。
其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。
需要说明:
a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。
b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。
c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。
五、房地产行业数据挖掘的应用前景
随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:
1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。
2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。
第五篇:数据挖掘在保险精准营销中的应用-开题报告
全日制工学(工程)硕士学位论文开题报告
课题来源及研究的目的和意义
1.1 课题来源
自选课题
1.2 选题价值及意义
大型的保险公司已将数据挖掘应用到保险业务中,但由于应用在保险行业的分析模型不是很健全,目前在实际操作中一般都采用套用现成算法的方式,导致其结果不是特别的理想。数据挖掘不只是数据的组织和呈现,而是一个从理解业务需求,寻求解决方案到接受实践检验的完整过程,过程中的每个阶段都需要建立科学的方法。数据挖掘是精准营销创造商业价值的关键,也应该是精准营销重要组成部分。
在保险企业中,应用数据挖掘有以下好处:从业务数据方面看,利用企业经营积累起来的海量数据,经过数据预处理等操作后,并最终挖掘出有用的信息、规则,用来帮助企业的管理者进行正确的决策。站在未来的角度上看,数据挖掘通过对业务数据进行研究与分析,可以预测出企业相关经营方面未来的发展趋势,基于对客户群体进行分类,推出满足客户需求的相关商业产品,并挖掘出潜在客户群体等。另外,从目前的发展和运用现状来看,数据挖掘技术未来发展市场十分广阔。而且数据挖掘技术与保险企业商业问题的结合也应当是一个必然的过程。随着保险企业自身经营管理的不断完善,从海量的业务数据中,获取有价值的信息和知识,分析并研究客户喜好及消费行为特征,并推出适合客户需求的产品,针对客户进行具体的营销,赢得市场地位,对于保险企业来说,是未来快速发展、赢得企业生存的关键。因此,学习与运用数据挖掘技术,也是保险企业未来人才培养的一个重要方面。
2.国内外在该方向的研究现状及分析
2.1 精准营销国内外现状
精准营销在国外发达国家已经有几十年的历史,己经成为各类型企业的常规营销方式。杰罗姆·麦卡锡(E.Jerome McCarthy)于1960年在其《基础营销》(Basic Marketing)一书中第一次将企业的营销要素归结四个基本策略的组合,即著名的“4P’s”理论:产品(Product)、价格(Price)、渠道(Place)、促销(Promotion),由于这四个词的英文字头都是P,再加上策略(Strategy),所以简称为“4P’s”。在1976年,“现在营销学之父” 菲利普·科特勒在其代表作《营销管理》进一步确认了以4P为核心的营销组合方法论。
全日制工学(工程)硕士学位论文开题报告
1990年,美国学者罗伯特·劳朋特(RobertLauterborn)教授提出了与传统营销的4P相对应的4C营销理论。4C(Customer、Cost、Convenience、Communication)营销理论以消费者需求为导向,重新设定了市场营销组合的四个基本要素:瞄准消费者的需求和期望(Customer)。首先要了解、研究、分析消费者的需要与欲求,而不是先考虑企业能生产什么产品;消费者所愿意支付的成本(Cost)。总的来说,4C理论认为,对现代企业来讲,重视产品,更要重视顾客;追求成本,更要追求价格;提供消费者的便利比营销渠道更重要;营销活动不单纯是在促销,而是与客户有效的沟通。4C理论以顾客的便利与满意为企业营销的根基,企业必须从消费者的角度出发,为消费者提供满意的产品和服务,才能在竞争中立于不败之地。
目前,最为流行的营销模式是3P3C,Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。Product(产品):注重产品功能,强调产品卖点。Prospects(消费者,目标用户)。Creative(创意,包括文案、活动等)。Channel(渠道)。Cost/Price(成本/价格)。而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化,目标用户细分,活动创意,渠道优化,成本的调整等重要环节和要素,共同促进数据化运营持续完善,甚至成功。
相对于发达国家,精准营销在中国的发展起步较晚,但是发展速度非常快。三十年改革开放,中国营销经历了一个从“无到有”从“有到强”的过程;三十年市场营销的实践磨练,中国企业积累了很多营销经验、也培养了很多营销人才、形成了较为系统的营销理论,从整个大的层面还是积极的、卓有成效的。但是真正意义上的精准营销在国内的发展起步比较晚,中国企业对于数据库营销的核心,包括“客户识别”“客户分析”“客户互动”“客户体验”的数据库营销专业领域,往往知之甚少,因此中国企业普遍较为缺少精准营销的意识,与这种现象在一定程度上也体现了精准营销在中国发展的不成熟。2.2 数据挖掘国内外现状
在保险业中,美国进行数据挖掘系统研究最为著名的公司是艾克国际科技有限公司(AkuP),其研发的数据挖掘系统能够提供前后端分析的完整功能,且可以做到对保险客户进行一对一行销(One to One Mar-keting)。总体上,其主要功能涵盖了策略层、战术层、执行层,详细包括保险客户的组成、成长潜力、稳定度,防患客户流失、进行客户风险管理,帮助业务人员掌握客户信息等。根据国外相关研究报告的数据显示,数据挖掘在国际市场上的营业份额已经远远超过了数百亿美元。在国外,保险、零售、银行等企业引入数据挖掘系统相关工具所占的比例最高,这些企业在成功引进数据挖掘
全日制工学(工程)硕士学位论文开题报告
工具以后,销售营业额、市场份额等相比以前都有大幅提升。因此,基于数据挖掘的应用系统与工具也相继延伸到国外各行各业的相关领域,发挥着其作用。
20世纪末,数据挖掘在进入中国后,起先在证券业、银行业得到广泛的应用与实践,而保险业是继前二者之后,才逐渐引入数据挖掘进行海量数据的分析与研究,随后,采用信息化技术来提高各保险公司的竞争力也成为共识。国内的多数企业,为了追上这股浪潮,紧跟信息化革命的步伐,也投入了相当大的人力、物力、财力等来引进数据挖掘技术。特别是在我国的许多大型国有企业中,比如保险、银行、证券、电信等,这些企业都拥有海量的数据资源,且企业经济实力强大,行业规模扩展快速等特点,其在数据挖掘系统应用方面已经迈出了坚实的一步.2.3数据挖掘在保险精准营销中的应用
保险领域的数据挖掘就是从保险行业所积累的大量数据信息中,通过知识发现技术,发掘感兴趣的模式或知识,来满足保险行业和监管部门的应用要求。数据挖掘技术在保险精准营销系统中所发挥的重要作用己经逐渐被认同。数据挖掘一开始就是面向应用而诞生的,所要涉及到的挖掘问题主要分为以下俩类:
1.关联问题。关联规则研究主要有两个方向:一是在研究的问题中,假定用户购买的所有产品是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;二是序列问题,即假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,这是关联问题的一种特殊情况。
2.分类问题。分类问题属于预测性的问题,但又区别于普通的预测问题,其预测的结果是类别而不是具体的数值。例如:对客户进行分层,基于一个客户的相关信息,判断出他属于哪一层的客户,未来一段时间是否会购买某类保险?将来是否会成为保险公司的高价值客户?
围绕保险领域的不同需求,可将其归纳为:保险产品的设计、营销方式创新。1.保险产品设计。从保险产品设计与开发的角度出发,分析对于保险条款、保险费率具有重大影响的产品结构、技术结构及所有者结构等因素,满足市场的实际需要。在研制开发保险产品的过程中,需要充分注意适应这些因素的变化,积极开发各种保险产品;通过分析已购买某种保险的人是否同时购买另一种保险,从而可以推进保险产品的创新,行交叉销售和增量销售,提高客户满意度。未来的保险市场必将是保险产品不断得到创新的市场。
2.营销方式创新。通过对客户信息的挖掘来支持目标市场的细分和目标客户群的
全日制工学(工程)硕士学位论文开题报告
定位,制定有针对性的营销措施,包括保险公司的专职人员、代理人员等传统渠道以及经纪人、电话、计算机网络和银行等辅助渠道,提高客户响应统率,降低营销成本。
3.主要研究内容
3.1 技术方案
保险行业在海量数据信息的时代,传统的营销模式缺乏针对性。当客户数量提高、相应的信息量增多、所需保险种类复杂化,如果只依靠传统的营销模式来解决问题,那必定带来很大的人力和财力的损伤,同时会降低工作效率。如此下去,随着需求的不断增加或变更,传统的营销模式没有从根本上解决海量信息带来的挑战,甚至会流失一部分的客户。针对精准营销的主要研究内容如下: 3.1.1 ETL数据预处理
我们要对保险公司提供的原始数据进行预处理后,在可以加载到我们的处理平台上,这个过程,我们需要做到以下几部:
(1)数据清洗。数据清洗主要处理空缺值、噪声数据。针对于空缺值的处理,我们可以采用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。依靠现有的数据信息来推测空缺值,使空缺值有很大的机会保持与其他属性之间的联系。还可以用全部变量来替换空缺值、或是用平均值来填充。针对于噪声数据,我们可以采用分相或是回归的办法来处理。
(2)数据集成。我们从保险公司拿回来的数据,不可能是统一的格式,针对于不同来源的数据,我们要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的实体匹配来进行模式集成。在集成过程,会出现一个属性多次出现或一个属性命名不一致的问题,针对属性冗余的问题,可以用相关分析监测,然后删除冗余的属性。
(3)数据转换。数据转换的目的就是把数据转换成有利于进行数据挖掘的形式。针对于数据属性,我们可以删除一些无关的属性、也可以把一些属性进行维归约,甚至针对于一些关键性的属性,我们可以细化它的属性。
3.1.2 并行数据库运算环境下,提出客户精确分类和客户与产品关联分析组合算法
本文的目的是寻找一种适合保险营销的算法,来解决目前营销的困难,营销的最大的困难就是客户以及针对于客户的产品设计。针对于客户的管理,我们要做到对客户的分层,分类管理,把客户按照现居住地,性别,家庭状况,以及收入情况等属性进行细分。针对以购买保险的客户,关联出已购买的保险种类与细分的属性之间的
全日制工学(工程)硕士学位论文开题报告
关系,将关联出的关系应用到潜在客户,替潜在客户找到适合自己的产品;根据客户的生活状态、家庭状态,找出适合客户的隐藏产品,实现针对性、交叉性销售。3.1.3对挖掘出的结果进行验证
数据挖掘的模型,是要经过验证,一般的情况下,置信度在80%以上就可以投入应用中。挖掘结果验证的方法有两个,一是对现有数据进行抽样观察,用具体的结果支持我们的计算结果,这个是验证;另一个更重要和更有价值,需要保险公司的业务部门根据我们计算的结果,对客户进行深入的精准营销作业,然后搜集指导作业的结果,分析精准定向销售的成功率的提升情况,用实际业绩的数据来验证我们的研究成果。
3.2 关键技术方法
关键问题一:产品分类、客户分层,客户分类。特别是客户分类是精准营销的前提。当前寿险行业(我们目前能拿到主要就是寿险企业数据)的客户的分类,一般是基于下面几个分类模式的:地理变量、人口统计变量、心理变量、行为变量。由于是本地保险企业某个范围内的数据,地理变量的影响很小,人口统计变量对寿险的影响特别大,是本课题的研究重点。中国人对保险产品的认知和偏好,明显与西方不同,而保险行业在中国的真正的发展时间还很短,很多与中国国情和文化有关联的问题都没有得到比较深入的研究。比如,提出两个有关客户分类的问题,一是“代沟”,二是“家庭关系”。代沟问题是大家常谈的社会问题,中国最近30年发生剧烈的社会变革,年龄跨度几年的人,其对社会的认知模式和消费习惯就可能有重大的区别,必然影响保险产品的销售趋向,那么如何在保险客户数据中,找到并比较准确的“代沟分类阈值”?另一个“家庭关系”,建立稳定家庭的客户显然是购买人寿类保险产品的主力,而购买保险产品的过程中,中国体现了很强的“家主决策权”,在客户分类的过程中,家庭关系作为一个特殊的、多指向的、数据元内部有交叉关系的变量组,必然会深刻影响客户的分类方法,以及在后面依附于分类计算结果之上的关联计算方法和计算结果。这是本课题研究的另一个重要问题。本课题对保险用户的分类方法虽然还属于当前流行的大类分析方法中的类型,但相比一般粗糙的分类方式,我们采用了更精细、更深入的分类方法,当然对分类算法就需要进行深入的定制、优化研究。
关键问题二:根据前面对客户分类的设想,在分类中出现用关系表来描述的客户种类属性的情况下,客户属性要体现“家庭单位和成员关系的客户分类属性”,本身可能是一个多维表,那么当下普遍采用的关联关系的二维计算方法都是用来分析两个一
全日制工学(工程)硕士学位论文开题报告
维数据属性之间的关系,比如当前主流的Apriori算法。当前通用的算法如果不进行改进和局部的特殊设计,显然不能满足对本课题对应的保险客户数据属性表与产品表之间进行关联分析的运算要求。这就要求我们对关联算法的具体定制和完善,进行研究和创新。3.3技术、实验条件
如果采用传统的数据库进行海量数据的存储、并在其基础上进行查询分析操作时,会出现检索速度慢以及不易扩展的问题,提出基于GP的分布式存储模型(如图所示)。
Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部数据源并行装载或导出Master 节点Network Interconnect
图1.1 GP的系统结构
采用成熟的商用并行数据库平台Greenplum作为本项目的主要数据库和分析挖掘运算环境。该系统是基于postgreSQL发展的商业系统,特点是采用一组分布式多节点服务器组成并行运算结构,特别适合进行频繁的高密度表关联计算。
系统平台的基本配置是一个核心管理服务器管理一组运算节点单元服务器,运算节点单元服务器可以根据数据量和运算要求的增长扩容。目前实验室提供的环境可以存储大约2亿条数据,由于运算过程中需要产生大量的中间结果,因此推测可以对大约100万条保险客户和业务数据进行分析。3.4 预计目标
(1)适用于本地寿险行业的精准营销分析方法,能够用一种以上方法对客户进行精确分类,并根据分类属性确定保险产品的关联选择度,以指导保险行业提升客户价值; 基于保险数据的挖掘处理方法以及增量挖掘问题的处理方法
(2)在核心期刊上发表1-2篇论文
全日制工学(工程)硕士学位论文开题报告
4研究方案及进度安排,预期达到的目标
2014年 9月 1日——2014年10月30日:调研、准备开题
2014年11月1日——2014年11月30日:去保险企业搜集数据,分析其数据特点,实验方案再论证
2014年12月1日——2015年1月15日:建立模型与建立实验环境
2015年2月10日——2015年5月30日:编码、收集与分析实验数据,完成一篇论文 2015年 6月1日——2015年 9月10日:进一步的对精准营销系统进行优化 2015年 9月11日——2015年11月30日:硕士论文编写 2015年12月1日——2015年 12月31日:硕士论文答辩