第一篇:云速精准数据挖掘系统使用教学
云速精准数据挖掘系统使用教学
云速精准数据挖掘主要针对各行各业临街店铺的采集,可以精确的找到店铺名以及联系电话和具体位置,下边我给大家演示一下
首先在电脑上找到此功能双击运行此程序然后我们选择本地验证模式 把旁边的验证码输入进去
这个必须手动点登录键,按回车键是没有反应的 可以看到旁边四个地图我们是可以随意选择的在这里我们可以手动输入地区也可以点下边快速添加地区快速添加我们可以看到全国所有的省都有下图可以看出省里边所有的的城市都会显示,直接点击就可以选择城市选好之后点击保存就行在下边空白的地方可以手动输入关键词也可以选择下边的快速添加行业快速添加我们可以看到所有行业的分类,在里边直接找你要找的行业这边这个行业我们可以多种选择选好之后记得手动点击保存地区还有行业设置好之后直接点开始采集,它就会自动采集如果采集了一部分了不想采集了可以点击停止采集要导出的话,首先要在桌面新建一个文本然后我们点击导出号码直接找到我们新建的文本里边就可以了最后我们要去桌面检查一下号码是否已导出
第二篇:外呼销售精准营销数据挖掘模型
• OB实现精准营销需要建立的数据挖掘模型
第一:模型横向
1、会员定性:通过对会员姓名,性别,年龄,购买商品,购买时间,购买金额,商品品类等数据。得出客户的购买习惯,购买能力,会员粘稠度。得出会员属性列表。
2、商品定位:通过同纬度得出商品销售生命周期,商品毛利,商品消费群等。通过此信息策划OB商品。建立商品地图。
3、行销:根据现有销售数据库,分析各维度数据。得出针对不同时间,客户,商品使用不同行销活动对营销的影响,参考此模型制定行销策略并预估营销效果。
第二:纵向:
1、业务需求分析:分析客户购买特性和购买记录,支撑营销策划。根据现有公司销售要求,针对什么客户进行营销。包括“促销方案分析及评估”,“个性化商品”,“营销方案及有效化”,“促销敏感性和目标”等
2、数据准备和转化:为支撑相关业务要求,销售和客户数据能准确,全面精准与业务匹配;另外能将相关数据按照数据库要求及时归类。
3、会员属性选择:根据业务要求能精准找到会员属性。符合相关方案要求。
4、建立会员模型:按照会员姓名,性别,年龄,购买商品,购买时间,购买金额,商品品类,行销活动使用等数据等维度建立会员模型。包括客户模型,客单模型,积分模型,销售明细模型,商品模型,付款模型。
5、模型评估:在建立会员模型之后需要测试业务需求分析,数据转化,会员属性定义,商品和行销模型匹配。能进行精准的市场定位,包括“客户价值及趋势”,“客户潜在价值及忠诚度”,“客户流失倾向”,“行销活动敏感度”,“客户消费倾向及消费周期”,“客户基本信息”评估。
第三:数据挖掘逻辑
1、分类问题:对数据进行分类,预测问题类别。通过对多个数据源进行分类,能够将数据进行归类,并能通过数据分析发现问题同时对问题也能进行分类。
2、聚类问题:解决一群对象划分不同类别的问题。通过对不同的类型数据能统一和整理成一个类别。这是分总概念,通过汇总不同类别数据和问题找到集中式解决方案。
3、关联性问题:upsell中的upsell和cross-sell。通过模型分析,帮助客户寻找商品,为商品寻找合适客户。分析出客户的购买周期和购买特点找出客户潜在需求针对性做关联销售和交叉销售。
4、预测问题:预测变量数据是否为连续型的情况。通过分类和聚类,能将数据模型中的数据和相关问题进行串联。找到问题的发展和变化趋势,预测问题以帮助改进销售方案最终实现精准营销。
OB-TEAM
第三篇:基于数据挖掘的业务审计系统[模版]
1引言
Anron(美国)、Ahold(荷兰)、Parmalat(意大利)和Addeco(瑞士)财务丑闻的发生,揭示了财务报告舞弊是一个世界性的问题,王 泽霞(2004)也认为:美国法律案件中管理层舞弊占绝大多数、中国会计信息失真主要是单位负责人造成的、我国财务报表审计中存在的重大错报主要为管理舞 弊。舞弊已成为财务报告团体的流行病。舞弊是一个很重要的问题,据估计舞弊使美国企业每一美元的收入损失近6%。[1]欺诈性的财务报告不仅损害了商业团 体和会计职业的信誉,也损害了利益相关者。尽管各国监管机构等相关部门多次出台各种政策、不断完善会计及审计准则,财务报告舞弊仍屡禁不止。财务报告使用 者期望审计人员提高舞弊审计的能力,以发现和报告更多的舞弊。识别管理舞弊迹象因此成为风险导向审计中审计人员从总体上考察会计报表的公允表达,寻找潜在 错报高风险领域的主要任务。
与此同时各行各业信息系统的流行与普及使得各种组织实体使用的信息系统,生产着大量的电子数据,造成被审计的电子数据也是海量的,增加了舞弊审计的难度。如:某省某银行某年仅2月份会计传票流水多达562783条;某海关半年内的进口报关单的数目多达61458 条。不仅如此,计算机技术应用,计算机舞弊手段也不断发展。电子化和网络化环境使得作弊手法越发隐蔽,数据难以追踪,审计无从下手。
因此,舞弊审计不仅需要从大量的公司年报、中报等财务数据中提取财务信息,还要从企业本身的组织结构特征、行业特征、经营决策特征等相关非财务信息中寻找 线索,面对浩如烟海的财务与非财务数据,仅仅根据审计人员的经验和手工劳动,其识别效果和效率都不理想。数据挖掘技术作为一种决策支持技术,能够从海量 的、不完全的、模糊的、随机的实际数据中,帮助人们发现那些重要且较为隐蔽的线索,从而来辅助审计人员进行审计数据分析,提高识别舞弊的质量和效率。2007年开始实施的《中国注册会计师审计准则第1141号财务报表审计中对舞弊的考虑》要求加强财务报表审计中的舞弊审计,但相对于舞弊方式的隐蔽性、专业性和创新性,目前的状况很难适应反舞弊形势的需要,迫切需要设计我国的舞弊审计数据挖掘系统,提高我国舞弊发现效率,有效打击舞弊违法活动。数据挖掘概述
数据挖掘又称数据开采、数据发掘等,指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知 识的过程。该技术特别适合处理海量数据,能够建立预测模型,分析历史及当前数据,自动地、智能地对各种数据资料进行反复的、全面充分的调用分析,转化为有 用的信息和知识,从中发现隐藏的关系和模式,并帮助预测未来可能发生的事件。该技术高度程序化的特征决定其分析、判断的客观性,能够排除人为干扰,提高审 计数据分析结论的准确性。数据挖掘技术可以通过对舞弊案例进行机器学习(machine learning),总结有关舞弊渠道、环节等的特征与规律,与待处理数据进行对照和比较,提高数据处理、分析的广度及深度,不断获得新知识对模型进行动 态更新,为审计人员提供更多线索。数据挖掘技术也可以从大量的复杂关联数据,将会计人员眼中不显著的虚假财务报告与自然形成财务报告之间的内在差异放大到 存在某种数据结构和统计显著性差异,在一定程度上提高了舞弊性财务报告的识别效率和效果。
数据挖掘技术分析方法很多,在此列举目前最可能运用于舞弊审计工作中的几种常用方
法,主要有:
1.数据概化。数据库中通常存放着大量的细节数据,通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。一般有两类方法:数据立方体方 法和面向属性的归纳方法。
2.分类与预测。它是基于模型的方法,包括回归分析、因子分析和判别分析等,用此方法可对数据进行分类和预测。
3.聚类分析。聚类分析是把一组个体按照相似性归成若干类别,目的是使得同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大,该方法可 为不同的信息用户提供不同类别的信息集。聚类已经被广泛地应用在许多领域中,如模式识别、数据分析、图像处理,以及市场研究。
4.关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式,其目的是挖掘隐藏在数据间的相互关系。它通过量化的数字描述 对象甲的出现对对象乙的出现有多大的影响。特别是在会计领域,会计数据之间存在严密的勾稽关系,这种方法非常适用。数据挖掘技术在舞弊审计中的应用前景
3.1 采用数据挖掘技术的必要性
随着数据库技术的迅速发展及数据管理系统的广泛应用,大部分企业已经引入信息系统对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录,因此企 业积累的数据越来越多,形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围 的数据支持,但同时也带来了一些问题:一是数据过量,难以及时发现有用信息;二是数据形式不一致,难以统一处理;三是数据是不断发展的,识别舞弊的经验相 对于数据往往是滞后的,这种不同步性给舞弊识别带来了巨大的潜在风险,KPMG(1998)调查发现超过三分之一的舞弊事件是在偶然的情况下被发现的,只 有4%的舞弊事件是由独立审计人员发现的;四是传统的数据分析方法无法处理庞大的数据库系统,技术工具的落后性势必影响舞弊识别的广度和深度;五是新的数 据处理技术为舞弊提供了越发隐蔽的新手段,电子化和网络化的数据环境也使得舞弊隐藏的更深,使识别难以下手。
目前的计算机审计软件多是利用审计人员的经验和计算机查询技术相结合的方法对被审计单位电子数据进行审计“发现其中的异常情况”,但这存在多处不足: 一是审计人员的经验和知识是“有限的”被审计对象行业跨度大,各单位情况千差万别,当审计经验无法运用时,面对海量数据真有如“瞎子摸象”;二是数据是不 断发展的,审计经验相对于数据的发展往往是滞后的,这种不同步性给审计带来巨大的潜在风险;三是对同一数据审计不同的审计人员可能会得出完全不同的审计结 论,知识的“不对称性”无法保障审计质量。
数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般
采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的 模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概 括,也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于舞弊财务报告的识别很有必要也非常紧迫。
3.2 数据挖掘技术在舞弊审计中的应用
(1)数据概化。审计人员往往需要查询不同综合程度的被审计数据信息,以便了解被审计单位的有关各级别的财务经营信息,以便寻找审计线索。在数据库的原始概念 层,数据和对象往往包含很详细的信息。人们希望能将集中的数据进行总结概括,并将其在更高的概念层次上呈现出来。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。概念描述可以提供数据的一般特征。
数据概化可应用于描述式挖掘,审计 人员可从不同的粒度和不同的角度描述数据集,从而了解某类数据的概貌。大量研究证实,舞弊行为通常会使得“企业的财务结构出现异常的状态”(Joseph T.Well 2001)。[8]因此,审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘,通过使用属性概化、属性相关分析等技术将详细的财务数 据在较高层次上表达出来,以得到正常财务报告和虚假财务报告的一般属性特征描述,如流动比率、速动比率、资产周转率、主营业务利润率、资产负债率、投资报酬率、每股收益率等值从而为审计人员判断虚假财务报告提供依据。
(2)分类与预测。分类和预测是数据挖掘中发展最充分的领域。分类的结果典型地表现为一个具有行为可预测性的组。欺诈侦测和欺诈风险运用最适合于这种类型的分 析。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员建立统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根 据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。比如在财务审计中,虚假财务报告从财务指标上看,就是某些财 务指标显著地异于同类企业,这些能够显著显示财务舞弊征兆的财务指标包括应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等[8]。对此,审计中可采用数据挖掘的统计分析技术对这些指标数据进行分类和预测,当预测值与审计值差距较大时,可列为 审计关注的重点。
(3)聚类分析。聚类分析是将数据中比较接近的划归为一类,合理的聚类后,每一类内就可以找出有关的特征,有利于 发现真正有用的信息。不同类型的问题可以有不同的聚类原则,这样就可以找到不同的特征。聚类分析技术特别适用于从大量的交易数据中产生及时、准确的线索。由于舞弊方式多种多样,数据表现出来的特点也就各式各样,并不是所有的可疑账户都可以聚成一类。因此,在舞弊行为识别中,簇的数量是未知的,因舞弊方式的 不同而不同。聚类分析中“簇的数量未知”这个特点刚好满足舞弊行为识别的这个要求。而且,由于其聚类分析的自动处理、非监督学习等特性使得其可以动态地适 应舞弊手段的变化,也可以在一定程度上规避舞弊犯罪活动的自适应问题。
聚类分析和孤立点挖掘方法相结合是非常好的审计线索发现方法。孤立点是指数据集中与一般数据模型不相符的那些数据。实践表明,真实的财务报表中主要项目的 数据变动具有一定的规律性,如果其变动表现异常,就说明数据中可能存在虚假成分。孤立点分析对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。审计人员可以使用孤立点分析技术来检查一些舞弊、违背规律和规定的行为,因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据,而且很可能以不同 于一般数据的形式表现出来,通过孤立点分析方法可以有效地发现这样的异常数据。在实际操作中,我们通常选择能够显著显示财务舞弊征兆的一些关键财务指标,如应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等,并为其设定一个阀值,一旦财务报告 中的相关财务指标数值超过这个阀值,说明报告有可能存在舞弊。
(4)关联分析。关联分析就是给定一组或一个记录集合,通过分析记录 集合,推导出相关性,目的是为了挖掘出隐含在数据间的相互关系。数据关联是数据库中存在的一类重要的可被发现的知识。关联可分为简单关联、时序关联、因果 关联。关联分析的目的是找出数据中隐藏的关联网。在会计领域,会计数据之间存在严密的勾稽关系,通过基于关联规则的数据挖掘分析,可挖掘出隐藏在数据间的相互关系。如财务做假有时表现在科目做假上,通过 各个科目之间的运作、协调和配合,表现为“假科目,真做账”现象。但这种做假手段难免会出现个别科目的背离以及报表间钩稽关系的异常。为此,可运用数据挖 掘中的关联分析技术方法,在对财务数据或经济数据的审计中,针对同类或不同类会计科目及数据项之间可能存在某种对应关系,以及资产负债表、利润表、现金流 量表三大财务报表之间的勾稽关系,按照非财务逻辑关系的规律来查找、挖掘,从而发现一些隐藏的经济活动,为审计人员的进一步工作提供参考。如利用数据挖掘 中的关联分析,可以发现一个单位的车辆数和养路费、汽车保险费等日常维护支出存在一定的关系,能够据此发现是否存在用账外资产买车的行为,进而查出小金库 问题。基于数据挖掘的舞弊发现过程模型
为发现舞弊行为,数据挖掘需要面对的是关系复杂的企业全局视角的知识发现,因此进行数据采掘一般要花大部分力量在数据准备阶段。但是,不同历史阶段企业内 部许多部门建立了各自的信息处理系统,这些系统之间相互隔离,结构各异,因此很难得到企业全局的信息。审计人员需要使用(历史的、现在的)数据和多个系统 数据进行各种复杂分析,以发现审计线索。这不仅要求系统保存大量的历史数据,而且还要进行复杂的分析处理(每次处理涉及大量数据),这对于业务处理频繁的 业务数据库系统而言,将成为沉重的负担。数据仓库面向复杂的数据分析,集成企业范围内的数据。它把数据事先收集、归纳、处理,使企业的业务操作环境和信息 分析环境分离,从而有效地为决策提供实时的信息服务。从这一点上讲,基于数据仓库的数据采掘能更好地满足审计的要求。而且,数据仓库机制大大降低了数据采 掘的障碍,而在数据仓库中数据已经被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。这样,注意力更集中于数据采掘的核心处理阶段。另 外,数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的采掘。基于此,舞弊审计中的数据挖掘技术应该基于审计数据仓库基础之上。
本文根据美国研究所总结的数据挖掘方法(SEMMA)和斯坦福大学的约翰1997 年在其博士论文中给出的数据挖掘处理模型,强调由审计专家和数据挖掘人员共同参与数据挖掘的全过程、及时沟通,基于审计数据仓库,从舞弊审计需求出发,给 出了基数据挖掘的审计线索发现过程的模型框架。如图1所示。
(1)提出审计需求。根据审计的目标和内容要求,描述和表达审计问题,并据此确定数据挖掘的目的。数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结果是不可预测的,但要探索的问题应该是有预见的,盲目的数据挖掘是不会成功的。
(2)理解和分析。数据挖掘人员与审计人员在共同的基础上明确数据挖掘目的,针对挖掘目标,进行数据分析和建模准备。
(3)建模。根据挖掘目标,确定将要进行的挖掘操作类型,如分类与预测、聚类、关联分析等,设计或选择有效的数据挖掘算法,产生数学分析模型并与审计人员沟通,审计人员理解确认。
(4)数据挖掘。数据挖掘人员利用经确认的数据挖掘模型和数据仓库进行数据挖掘。
(5)结果分析与评估。分析并评估挖掘结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。
(6)发布审计发现。以一种审计人员能够使用的方式呈现审计发现,在舞弊审计中应用审计发现的知识,最终完成审计工作。
5结论
识别财务报告中的舞弊,需要从大量企业内外相关信息中寻找线索,数据挖掘技术帮助审计人员对被审计单位海量电子数据进行分析,获得审计线索,发现审计疑 点。建立一个基于数据挖掘技术的舞弊审计模型,充分利用经验丰富的专家智囊及数据挖掘的技术优势,将会增强审计人员的审计数据分析能力,提高舞弊审计的效 率和效果,尽量降低其带给利益相关者的损失
第四篇:教学质量 模糊数学 数据库 评估系统 数据挖掘
教学质量论文:基于Web的高校教学质量评估系统的设计与实现
【中文摘要】教学质量测评检查高校教学质量的重要手段之一,是高校每学期都进行的一项常规考核工作。教学质量测评无论是对学校、教师还是学生均具有十分重要的意义。但是,随着近年来高校规模的迅速扩大和教育体制的不断改革,传统评教方式已经凸显弊端,使高校教学管理的信息化和网络化势在必行。本文所要开发的基于web的教学质量测评系统就是一个适应当前新形势、便捷、高效的教学质量测评系统。首先在对高校教学质量测评工作进行深入地调研的基础上,对此系统进行了可行性分析和总体设计,然后阐述了系统数据库设计和实现方案,接着详细论述了各子系统的具体实现以及关键技术,最后分析了该系统存在的不足和相应的改进措施。整个系统实现了用户登录控制、评测信息录入、查询、计算、统计、分析、数据维护以及打印报表等主要功能。教学质量测评系统采用B/S架构,以WindowsServer2003作为软件开发平台,以Eclipse作为服务器端开发工具,开发语言选用JSP,以MySQL作为后台数据库,利用JDBC数据库访问技术对数据库进行管理操作,实现了基于WEB的教学质量测评系统。在对教学质量的评估分析统计中,本文采用了模糊数学的模糊综合评判方法对教学质量进行...【英文摘要】As a teaching quality monitoring, the teaching quality evaluation is one of the important contents and an
assessment in each semester of college.The teaching quality assessment has very important significance for schools, teachers and students.However, in recent years, with the rapid expansion of higher education and the education system reform, the traditional teaching and evaluation has appeared shortcomings, so it is imperative to make the college teaching management informationize and networked.This...【关键词】教学质量 模糊数学 数据库 评估系统 数据挖掘 【英文关键词】The teaching quality the teaching quality fuzzy mathematics database eváluation system data mining 【索购全文】联系Q1:138113721 Q2:139938848
【目录】基于Web的高校教学质量评估系统的设计与实现要4-5Abstract5
第1章 绪论8-121.2 国内外研究现状
1.4 本章小结
2.1 教学
摘
1.1 课题的发展背景及研究意义8-99-1111-121.3 本课题研究目标及内容第2章 系统设计相关理论研究12-32
2.1.1 教学评估的概念及特征评估标准12-14122.1.2 教学评估标准确立12-14
2.2.1 系统开发模式
2.2 系统设计的技14-17
2.2.2 开发2.3 模糊评估基术分析14-20工具17-20础20-24
2.2.3 数据库连接JDBC202.3.1 模糊集20-21
2.3.2 模糊关系与模糊
矩阵21基础24-3124-2525-31成32-4032-333334-35成36-37小结39-402.3.3 模糊综合评判21-242.4 数据挖掘理论
2.4.1 数据挖掘的相关概念理论2.4.2 本课题涉及到的数据挖掘相关理论2.5 本章小结31-32
第3章 系统框架及功能组
3.2 需求分析3.1 系统可行性研究323.3 总体要求33-34
3.3.1 设计原则3.4 务流程
3.5.1 Web子系统构
3.6 本章4.1 数据3.3.2 设计目标33-343.5 系统的总体结构35-393.5.2 信息维护子系统构成37-39第4章 数据库设计与实现40-43
4.2 数据库设计
40-41库设计流程40求分析40-41库连接41-42估系统实现43-54登录控制模块的实现45-48实现48-5248-52块52-53
4.2.1 数据库需
4.3 数据
4.2.2 数据库概念模式设计414.4 本章小结42-43
第5章 教学质量评
5.1.1
5.1 Web子系统的实现43-4843-45
5.1.2 课程评估模块的实现
5.2 信息维护子系统的5.1.3 信息查询模块48
5.2.1 模糊综合评判方法分析计算评估结果5.2.2 数据库基本信息维护5.4 本章小结53-54
5.3 信息发布模
第6章 教学质量评估结
6.2 果的数据挖掘54-59数据挖掘的过程分析55-58
6.1 必然性与可行性54-556.3 数据挖掘实现6.3.1 数据准备55-566.3.2 对评估结果的数
据挖掘56-58参考文献61-6464-65致谢
6.4 本章小结58-59结论59-61
攻读硕士学位期间所发表的论文65-66
个人简历
第五篇:数据挖掘在保险精准营销中的应用-开题报告
全日制工学(工程)硕士学位论文开题报告
课题来源及研究的目的和意义
1.1 课题来源
自选课题
1.2 选题价值及意义
大型的保险公司已将数据挖掘应用到保险业务中,但由于应用在保险行业的分析模型不是很健全,目前在实际操作中一般都采用套用现成算法的方式,导致其结果不是特别的理想。数据挖掘不只是数据的组织和呈现,而是一个从理解业务需求,寻求解决方案到接受实践检验的完整过程,过程中的每个阶段都需要建立科学的方法。数据挖掘是精准营销创造商业价值的关键,也应该是精准营销重要组成部分。
在保险企业中,应用数据挖掘有以下好处:从业务数据方面看,利用企业经营积累起来的海量数据,经过数据预处理等操作后,并最终挖掘出有用的信息、规则,用来帮助企业的管理者进行正确的决策。站在未来的角度上看,数据挖掘通过对业务数据进行研究与分析,可以预测出企业相关经营方面未来的发展趋势,基于对客户群体进行分类,推出满足客户需求的相关商业产品,并挖掘出潜在客户群体等。另外,从目前的发展和运用现状来看,数据挖掘技术未来发展市场十分广阔。而且数据挖掘技术与保险企业商业问题的结合也应当是一个必然的过程。随着保险企业自身经营管理的不断完善,从海量的业务数据中,获取有价值的信息和知识,分析并研究客户喜好及消费行为特征,并推出适合客户需求的产品,针对客户进行具体的营销,赢得市场地位,对于保险企业来说,是未来快速发展、赢得企业生存的关键。因此,学习与运用数据挖掘技术,也是保险企业未来人才培养的一个重要方面。
2.国内外在该方向的研究现状及分析
2.1 精准营销国内外现状
精准营销在国外发达国家已经有几十年的历史,己经成为各类型企业的常规营销方式。杰罗姆·麦卡锡(E.Jerome McCarthy)于1960年在其《基础营销》(Basic Marketing)一书中第一次将企业的营销要素归结四个基本策略的组合,即著名的“4P’s”理论:产品(Product)、价格(Price)、渠道(Place)、促销(Promotion),由于这四个词的英文字头都是P,再加上策略(Strategy),所以简称为“4P’s”。在1976年,“现在营销学之父” 菲利普·科特勒在其代表作《营销管理》进一步确认了以4P为核心的营销组合方法论。
全日制工学(工程)硕士学位论文开题报告
1990年,美国学者罗伯特·劳朋特(RobertLauterborn)教授提出了与传统营销的4P相对应的4C营销理论。4C(Customer、Cost、Convenience、Communication)营销理论以消费者需求为导向,重新设定了市场营销组合的四个基本要素:瞄准消费者的需求和期望(Customer)。首先要了解、研究、分析消费者的需要与欲求,而不是先考虑企业能生产什么产品;消费者所愿意支付的成本(Cost)。总的来说,4C理论认为,对现代企业来讲,重视产品,更要重视顾客;追求成本,更要追求价格;提供消费者的便利比营销渠道更重要;营销活动不单纯是在促销,而是与客户有效的沟通。4C理论以顾客的便利与满意为企业营销的根基,企业必须从消费者的角度出发,为消费者提供满意的产品和服务,才能在竞争中立于不败之地。
目前,最为流行的营销模式是3P3C,Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。Product(产品):注重产品功能,强调产品卖点。Prospects(消费者,目标用户)。Creative(创意,包括文案、活动等)。Channel(渠道)。Cost/Price(成本/价格)。而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化,目标用户细分,活动创意,渠道优化,成本的调整等重要环节和要素,共同促进数据化运营持续完善,甚至成功。
相对于发达国家,精准营销在中国的发展起步较晚,但是发展速度非常快。三十年改革开放,中国营销经历了一个从“无到有”从“有到强”的过程;三十年市场营销的实践磨练,中国企业积累了很多营销经验、也培养了很多营销人才、形成了较为系统的营销理论,从整个大的层面还是积极的、卓有成效的。但是真正意义上的精准营销在国内的发展起步比较晚,中国企业对于数据库营销的核心,包括“客户识别”“客户分析”“客户互动”“客户体验”的数据库营销专业领域,往往知之甚少,因此中国企业普遍较为缺少精准营销的意识,与这种现象在一定程度上也体现了精准营销在中国发展的不成熟。2.2 数据挖掘国内外现状
在保险业中,美国进行数据挖掘系统研究最为著名的公司是艾克国际科技有限公司(AkuP),其研发的数据挖掘系统能够提供前后端分析的完整功能,且可以做到对保险客户进行一对一行销(One to One Mar-keting)。总体上,其主要功能涵盖了策略层、战术层、执行层,详细包括保险客户的组成、成长潜力、稳定度,防患客户流失、进行客户风险管理,帮助业务人员掌握客户信息等。根据国外相关研究报告的数据显示,数据挖掘在国际市场上的营业份额已经远远超过了数百亿美元。在国外,保险、零售、银行等企业引入数据挖掘系统相关工具所占的比例最高,这些企业在成功引进数据挖掘
全日制工学(工程)硕士学位论文开题报告
工具以后,销售营业额、市场份额等相比以前都有大幅提升。因此,基于数据挖掘的应用系统与工具也相继延伸到国外各行各业的相关领域,发挥着其作用。
20世纪末,数据挖掘在进入中国后,起先在证券业、银行业得到广泛的应用与实践,而保险业是继前二者之后,才逐渐引入数据挖掘进行海量数据的分析与研究,随后,采用信息化技术来提高各保险公司的竞争力也成为共识。国内的多数企业,为了追上这股浪潮,紧跟信息化革命的步伐,也投入了相当大的人力、物力、财力等来引进数据挖掘技术。特别是在我国的许多大型国有企业中,比如保险、银行、证券、电信等,这些企业都拥有海量的数据资源,且企业经济实力强大,行业规模扩展快速等特点,其在数据挖掘系统应用方面已经迈出了坚实的一步.2.3数据挖掘在保险精准营销中的应用
保险领域的数据挖掘就是从保险行业所积累的大量数据信息中,通过知识发现技术,发掘感兴趣的模式或知识,来满足保险行业和监管部门的应用要求。数据挖掘技术在保险精准营销系统中所发挥的重要作用己经逐渐被认同。数据挖掘一开始就是面向应用而诞生的,所要涉及到的挖掘问题主要分为以下俩类:
1.关联问题。关联规则研究主要有两个方向:一是在研究的问题中,假定用户购买的所有产品是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;二是序列问题,即假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,这是关联问题的一种特殊情况。
2.分类问题。分类问题属于预测性的问题,但又区别于普通的预测问题,其预测的结果是类别而不是具体的数值。例如:对客户进行分层,基于一个客户的相关信息,判断出他属于哪一层的客户,未来一段时间是否会购买某类保险?将来是否会成为保险公司的高价值客户?
围绕保险领域的不同需求,可将其归纳为:保险产品的设计、营销方式创新。1.保险产品设计。从保险产品设计与开发的角度出发,分析对于保险条款、保险费率具有重大影响的产品结构、技术结构及所有者结构等因素,满足市场的实际需要。在研制开发保险产品的过程中,需要充分注意适应这些因素的变化,积极开发各种保险产品;通过分析已购买某种保险的人是否同时购买另一种保险,从而可以推进保险产品的创新,行交叉销售和增量销售,提高客户满意度。未来的保险市场必将是保险产品不断得到创新的市场。
2.营销方式创新。通过对客户信息的挖掘来支持目标市场的细分和目标客户群的
全日制工学(工程)硕士学位论文开题报告
定位,制定有针对性的营销措施,包括保险公司的专职人员、代理人员等传统渠道以及经纪人、电话、计算机网络和银行等辅助渠道,提高客户响应统率,降低营销成本。
3.主要研究内容
3.1 技术方案
保险行业在海量数据信息的时代,传统的营销模式缺乏针对性。当客户数量提高、相应的信息量增多、所需保险种类复杂化,如果只依靠传统的营销模式来解决问题,那必定带来很大的人力和财力的损伤,同时会降低工作效率。如此下去,随着需求的不断增加或变更,传统的营销模式没有从根本上解决海量信息带来的挑战,甚至会流失一部分的客户。针对精准营销的主要研究内容如下: 3.1.1 ETL数据预处理
我们要对保险公司提供的原始数据进行预处理后,在可以加载到我们的处理平台上,这个过程,我们需要做到以下几部:
(1)数据清洗。数据清洗主要处理空缺值、噪声数据。针对于空缺值的处理,我们可以采用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。依靠现有的数据信息来推测空缺值,使空缺值有很大的机会保持与其他属性之间的联系。还可以用全部变量来替换空缺值、或是用平均值来填充。针对于噪声数据,我们可以采用分相或是回归的办法来处理。
(2)数据集成。我们从保险公司拿回来的数据,不可能是统一的格式,针对于不同来源的数据,我们要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的实体匹配来进行模式集成。在集成过程,会出现一个属性多次出现或一个属性命名不一致的问题,针对属性冗余的问题,可以用相关分析监测,然后删除冗余的属性。
(3)数据转换。数据转换的目的就是把数据转换成有利于进行数据挖掘的形式。针对于数据属性,我们可以删除一些无关的属性、也可以把一些属性进行维归约,甚至针对于一些关键性的属性,我们可以细化它的属性。
3.1.2 并行数据库运算环境下,提出客户精确分类和客户与产品关联分析组合算法
本文的目的是寻找一种适合保险营销的算法,来解决目前营销的困难,营销的最大的困难就是客户以及针对于客户的产品设计。针对于客户的管理,我们要做到对客户的分层,分类管理,把客户按照现居住地,性别,家庭状况,以及收入情况等属性进行细分。针对以购买保险的客户,关联出已购买的保险种类与细分的属性之间的
全日制工学(工程)硕士学位论文开题报告
关系,将关联出的关系应用到潜在客户,替潜在客户找到适合自己的产品;根据客户的生活状态、家庭状态,找出适合客户的隐藏产品,实现针对性、交叉性销售。3.1.3对挖掘出的结果进行验证
数据挖掘的模型,是要经过验证,一般的情况下,置信度在80%以上就可以投入应用中。挖掘结果验证的方法有两个,一是对现有数据进行抽样观察,用具体的结果支持我们的计算结果,这个是验证;另一个更重要和更有价值,需要保险公司的业务部门根据我们计算的结果,对客户进行深入的精准营销作业,然后搜集指导作业的结果,分析精准定向销售的成功率的提升情况,用实际业绩的数据来验证我们的研究成果。
3.2 关键技术方法
关键问题一:产品分类、客户分层,客户分类。特别是客户分类是精准营销的前提。当前寿险行业(我们目前能拿到主要就是寿险企业数据)的客户的分类,一般是基于下面几个分类模式的:地理变量、人口统计变量、心理变量、行为变量。由于是本地保险企业某个范围内的数据,地理变量的影响很小,人口统计变量对寿险的影响特别大,是本课题的研究重点。中国人对保险产品的认知和偏好,明显与西方不同,而保险行业在中国的真正的发展时间还很短,很多与中国国情和文化有关联的问题都没有得到比较深入的研究。比如,提出两个有关客户分类的问题,一是“代沟”,二是“家庭关系”。代沟问题是大家常谈的社会问题,中国最近30年发生剧烈的社会变革,年龄跨度几年的人,其对社会的认知模式和消费习惯就可能有重大的区别,必然影响保险产品的销售趋向,那么如何在保险客户数据中,找到并比较准确的“代沟分类阈值”?另一个“家庭关系”,建立稳定家庭的客户显然是购买人寿类保险产品的主力,而购买保险产品的过程中,中国体现了很强的“家主决策权”,在客户分类的过程中,家庭关系作为一个特殊的、多指向的、数据元内部有交叉关系的变量组,必然会深刻影响客户的分类方法,以及在后面依附于分类计算结果之上的关联计算方法和计算结果。这是本课题研究的另一个重要问题。本课题对保险用户的分类方法虽然还属于当前流行的大类分析方法中的类型,但相比一般粗糙的分类方式,我们采用了更精细、更深入的分类方法,当然对分类算法就需要进行深入的定制、优化研究。
关键问题二:根据前面对客户分类的设想,在分类中出现用关系表来描述的客户种类属性的情况下,客户属性要体现“家庭单位和成员关系的客户分类属性”,本身可能是一个多维表,那么当下普遍采用的关联关系的二维计算方法都是用来分析两个一
全日制工学(工程)硕士学位论文开题报告
维数据属性之间的关系,比如当前主流的Apriori算法。当前通用的算法如果不进行改进和局部的特殊设计,显然不能满足对本课题对应的保险客户数据属性表与产品表之间进行关联分析的运算要求。这就要求我们对关联算法的具体定制和完善,进行研究和创新。3.3技术、实验条件
如果采用传统的数据库进行海量数据的存储、并在其基础上进行查询分析操作时,会出现检索速度慢以及不易扩展的问题,提出基于GP的分布式存储模型(如图所示)。
Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部数据源并行装载或导出Master 节点Network Interconnect
图1.1 GP的系统结构
采用成熟的商用并行数据库平台Greenplum作为本项目的主要数据库和分析挖掘运算环境。该系统是基于postgreSQL发展的商业系统,特点是采用一组分布式多节点服务器组成并行运算结构,特别适合进行频繁的高密度表关联计算。
系统平台的基本配置是一个核心管理服务器管理一组运算节点单元服务器,运算节点单元服务器可以根据数据量和运算要求的增长扩容。目前实验室提供的环境可以存储大约2亿条数据,由于运算过程中需要产生大量的中间结果,因此推测可以对大约100万条保险客户和业务数据进行分析。3.4 预计目标
(1)适用于本地寿险行业的精准营销分析方法,能够用一种以上方法对客户进行精确分类,并根据分类属性确定保险产品的关联选择度,以指导保险行业提升客户价值; 基于保险数据的挖掘处理方法以及增量挖掘问题的处理方法
(2)在核心期刊上发表1-2篇论文
全日制工学(工程)硕士学位论文开题报告
4研究方案及进度安排,预期达到的目标
2014年 9月 1日——2014年10月30日:调研、准备开题
2014年11月1日——2014年11月30日:去保险企业搜集数据,分析其数据特点,实验方案再论证
2014年12月1日——2015年1月15日:建立模型与建立实验环境
2015年2月10日——2015年5月30日:编码、收集与分析实验数据,完成一篇论文 2015年 6月1日——2015年 9月10日:进一步的对精准营销系统进行优化 2015年 9月11日——2015年11月30日:硕士论文编写 2015年12月1日——2015年 12月31日:硕士论文答辩