案例7-2 天津联通利用SAS数据挖掘技术实现精细营销

第一篇：案例7-2 天津联通利用SAS数据挖掘技术实现精细营销

啤酒和尿布，风马牛不相及，但细心的超市经营者发现，把这两件商品摆放在一起，比分置两处，更能提升两者的销售额——因为周末购物的父亲们会在买尿布的同时，习惯性地拿瓶啤酒。——挖掘数据，分析用户购买习惯，发现用户潜在的需求以做决策的依据，这就是BI的力量。

近四分之一个世纪以来，SAS始终致力于将原始数据转变成知识和洞察力，提供能够将数据仓库技术、分析方法论和传统的商业智能整合在一起的端到端的解决方案，以顶尖的技术和服务帮助客户全面提升管理水平和决策能力，其专业和经验获得了全球财富500强中94%的客户认可。同时，财富500强的经营智慧和他们对本行业的深刻洞察也帮助SAS获得了对客户所从事行业的宝贵经验。

电信业竞争日趋白热化，运营商们推出新业务的节奏越来越快，过于激烈的竞争使得决策不免仓促，缺乏扎实的市场依据，最后沦为“价格战”。信息产业部前部长、全国人大教科文卫委员会副主任委员吴基传最近对国内电信市场“价格战”的批评也正说明了问题的严重性。新的竞争环境下、中国联通香港上市后国际投资人对公司管理水平“国际化”和公司赢利能力水平的提升都提出了更高的要求，天津联通感受到需求的迫切，引进先进的软件和服务系统，成为提升其管理科学化的重要步骤。

在全球市场，SAS服务于众多大型电信运营商，SAS的产品功能模块建立在对这些电信运营商业务分析的基础之上，更具备行业通用性。同时，SAS也与上海、北京、浙江、河北等地的若干家电信运营商存在合作关系，对国内运营商个性化的业务需求非常了解。兼具国际化的背景和本地化的经验，是天津联通选择SAS的重要原因。同时，天津联通认为，商业智能软件不仅投入较大，而且涉及企业的关键业务数据，只有具备相当资质的大公司才值得信赖，而SAS的资质和实力无疑获得了天津联通的信任。

数据挖掘，帮助天津联通实现营销精细化

显然，在今天中国的电信市场上，粗放式的营销已经无法确保市场回报，营销精细化、科学化是运营商生存的唯一选择，而精细化、科学化的营销决策需要情报支持系统，电信运营商每天产生的业务数据不计其数，这些数据之间是否存在诸如“尿布与啤酒”这样的关系？这种关系又蕴涵着哪些潜藏的商机？仅凭直觉和观察，能经营小超市，但经营一家大型的电信企业，就需要专业的商业智能软件做决策支持，这正是SAS所擅长的。

天津联通根据其业务需要与企业的实际情况，选择了SAS电信业智能解决方案中的三个组成部分：客户挽留解决方案、电信业客户细分解决方案、电信业交叉销售和提升销售解决方案。这三个项目的实施，分别帮助天津联通解决三个决策的问题：

第一，是预测哪些客户最具有流失的倾向以及影响客户流失的关键因素，通过预制的分析模型提供“流失记分”帮助识别风险客户，在客户流失之前采取针对性措施来挽留他们。

第二，根据客户可能的行为和潜在的盈利性对客户进行分类，制定更准确的产品组合、更准确的产品介绍和产品捆绑服务。

第三，从现有客户中识别出有可能接受交叉销售和提升销售的客户人选，评估客户过去的购买模式，预测客户下一步可能购买什么。

通过运行该系统，并对业务数据进行分析，天津联通制订了更精细的营销策略，留住了利润贡献最高的客户，并开发了更有针对性的新业务，提高了每用户平均收入(ARPU-Average Revenue Per User)，增强了赢利能力。

天津联通的用户对变化也有直接感受，一位入网4年多，每月消费额在500元以上的老客户评价说，“天津联通推出的客户关怀活动让我们感受到了作为老客户的‘价值’，如果有人向我咨询，我会向他们推荐使用联通的服务。”

专业服务，授之以渔

尽管是一家国际型企业，但是SAS在与天津联通沟通过程中，服务团队还是让天津联通感觉到了沟通的融洽。从2000年到现在SAS一直致力于中国团队的建设，目前有两支团队已是相当成熟，一个是技术支持和本地化开发队伍，另外一个就是致力于客户关系管理、客户商务智能分析的销售队伍。

天津联通计费营帐中心数据挖掘项目经理田龙认为，SAS的技术人员非常专业，具备丰富的电信行业经验。“他们能从复杂的数据中找到有用的信息，用图表的方式提供给我们，这些信息很容易看懂，并可以依此形成决策。他们对项目的把控能力也是一流的，系统交割清楚有序，并对我们的业务人员进行了系统的培训。”在SAS的培训下，天津联通的业务分析人员已经能够熟练掌握系统的运行，独立操作，从数据中找到他们真正需要的东西，而这种“授之以渔”，融咨询、服务、培训为一体的模式，比单纯销售产品更加符合客户的长远利益。

同时，SAS有着电信行业特有的数据结构、电信领域的出色专家与业已证实的成功分析模型，这些都构成了天津联通智能化管理的基础。先进的数据挖掘方法论SEMMA帮助发掘真正的商业智能，为天津联通的市场决策做支持，而系统本身具有的智能应用、高可用性、高可靠性、高扩展性等特性也充分满足了客户在相当长一段时间内的需求。

提高决策成功率，降低总体拥有成本

越大的企业，决策的成本越高，一次错误的决策就可导致上千万乃至上亿的损失，减低决策风险，对于大企业有特别的重要的意义。而SAS的BI系统，不仅帮助客户提升了赢利能力，也通过变主观决策为数据决策，减低了决策失误的机率。SASBI系统不仅能满足客户当前的需求，也能满足当用户数量增加和业务规模扩大时的需求，具备高可扩展性，真正做到了总体拥有成本最低。

目前，这一智能解决方案的效果已经被证实十分明显，在新业务开发方面，天津联通原来每1000人的电话销售成功率是40人，而现在这一数字提高到了200人，也就是说成功率由原来的4%提高到了20%。

应用效果评价

目前电信业的竞争越来越激烈，迫使电信业必须从过去粗放式的营销模式转向精细化、科学化管理。决策层要想尽快掌握和调整市场方向，就必须从每天产生的不计其数的业务数据中寻找出准确、有效的数据。而SAS在数据挖掘领域技术不仅技术突出，而且其咨询和实施顾问，由于长期在电信行业摸爬滚打，有着丰富的行业经验。另外，其电信行业特有的数据结构，以及系统本身具有的高可用性和高可扩展性也满足了客户的需求。

值得一提的是，在项目实施期间SAS为用户提供的业务流程和数据规范建议和意见，以及“授之以渔”的实施方法也推动了用户对自身业务系统的优化和深入认识。天津联通计费营帐中心数据挖掘项目经理田龙也表示，“SAS 帮助我们发现隐藏在数据之后的问题与机会，我们的营销变得更有洞察力，准确而迅速。”

第二篇：企业战略-利用数据挖掘技术提高饭店竞争力

★★★文档资源★★★

内容摘要：在日益剧烈的业内竞争压力下，饭店是否能制定并执行切实可行的市场战略，关键取决于该饭店管理者对其顾客的偏好、以及影响顾客行为的因素了解得是否正确和全面。数据挖掘技术正可以为饭店管理者提供这样一个全面、深刻了解顾客行为的窗口。有效的运用数据挖掘工具，并将获得的信息转化为切实可行的措施，能够给我们的饭店带来优势明显的竞争力。

关键词：饭店业

数据挖掘

决策树

数据挖掘概述

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

据统计，数据开掘技术能够发现和跟踪数据集合中潜在的模式，因此，有人认为，在数据库中，处理隐藏的知识、不可意料的模式和新规那么的发现的所有方法中，数据挖掘是最有效的。如果没有数据挖掘技术，许多数据就很可能停留在未使用的阶段。正是数据挖掘为饭店管理者提供了全面、深入地分析和了解顾客及其行为特征的重要助臂；也正是由于其创造客户价值的能力，数据挖掘技术已经被国外一些饭店作为一个重要的竞争工具使用。比方：Hilton

Corporation在它的Beverly

Hills总部使用了E.piphany

E.4软件，Starwood

Corporation也引进了Unica

Corp的Affmium软件。

数据挖掘的研究方法和步骤

饭店生存与否的关键，是它是否有能力为顾客提供令其满意的效劳和设施，比方饭店的清洁状况、登记入住和结账是否方便快捷、饭店效劳员是否有礼貌、价格是否合理等等。

但是要把这些对顾客偏好的了解转化为有效的竞争力，饭店就需要挖掘有效的客户特征信息。而饭店是否能制定并执行切实可行的市场战略正是取决于饭店对客户偏好和行为特征的了解是否正确和全面。因此，我们首先需要利用数据挖掘技术开掘出详细有效的客户特征信息。

定义目标

开发任何数据挖掘模型，都应该遵守目标同样的规那么：明确的目标，恰当的数据准备，适宜的工具和技术，严格的处理和全面的验证。常常被忽略也最值得强调的是，数据挖掘模型之间最主要的区别是目标的区别。其处理步骤往往是相同的。所以，我们在具体实施中，不仅要从建模的角度强调定义目标的重要性，还需要从商业的角度强调清晰定义目标的重要性。

数据准备

数据准备是数据挖掘模型开发过程的第一个步骤，也是最重要的步骤之一。虽然数据挖掘的工具也很重要，但是数据是框架〔信息库〕，模型的质量与底层的数据密切相关。数据准备阶段包括这几个局部的工作——数据收集、数据清理、数据集成、数据转换和数据归约。

首先我们必须收集支持模型的有关数据。只有对目标主体和市场有非常透彻的理解，才可能为目标模型选择出最正确的数据。在有了建模所需的完整数据集以后，下一步需要对数据进行清理，即检查数据，找出错误、异常值和缺失值。数据清理是数据准备过程中最花费时间、最乏味，但也是最重要的步骤，因为后面挖掘工作的质量依赖于数据的精确性和正确性。为了使后面的挖掘工作易于进行，我们还需要进行数据集成，即将来自不同数据源的数据整合成一致的数据存储。在拥有明确的目标和干净、准确的数据之后，还需要进行数据转换〔将数据转换为适于挖掘的形式〕和数据归约，使数据能够发挥最正确效果。

选择数据挖掘工具和技术

数据挖掘工具有很多，比方：规那么归纳、聚类、决策树、遗传算法、神经网络等。每个工具都有它的优点和缺点，不能简单的说哪种工具好，哪种不好。我们需要针对具体的情况和饭店方案的目标来选择最适合的工具。

这个步骤包括定义模型结构〔是树、神经网络、还是规那么归纳？〕、搜索〔选择具体的算法〕和验证〔什么时候算法能够得到正确的模型并停止计算？〕。

处理、验证和实现模型

模型开发的一个重要准那么是：用模型开发过程中未使用过的数据来验证模型。这个准那么可以检验模型的健壮性。所以，在准备好数据、选择好适宜的数据挖掘工具后，需要进行的是模型处理之前最后一个步骤——将数据文件分割成建模数据集和验证数据集两个局部。然后，我们就可以用准备好的数据和数据挖掘工具处理模型了。而建立的模型是否健壮，就需要在验证数据集上检验模型。如果模型验证的结果不佳，可能是由于数据有问题、变量匹配差或建模使用的数据挖掘技术不合理等因素造成的，就需要使用适宜的验证技术使模型更加严格、有效。在成功地挖掘出有用的信息后，就可以利用这些信息来制定适宜的市场战略。通过这种方式，我们可以把数据挖掘技术挖掘出来的信息转化成为有效的企业竞争力。

数据挖掘技术在饭店业的应用

这里引用了一个基于韩国豪华饭店的实例研究，旨在说明数据挖掘技术在饭店业的有效性和实用性，并借此案例进一步说明在饭店业使用数据挖掘技术的具体实施过程。这个研究的目标是帮助饭店决策者建立饭店顾客的行为模式，并以此作为饭店制定可行市场战略的重要根底。

为了最大化地获取并反映饭店顾客的行为模式，研究者选择了韩国汉城在经营价格、地理位置等方面都相似的11家饭店，并在光临这11家饭店的顾客中精挑细选出281位顾客，对其进行了问卷调查。为了获得顾客情况的数据资料，研究者在问卷调查中通过设定的14个问题，主要考察了与之相关联的十多项数据。这十多项数据来自以下三个方面：顾客的人口统计学数据〔年龄、性别、国籍、职业〕；顾客的行为数据〔旅行的目的、过去光临饭店的频率、选择的饭店、楼层类型、房间类型、支付方式……〕；顾客的心理或态度数据〔对饭店效劳员的礼貌、快速/平滑处理顾客投诉、预订的便利性、前台效劳等方面的满意程度……〕。值得强调的是，研究者为模型选择的数据是基于对饭店业本身以及顾客、市场情况等方面透彻理解之上的，比方研究者所考察的顾客对于饭店提供的某些效劳的满意度数据，是从已经被证实与饭店效劳质量紧密相关的属性中挑选出来的。同时应指出，由于顾客满意度数据等是无法从饭店数据库得到的，所以研究者使用了问卷调查这一方式对建模数据进行了完善。

在获得了建模所需的数据之后，研究者首先对收集的数据进行了清理，即填写缺失值，平滑噪声数据，识别、删除孤立点，并纠正数据的不一致性。但仅仅有准确的数据是不够的，还需要对一些数据进行处理。在这个研究实例中，研究者主要是把对一些顾客属性数据〔包括饭店名称；顾客的性别、国籍、职业、支付方式、旅行目的、选择的房间和楼层类型；顾客对饭店预订房间的便利性、效劳员的礼貌情况、效劳质量、处理顾客投诉情况等方面的满意程度〕转化为了简单的、便于处理的数字。比方：把研究中的11家饭店名称用数字1-11表示；饭店把性别属性转化为0＝男性，1＝女性；把国籍属性转化为：1＝美国，2＝欧洲，3＝日本，4＝韩国，5＝除了日韩的亚洲；把顾客对各项指标的满意度属性都转化为：5=非常满意，4＝比拟满意，3＝一般，2＝比拟不满意，1＝完全不满意；把顾客支付方式转化为1＝旅行支票，2＝现金，3＝信用卡；把顾客旅游目的转化为1＝商务旅行，2＝旅游。然后，研究者把所有的数据都安排到一个Excel文件中，并将其转化为SPSS格式，使后面的工作便于展开。

针对这个研究的目标——预测顾客在饭店选择、房间类型选择、支付方式等问题上的顾客行为模式，我们需要挖掘顾客行为模式与其人口统计学资料〔年龄、性别、国籍、职业〕、对饭店各项效劳或设施的满意度情况之间的相互关系。而挖掘出的信息的商业价值在于为饭店经理人提供决策依据。所以，挖掘出的信息必须是饭店经理人容易理解的。这样，信息最终才能转化为饭店的优势竞争力。

正是由于上述各种原因，研究者在诸多数据挖掘技术中选择了结构和生成规那么易于理解的决策树。而在CART、C5.0、CHAID等多种建立决策树的算法中，研究者选择了C5.0，是由于其速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。

为了能在具体实施中仅仅提炼出对饭店管理者设计有关战略有用的信息，而不是产生大量的规那么集，研究者对训练数据集设置了一个精确度为50％的阀值，而且只选择了预测精确性超过80％的规那么。研究者最终使用SPSS的数据挖掘应用工具Clementine还是挖掘出了50多条有关规那么。这50多条规那么从顾客的年龄、国籍、职业、性别、旅行目的、选择饭店、支付方式、光临频率、在饭店的停留时间等各个方面具体剖析了顾客的行为模式，揭示了导致或影响这些顾客行为的各种因素，其中一些能够为饭店管理者提供决策上的支持。

挖掘出的这50多条规那么中，有一些规那么是比拟明显的，是有经验的饭店管理者在管理工作中已经发现或是可以发觉的规那么；而另一些规那么却是潜在的、是饭店管理者不易发觉或无法发觉的。同时，挖掘出来的这50多条规那么并不一定都是有用的或是有意义的，在管理者具体把这些规那么用于管理实践中时，不同的战略目标往往需要不同的规那么作为根底。

比方，研究者挖掘出了如下有关顾客光临情况的规那么：假设顾客为30多岁的男性或30岁至40多岁的女性，并已经光临过某个饭店四次，那么这位顾客很有可能再光临这家饭店或与之类似的饭店；而40多岁的男性顾客已经光临过某家饭店四次，那么不太可能再次光临这家饭店或与之类似的饭店；光临过某家饭店多于五次的女性顾客很可能再光临这家饭店或与之类似的饭店十次以上；如果顾客已经光临过某家饭店两次，而且他住在饭店的标准层，又是直接在饭店预订房间的，同时他对于饭店房间的大小比拟满意，那么这位顾客很可能再光临这家饭店或与之类似的饭店五到九次。

上述有关顾客光临情况说明：这家饭店的管理者在对有价值顾客进行定位时，可以首先排除已经光临过本饭店四次的40多岁的男性顾客，并把已经光临过本饭店五次以上的女性顾客定位为最有价值顾客，同时把已经光临过本饭店四次的30多岁的男性和30至40多岁的女性定位为比拟有价值顾客。这样，管理者就可以通过诸如仅针对有价值顾客进行常客奖励方案，以保存核心顾客，培养其忠诚度；同时饭店还可以注意顾客预订房间的方式和选择的房间类型，并使饭店房间的布置更显宽敞来提高顾客满意度，着重对直接预订标准层房间，且已经光临过饭店两次的顾客进行顾客有效的保存措施。

当然，上面所提到的定位有价值顾客和顾客保存只是数据挖掘运用到饭店管理中的两个例子；在实际中，这些挖掘出来的规那么还可以运用于饭店市场拓展、市场细分、顾客需求分析、创立个性化效劳等很多方面。有效的运用数据挖掘工具，并将其转化为切实可行的措施，能够给我们的饭店带来极具竞争力的优势。特别是在数据挖掘技术在饭店业的应用还处于初始阶段的今天，早期有效采用数据挖掘技术能使其在饭店业中提升地位，更具竞争力。

参考资料：

1.刘静艳、颜亮，酒店常客奖励方案在我国的应用[J]，旅游科学，2002

2.吴东晓，基于顾客的饭店品牌价值影响因素的实证研究[J]，南开管理评论，2003

第三篇：C02 利用Python实现大数据分析与数据挖掘技术培训(5天)

Python实现大数据挖掘技术培训

【课程目标】

Python已经成为数据分析和数据挖掘的首选语言，作为除了Java、C/C++/C#外最受欢迎的语言。

本课程基于Python工具来实现大数据的数据分析和数据挖掘项目。基于业务问题，在数据挖掘标准过程指导下，采用Python分析工具，实现数据挖掘项目的每一步操作，从数据预处理、数据建模、数据可视化，到最终数据挖掘结束，帮助学员掌握Python用于数据挖掘，提升学员的数据化运营及数据挖掘的能力。

通过本课程的学习，达到如下目的：

1、全面掌握Python语言以及其编程思想。

2、掌握常用扩展库的使用，特别是数据挖掘相关库的使用。

3、学会使用Python完成数据挖掘项目整个过程。

4、掌握利用Python实现可视化呈现。

5、掌握数据挖掘常见算法在Python中的实现。【授课时间】

5天时间

（全部模块讲完需要5天时间，可以根据时间需求拆分内容模块）。【授课对象】

业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。【学员要求】

课程为实战课程，要求：

1、每个学员自备一台便携机(必须)。

2、便携机中事先安装好Excel 2010版本及以上。

3、便携机中事先安装好Python 3.6版本及以上。

注：讲师现场提供开源的安装程序、扩展库，以及现场分析的数据源。

【授课方式】

语言基础 +挖掘模型 +案例演练+开发实践+可视化呈现

采用互动式教学，围绕业务问题，展开数据分析过程，全过程演练操作，让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。【课程大纲】

第一部分：Python语言基础

目的：掌握基本的Python编程思想与编程语句，熟悉常用数据结构的操作

1、Python简介

2、开发环境搭建  Python的安装  扩展库的安装

3、掌握Python的简单数据类型 

字符串的使用及操作  整数、浮点数

4、掌握基本语句：

 if、while、for、print等  基本运算：

 函数定义、参数传递、返回值

5、掌握复杂的数据类型：列表/元组

 列表操作：访问、添加、修改、删除、排序  列表切片、复制等  列表相关的函数、方法  元组的应用

6、复杂数据类型：字典  创建、访问、修改、删除、遍历  字典函数和方法

7、复杂数据类型：集合

8、掌握面向对象编程思想  创建类、继承类  模块

9、函数定义、参数传递、返回值10、11、标准库与扩展库的导入异常处理:try-except块

演练：基本的Python编程语句

第二部分：Python语言与数据挖掘库

目的：掌握数据集结构及基本处理方法，进一步巩固Python语言

1、数据挖掘常用扩展库介绍  Numpy数组处理支持  Scipy矩阵计算模块

 Matplotlib数据可视化工具库  Pandas数据分析和探索工具  StatsModels统计建模库  Scikit-Learn机器学习库  Keras深度学习（神经网络）库  Gensim文本挖掘库

2、数据集读取与操作：读取、写入  读写文本文件  读写CSV文件  读写Excel文件  从数据库获取数据集

3、数据集的核心数据结构（Pandas数据结构） DataFrame对象及处理方法  Series对象及处理方法

演练：用Python实现数据的基本统计分析功能

第三部分：数据可视化处理

目的：掌握作图扩展库，实现数据可视化

1、常用的Python作图库  Matplotlib库  Pygal库

2、实现分类汇总

演练：按性别统计用户人数

演练：按产品+日期统计各产品销售金额

3、各种图形的画法  直方图  饼图  折线图  散点图

4、绘图的美化技巧

演练：用Python库作图来实现产品销量分析，并可视化

第四部分：数据挖掘基础目的：掌握数据挖掘标准流程

1、数据挖掘概述

2、数据挖掘的标准流程（CRISP-DM） 商业理解  数据准备  数据理解  模型建立  模型评估  模型应用

3、数据挖掘常用任务与算法

案例：用大数据实现精准营销的项目过程

第五部分：数据理解和数据准备

目的：掌握数据预处理的基本环节，以及Python的实现

1、数据预处理

 异常值处理：3σ准则，IQR准则  缺失值插补：均值、拉格朗日插补  数据筛选/抽样  数据的离散化处理  变量变换、变量派生

2、数据的基本分析

 相关分析：原理、公式、应用  方差分析：原理、公式、应用  卡方分析：原理、公式、应用  主成分分析：降维

案例：用Python实现数据预处理及数据准备

第四部分：分类预测模型实战

1、常见分类预测的模型与算法

2、如何评估分类预测模型的质量  查准率  查全率  ROC曲线

3、逻辑回归分析模型  逻辑回归的原理  逻辑回归建模的步骤  逻辑回归结果解读

案例：用sklearn库实现银行贷款违约预测

4、决策树模型

 决策树分类的原理  决策树的三个关键问题  决策树算法与实现案例：电力窃漏用户自动识别

5、人工神经网络模型（ANN） 神经网络概述  神经元工作原理

 常见神经网络算法（BP、LM、RBF、FNN等）案例：神经网络预测产品销量

6、支持向量机（SVM） SVM基本原理  维灾难与核心函数

案例：基于水质图像的水质评价

7、贝叶斯分析  条件概率  常见贝叶斯网络

第五部分：数值预测模型实战

1、常用数值预测的模型  通用预测模型：回归模型

 季节性预测模型：相加、相乘模型  新产品预测模型：珀尔曲线与龚铂兹曲线

2、回归分析概念

3、常见回归分析类别

第六部分：聚类分析（客户细分）实战

1、客户细分常用方法

2、聚类分析（Clustering） 聚类方法原理介绍及适用场景  常用聚类分析算法  聚类算法的评价

案例：使用SKLearn实现K均值聚类案例：使用TSNE实现聚类可视化

3、RFM模型分析

 RFM模型，更深入了解你的客户价值  RFM模型与市场策略案例：航空公司客户价值分析

第七部分：关联规则分析实战

1、关联规则概述

2、常用关联规则算法

3、时间序列分析

案例：使用apriori库实现关联分析案例：中医证型关联规则挖掘

第八部分：案例实战（学员主导，老师现场指导）

1、电商用户行为分析及服务推荐

2、基于基站定位数据的商圈分析

结束：课程总结与问题答疑。

第四篇：数据挖掘技术在信用卡业务中的应用案例分享

数据挖掘技术在信用卡业务中的应用案例分享

信用卡业务具有透支笔数巨大、单笔金额小的特点，这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展，实现全面的绩效管理。我国自1985年发行第一张信用卡以来，信用卡业务得到了长足的发展，积累了巨量的数据，数据挖掘在信用卡业务中的重要性日益显现。

一、数据挖掘技术在信用卡业务中的应用

数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理、风险管理和运营管理。

1.分析型CRM

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析人员搜集和处理大量数据，对这些数据进行分析，发现其数据模式及特征，分析某个客户群体的特性、消费习惯、消费倾向和消费需求，进而推断出相应消费群体下一步的消费行为，然后以此为

基础，对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比，大大节省了营销成本，提高了营销效果，从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的，对响应概率高的客户采用更为主动、人性化的营销方式，如电话营销、上门营销；对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外，维护已有优质客户的忠诚度也很重要，因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中，通过数据挖掘技术，找到流失客户的特征，并发现其流失规律，就可以在那些具有相似特征的持卡人还未流失之前，对其进行有针对性的弥补，使得优质客户能为银行持续创造价值。

2.风险管理

数据挖掘在信用卡业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种：申请信用卡评分卡、行为信用评分卡和催收信用评分卡，分别为信用卡业务提供事前、事中、和事后的信用风险控制。

申请评分模型专门用于对新申请客户的信用评估，它应用于信用卡征信审核阶段，通过申请人填写的有关个人信息，即可有效、快速地辨别和划分客户质量，决定是否审批通过并对审批通过的申请人核定初始信用额度，帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验，有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人，通过对持卡客户的行为进行监控和预测，从而评估持卡客户的信用风险，并根据模型结果，智能化地决定是否调整客户信用额度，在授权时决定是否授权通过，到期换卡时是

否进行续卡操作，对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充，是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性，诸如客户对警告信件反应的可能性。这样，发卡行就可以根据模型的预测，对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时，所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用信用卡的表现信息，如使用频率、金额、还款情况等。由此可见，数据挖掘技术的使用，可以使银行有效地建立起事前、事中到事后的信用风险控制体系。

3.运营管理

虽然数据挖掘在信用卡运营管理领域的应用不是最重要的，但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。

二、常用的数据挖掘方法

上述数据挖掘技术在信用卡领域的应用中，有很多工具可用于开发预测和描述模型。有些用统计方法，如线性回归和逻辑回归；有些有非统计或混合方法，如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。

1.线性回归

简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法，可以发现一条穿过数据的线，线上的点使对应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时，通常有多个自变量，用多个独立自变量来预测一个连续变量称为多元线性回归，用线性回归方法建立的模型通常具有鲁棒性。

2.逻辑回归

逻辑回归是使用最广泛的建模技术，与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的，而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法，选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量，以y=[1 申请者是坏客户；0 申请者是好客户，为因变量，则对于二分类因变量，一般假设客户变坏的概率为 p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中，β0，β1…，βm是常数，即1n(p/1-p)=β0+β1×1+…+βmxm

3.神经网络

神经网络处理和回归处理大不相同，它不依照任何概率分布，而是模仿人脑功能，可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成，这些节点通过网络彼此互连。如果有数据输入，它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成，完成大部分网络工作。输出层输出数据分析的执行结果。

4.遗传算法

与神经元网络类似，遗传算法也不遵循任何概率分布，是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码，编码后的解称为染色体。随机选取n个染色体作为初始种群，再根据预定的评价函数对每个染色体计算适应值，性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制，并通过遗传算子产生一群新的更适应环境的染色体，形成新的种群，直至最后收敛到一个最适应环境的个体，得到问题的最优化解。

5.决策树

决策树的目标是逐步将数据分类到不同的组或分支中，在因变量的值上建立最强划分。由于分类规则比较直观，所以易于理解。图1为客户响应的决策树，从中很容易识别出响应率最高的组。

三、实例分析

以下以逻辑回归方法建立信用卡申请评分模型为例，说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。

1.定义好客户和坏客户的标准

好客户和坏客户的标准根据适合管理的需要定义。按照国外的经验，建立一个预测客户好坏的风险模型所需的好、坏样本至少各要有1000个左右。为了规避风险，同时考虑到信用卡市场初期，银行的效益来源主要是销售商的佣金、信用卡利息、手续费收入和资金的运作利差。因此，一般银行把降低客户的逾期率作为一个主要的管理目标。比如，将坏客户定义为出现过逾期60天以上的客户；将坏客户定义为出现过逾期60天以上的客户；将好客户定义为没有30天以上逾期且当前没有逾期的客户。

一般来讲，在同一样本空间内，好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力，取好、坏客户样本数比率为1：1。

2.确定样本空间

样本空间的确定要考虑样本是否具有代表性。一个客户是好客户，表明持卡人在一段观察期内用卡表现良好；而一个客户只要出现过“坏”的记录，就把他认定为坏客户。所以，一般好客户的观察期要比坏客户长一些、好、坏客户可以选择在不同的时间段，即不同的样本空间内。比如，好客户的样本空间为2003年11月-2003年12月的申请人，坏客户的样本空间为2003年11月-2004年5月的申请人，这样既能保证好客户的表现期较长，又能保证有足够数量的坏客户样本。当然，抽样的好、坏客户都应具有代表性。

3.数据来源

在美国，有统一的信用局对个人信用进行评分，通常被称为“FICO评分”。美国的银行、信用卡公司和金融机构在对客户进行信用风险分析时，可以利用信用局对个人的数据报告。在我国，由于征信系统还不完善，建模数据主要来自申请表。随着我国全国性征信系统的逐步完善，未来建模的一部分数据可以从征信机构收集到。

4.数据整理

大量取样的数据要真正最后进入模型，必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。可以通过求最小值、最大值和平均值的方法，初步验证抽样数据是否随机、是否具有代表性。

5.变量选择

变量选择要同时具有数学统计的正确性和信用卡实际业务的解释力。Logistic回归方法是尽可能准确找到能够预测因变量的自变量，并给予各自变量一定权重。若自变量数量太少，拟合的效果不好，不能很好地预测因变量的情况；若自变量太多，会形成过分拟合，预测因变量的效果同样不好。所以应减少一些自变量，如用虚拟变量表示不能量化的变量、用单变量和决策树分析筛选变量。与因变量相关性差不多的自变量可以归为一类，如地区对客户变坏概率的影响，假设广东和福建两省对坏客户的相关性分别为-0.381和-0.380，可将这两个地区归为一类，另外，可以根据申请表上的信息构造一些自变量，比如结合申请表上“婚姻状况”和“抚养子女”，根据经验和常识结合这两个字段，构造新变量“已婚有子女”，进入模型分析这个变量是不真正具有统计预测性。

6.模型建立

借助SAS9软件，用逐步回归法对变量进行筛选。这里设计了一种算法，分为6个步骤。

 步骤1：求得多变量相关矩阵(若是虚拟变量，则＞0.5属于比较相关；若是一般变量，则＞0.7-0.8属于比较相关)。

 步骤2：旋转主成分分析(一般变量要求＞0.8属于比较相关；虚拟变量要求＞0.6-0.7属于比较相关)。

  步骤3：在第一主成分和第二主成分分别找出15个变量，共30个变量。步骤4：计算所有30个变量对好/坏的相关性，找出相关性大的变量加入步骤3得出的变量。

 步骤5：计算VIF。若VIF数值比较大，查看步骤1中的相关矩阵，并分别分析这两个变量对模型的作用，剔除相关性较小的一个。

 步骤6：循环步骤4和步骤5，直到找到所有变量，且达到多变量相关矩阵相关性很而单个变量对模型贡献作用大。7.模型验证

在收集数据时，把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本。对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC、AR等指标。虽然受到数据不干净等客观因素的影响，本例申请评分模型的K-S值已经超过0.4，达到了可以使用的水平。

四、数据挖掘在国内信用卡市场的发展前景

在国外，信用卡业务信息化程度较高，数据库中保留了大量的数量资源，运用数据技术建立的各类模型在信用卡业务中的实施非常成功。目前国内信用卡发卡银行首先利用数据挖掘建立申请评分模型，作为在信用卡业务中应用的第一步，不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。总体而言，数据挖掘在我国信用卡业务中的应用处于数据质量问题，难于构建业务模型。

随着国内各家发卡银行已经建立或着手建立数据仓库，将不同操作源的数据存放到一个集中的环境中，并且进行适当的清洗和转换。这为数据挖掘提供了一个很好的操作平台，将给数据挖掘带来各种便利和功能。人民银行的个人征信系统也已上线，在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上，数据挖掘技术在信用卡业务中将具有越来越广阔的应用前景。

案例7-2 天津联通利用SAS数据挖掘技术实现精细营销

第一篇：案例7-2 天津联通利用SAS数据挖掘技术实现精细营销

第二篇：企业战略-利用数据挖掘技术提高饭店竞争力

第三篇：C02 利用Python实现大数据分析与数据挖掘技术培训(5天)

第四篇：数据挖掘技术在信用卡业务中的应用案例分享

相关范文推荐