基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

时间:2019-05-12 23:54:43下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘》。

第一篇:基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,最终得到复赛第32名。正好这学期《机器学习与数据挖掘》课程需要一个实验报告的大作业,于是就那它来写了。本博文会在这几周不断的完善更新ing

1.选题背景与意义

1.1 用户画像与精准营销

“用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点。

用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

消费方式的改变促使用户迫切希望尽快获取自己想要了解的信息,所以说,基于用户画像上的精准营销不管对企业还是对用户来说,都是有需求的,这会给双方交易带来极大便捷,也为双方平等沟通搭建了一个畅通平台。

1.2 搜索引擎下用户画像的挑战

在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用户的流动性、查询的实时性等,带来了与企业传统的对用户信息进行收集与分析有着巨大的不同、更加艰巨的挑战。

例如,我们实时获取到的是用户的查询语句,而由于用户的流动性,并不能直接获取到如年龄、性别、学历等用户的标签信息。这么一来,也就无法根据用户属性对用户进行分群处理,而后再通过推荐系统进行产品上的优化

1.3 本文内容概要

本文内容概要如下:

第1章:简介用户画像与搜索引擎下用户画像的精准营销的挑战。第2章:说明实验集群、数据与课题研究目标。

第3章:介绍使用分词工具对用户的搜索词列进行分词,以及相关的优化方案。第4章:介绍在分词的基础上,对文本进行特征的抽取与转换,以及相关的优化方案。第5章:介绍在原始特征向量上,进行聚类与降维。第6章:介绍实验中试验过各分类模型 第7章:介绍模型参数调优

第8章:总结本课题研究中不足与展望后续的优化方案 第9章:参考文献 2.课题实验准备

2.1 Spark集群

节点 cdh01 cdh02 cdh03 cdh04 备注

8核,32G内存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 2.2 数据集

数据文件 备注

Train.csv 带标注的训练集 Test.csv 测试集 2.3 数据介绍

本数据来源于搜狗搜索数据,ID经过加密,训练集中人口属性数据存在部分未知的情况(需要解决方案能够考虑数据缺失对算法性能的影响)。数据所有字段如下表所示:

字段 ID age 说明 加密后的ID 0:未知年龄;1:0-18岁;2:19-23岁;3:24-30岁;4:31-40岁;5:41-50岁;6: 51-999岁

Gender 0:未知1:男性2:女性

Education 0:未知学历;1:博士;2:硕士;3:大学生;4:高中;5:初中;6:小学 Query List 搜索词列表 2.4 数据示例

对于train.csv中的数据记录:

00627779E16E7C09B975B2CE13C088CB 4 2 0 钢琴曲欣赏100首 一个月的宝宝眼睫毛那么是黄色 宝宝右眼有眼屎 小儿抽搐怎么办 剖腹产后刀口上有线头 属羊和属鸡的配吗 2.5 课题任务描述

根据提供的用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

3.查询词分词

3.1 NLPIR

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。

全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。

我们传入每个用户的搜索词列,表经过NLPIR分词工具得到的分词。之后,我们做个进一步的优化策略:

3.1.1 去停用词

我们根据分词后词语所带的词性,对一些特征代表性不够强的词语进行过滤:

for(int i = 0;i < sbtmp.length();++i){

char cc = sbtmp.charAt(i);

if(cc == ' '){

sbtmp.deleteCharAt(i);

--i;

} else if(cc == '/'){

// 去词条件

Boolean isdel =

// 1.去标点

(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')

// 2.疑问词

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'

&& sbtmp.charAt(i + 2)== 'y')

// 3.数字

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')

// 4.连词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')

// 5.副词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')

// 6.叹词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')

// 7.拟声词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')

// 8.介词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')

// 9.量词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')

// 10.助词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')

// 11.纯动词

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'

&& sbtmp.charAt(i + 2)== ' ');

// 去词

if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'

&& sbtmp.charAt(i + 1)!= 'h'

&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){

while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

while(i >= 0 && sbtmp.charAt(i)!= ','){

sbtmp.deleteCharAt(i);

--i;

}

}

// 若无需去词,把‘/’转为‘,’,并去除随后的词性标志

else {

sbtmp.setCharAt(i, ',');

while(sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

}

}

}

for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){

sbtmp.deleteCharAt(i);

--i;

}

// 去中间单个字

else if(sbtmp.charAt(i1);

sbtmp.deleteCharAt(i1] == Y[j1][j1][j];

//删除X第i个字符

t1 = t1 < dp[i][j1];

//删除Y第j个字符

t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同

dp[i][j] = t1 + 1;

这里我们所使用的优化方案为:

对整个训练集和测试集的搜索词列做分词后的词频统计表

对每个用户的搜索词列分词后的各个词与词频统计表各词(排除前者自身)进行编辑距离计算。得到词频统计表中编辑距离与该词编辑距离最小词,在这些词中在选择一个词频最高的词将该词替代。4.7 额外增加数据量

在大数据时代背景下,只要数据量足够的大,反而我们所选用的不同的算法模型对最终的预测准确率的影响会变小,获取更多数据会使模型更完善更准确。我们这里用不同方案所得到的分词结果,人为的增加训练集的数据。如将10万条记录的训练集进行NLPIR分词得到结果,与进行”结巴”提取关键词得到的结果拼接,就将训练集记录人为的翻倍了。后续的分类实验中证明了,使用该方案,在模型相同的情况下,相比原来会有1%左右的准确率的提升。

5.聚类与降维

2009年结束的Nexfix竞赛表明,很多参数团队用到的高等矩阵因子分解对模型提高预测准确略非常有帮助。模型使用矩阵因子分解方法从特征矩阵中抽取一组潜在的属性,并通过这些属性来描述用户。20世纪80年代后期,利用潜在的”语义”属性的思想被成功的应用于信息检索领域。Deerwesteret al.在1990年提出使用奇异值分解(SVD)方法发现文档中的潜在的属性。[2]而本课题在实验中会使用到LDA方法。

5.1 LDA

隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种主题模型(Topic Model,即从所收集的文档中推测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。那么何谓“主题”呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。也就是说 在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词(参见下面的图),这些单词与这个主题有很强的相关性。这里写图片描述

LDA可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

LDA可以被认为是如下的一个聚类过程:

各个主题(Topics)对应于各类的“质心”,每一篇文档被视为数据集中的一个样本。

主题和文档都被认为存在一个向量空间中,这个向量空间中的每个特征向量都是词频(词袋模型)

与采用传统聚类方法中采用距离公式来衡量不同的是,LDA使用一个基于统计模型的方程,而这个统计模型揭示出这些文档都是怎么产生的。5.1.1 模型训练

Spark API 参数介绍:

K:主题数量(或者说聚簇中心数量)

maxIterations:EM算法的最大迭代次数,设置足够大的迭代次数非常重要,前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。,至少需要设置20次的迭代,50-100次是更合理的设置,取决于数据集。

docConcentration(Dirichlet分布的参数α):文档在主题上分布的先验参数(超参数α)。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。topicConcentration(Dirichlet分布的参数β):主题在单词上的先验分布参数。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。checkpointInterval:检查点间隔。maxIterations很大的时候,检查点可以帮助减少shuffle文件大小并且可以帮助故障恢复。

val lda=new LDA()

.setK(20)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(100)

val model=lda.fit(dataset_lpa)

5.1.2 模型评价

生成的model不仅存储了推断的主题,还包括模型的评价方法。模型的评价指标:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

用评价方法,在online 方法下,对setMaxIter进行调参:

for(i<-Array(5,10,20,40,60,120,200,500)){

val lda=new LDA()

.setK(3)

.setTopicConcentration(3)

.setDocConcentration(3)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(i)

val model=lda.fit(dataset_lpa)

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

println(s“$i $ll”)

println(s“$i $lp”)}

可以看到,logPerplexity在减小,LogLikelihood在增加,最大迭代次数需要设置50次以上,才能收敛:

5.1.3 对语料的主题进行聚类

val topicsProb=model.transform(dataset_lpa)

topicsProb.select(“label”, “topicDistribution”)show(false)

/**

+-----++

|label|topicDistribution

|

+-----++

|0.0 |[0.***,0.***147,0.***77] |

|1.0 |[0.***3,0.***623,0.***]

|

|2.0 |[0.***7,0.***417,0.***]

|

...*/

label是文档序号,文档中各主题的权重,我们可以将该DataFrame带入后续的分类器中,进行训练。

5.1.4 其他聚类与降维

Spark在基于RDD的MLlib中还提供了SVD、PCA的降维方法,而基于DataFrame的聚类方法还包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API类似与LDA,可以直接为我们返回文档中各主题的权重,以便于后续的分类。但是由于LDA在主题聚类上的典型性,我们的课题实验只试验了LDA的方案

第二篇:外呼销售精准营销数据挖掘模型

• OB实现精准营销需要建立的数据挖掘模型

第一:模型横向

1、会员定性:通过对会员姓名,性别,年龄,购买商品,购买时间,购买金额,商品品类等数据。得出客户的购买习惯,购买能力,会员粘稠度。得出会员属性列表。

2、商品定位:通过同纬度得出商品销售生命周期,商品毛利,商品消费群等。通过此信息策划OB商品。建立商品地图。

3、行销:根据现有销售数据库,分析各维度数据。得出针对不同时间,客户,商品使用不同行销活动对营销的影响,参考此模型制定行销策略并预估营销效果。

第二:纵向:

1、业务需求分析:分析客户购买特性和购买记录,支撑营销策划。根据现有公司销售要求,针对什么客户进行营销。包括“促销方案分析及评估”,“个性化商品”,“营销方案及有效化”,“促销敏感性和目标”等

2、数据准备和转化:为支撑相关业务要求,销售和客户数据能准确,全面精准与业务匹配;另外能将相关数据按照数据库要求及时归类。

3、会员属性选择:根据业务要求能精准找到会员属性。符合相关方案要求。

4、建立会员模型:按照会员姓名,性别,年龄,购买商品,购买时间,购买金额,商品品类,行销活动使用等数据等维度建立会员模型。包括客户模型,客单模型,积分模型,销售明细模型,商品模型,付款模型。

5、模型评估:在建立会员模型之后需要测试业务需求分析,数据转化,会员属性定义,商品和行销模型匹配。能进行精准的市场定位,包括“客户价值及趋势”,“客户潜在价值及忠诚度”,“客户流失倾向”,“行销活动敏感度”,“客户消费倾向及消费周期”,“客户基本信息”评估。

第三:数据挖掘逻辑

1、分类问题:对数据进行分类,预测问题类别。通过对多个数据源进行分类,能够将数据进行归类,并能通过数据分析发现问题同时对问题也能进行分类。

2、聚类问题:解决一群对象划分不同类别的问题。通过对不同的类型数据能统一和整理成一个类别。这是分总概念,通过汇总不同类别数据和问题找到集中式解决方案。

3、关联性问题:upsell中的upsell和cross-sell。通过模型分析,帮助客户寻找商品,为商品寻找合适客户。分析出客户的购买周期和购买特点找出客户潜在需求针对性做关联销售和交叉销售。

4、预测问题:预测变量数据是否为连续型的情况。通过分类和聚类,能将数据模型中的数据和相关问题进行串联。找到问题的发展和变化趋势,预测问题以帮助改进销售方案最终实现精准营销。

OB-TEAM

第三篇:数据挖掘在保险精准营销中的应用-开题报告

全日制工学(工程)硕士学位论文开题报告

课题来源及研究的目的和意义

1.1 课题来源

自选课题

1.2 选题价值及意义

大型的保险公司已将数据挖掘应用到保险业务中,但由于应用在保险行业的分析模型不是很健全,目前在实际操作中一般都采用套用现成算法的方式,导致其结果不是特别的理想。数据挖掘不只是数据的组织和呈现,而是一个从理解业务需求,寻求解决方案到接受实践检验的完整过程,过程中的每个阶段都需要建立科学的方法。数据挖掘是精准营销创造商业价值的关键,也应该是精准营销重要组成部分。

在保险企业中,应用数据挖掘有以下好处:从业务数据方面看,利用企业经营积累起来的海量数据,经过数据预处理等操作后,并最终挖掘出有用的信息、规则,用来帮助企业的管理者进行正确的决策。站在未来的角度上看,数据挖掘通过对业务数据进行研究与分析,可以预测出企业相关经营方面未来的发展趋势,基于对客户群体进行分类,推出满足客户需求的相关商业产品,并挖掘出潜在客户群体等。另外,从目前的发展和运用现状来看,数据挖掘技术未来发展市场十分广阔。而且数据挖掘技术与保险企业商业问题的结合也应当是一个必然的过程。随着保险企业自身经营管理的不断完善,从海量的业务数据中,获取有价值的信息和知识,分析并研究客户喜好及消费行为特征,并推出适合客户需求的产品,针对客户进行具体的营销,赢得市场地位,对于保险企业来说,是未来快速发展、赢得企业生存的关键。因此,学习与运用数据挖掘技术,也是保险企业未来人才培养的一个重要方面。

2.国内外在该方向的研究现状及分析

2.1 精准营销国内外现状

精准营销在国外发达国家已经有几十年的历史,己经成为各类型企业的常规营销方式。杰罗姆·麦卡锡(E.Jerome McCarthy)于1960年在其《基础营销》(Basic Marketing)一书中第一次将企业的营销要素归结四个基本策略的组合,即著名的“4P’s”理论:产品(Product)、价格(Price)、渠道(Place)、促销(Promotion),由于这四个词的英文字头都是P,再加上策略(Strategy),所以简称为“4P’s”。在1976年,“现在营销学之父” 菲利普·科特勒在其代表作《营销管理》进一步确认了以4P为核心的营销组合方法论。

全日制工学(工程)硕士学位论文开题报告

1990年,美国学者罗伯特·劳朋特(RobertLauterborn)教授提出了与传统营销的4P相对应的4C营销理论。4C(Customer、Cost、Convenience、Communication)营销理论以消费者需求为导向,重新设定了市场营销组合的四个基本要素:瞄准消费者的需求和期望(Customer)。首先要了解、研究、分析消费者的需要与欲求,而不是先考虑企业能生产什么产品;消费者所愿意支付的成本(Cost)。总的来说,4C理论认为,对现代企业来讲,重视产品,更要重视顾客;追求成本,更要追求价格;提供消费者的便利比营销渠道更重要;营销活动不单纯是在促销,而是与客户有效的沟通。4C理论以顾客的便利与满意为企业营销的根基,企业必须从消费者的角度出发,为消费者提供满意的产品和服务,才能在竞争中立于不败之地。

目前,最为流行的营销模式是3P3C,Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。Product(产品):注重产品功能,强调产品卖点。Prospects(消费者,目标用户)。Creative(创意,包括文案、活动等)。Channel(渠道)。Cost/Price(成本/价格)。而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化,目标用户细分,活动创意,渠道优化,成本的调整等重要环节和要素,共同促进数据化运营持续完善,甚至成功。

相对于发达国家,精准营销在中国的发展起步较晚,但是发展速度非常快。三十年改革开放,中国营销经历了一个从“无到有”从“有到强”的过程;三十年市场营销的实践磨练,中国企业积累了很多营销经验、也培养了很多营销人才、形成了较为系统的营销理论,从整个大的层面还是积极的、卓有成效的。但是真正意义上的精准营销在国内的发展起步比较晚,中国企业对于数据库营销的核心,包括“客户识别”“客户分析”“客户互动”“客户体验”的数据库营销专业领域,往往知之甚少,因此中国企业普遍较为缺少精准营销的意识,与这种现象在一定程度上也体现了精准营销在中国发展的不成熟。2.2 数据挖掘国内外现状

在保险业中,美国进行数据挖掘系统研究最为著名的公司是艾克国际科技有限公司(AkuP),其研发的数据挖掘系统能够提供前后端分析的完整功能,且可以做到对保险客户进行一对一行销(One to One Mar-keting)。总体上,其主要功能涵盖了策略层、战术层、执行层,详细包括保险客户的组成、成长潜力、稳定度,防患客户流失、进行客户风险管理,帮助业务人员掌握客户信息等。根据国外相关研究报告的数据显示,数据挖掘在国际市场上的营业份额已经远远超过了数百亿美元。在国外,保险、零售、银行等企业引入数据挖掘系统相关工具所占的比例最高,这些企业在成功引进数据挖掘

全日制工学(工程)硕士学位论文开题报告

工具以后,销售营业额、市场份额等相比以前都有大幅提升。因此,基于数据挖掘的应用系统与工具也相继延伸到国外各行各业的相关领域,发挥着其作用。

20世纪末,数据挖掘在进入中国后,起先在证券业、银行业得到广泛的应用与实践,而保险业是继前二者之后,才逐渐引入数据挖掘进行海量数据的分析与研究,随后,采用信息化技术来提高各保险公司的竞争力也成为共识。国内的多数企业,为了追上这股浪潮,紧跟信息化革命的步伐,也投入了相当大的人力、物力、财力等来引进数据挖掘技术。特别是在我国的许多大型国有企业中,比如保险、银行、证券、电信等,这些企业都拥有海量的数据资源,且企业经济实力强大,行业规模扩展快速等特点,其在数据挖掘系统应用方面已经迈出了坚实的一步.2.3数据挖掘在保险精准营销中的应用

保险领域的数据挖掘就是从保险行业所积累的大量数据信息中,通过知识发现技术,发掘感兴趣的模式或知识,来满足保险行业和监管部门的应用要求。数据挖掘技术在保险精准营销系统中所发挥的重要作用己经逐渐被认同。数据挖掘一开始就是面向应用而诞生的,所要涉及到的挖掘问题主要分为以下俩类:

1.关联问题。关联规则研究主要有两个方向:一是在研究的问题中,假定用户购买的所有产品是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;二是序列问题,即假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,这是关联问题的一种特殊情况。

2.分类问题。分类问题属于预测性的问题,但又区别于普通的预测问题,其预测的结果是类别而不是具体的数值。例如:对客户进行分层,基于一个客户的相关信息,判断出他属于哪一层的客户,未来一段时间是否会购买某类保险?将来是否会成为保险公司的高价值客户?

围绕保险领域的不同需求,可将其归纳为:保险产品的设计、营销方式创新。1.保险产品设计。从保险产品设计与开发的角度出发,分析对于保险条款、保险费率具有重大影响的产品结构、技术结构及所有者结构等因素,满足市场的实际需要。在研制开发保险产品的过程中,需要充分注意适应这些因素的变化,积极开发各种保险产品;通过分析已购买某种保险的人是否同时购买另一种保险,从而可以推进保险产品的创新,行交叉销售和增量销售,提高客户满意度。未来的保险市场必将是保险产品不断得到创新的市场。

2.营销方式创新。通过对客户信息的挖掘来支持目标市场的细分和目标客户群的

全日制工学(工程)硕士学位论文开题报告

定位,制定有针对性的营销措施,包括保险公司的专职人员、代理人员等传统渠道以及经纪人、电话、计算机网络和银行等辅助渠道,提高客户响应统率,降低营销成本。

3.主要研究内容

3.1 技术方案

保险行业在海量数据信息的时代,传统的营销模式缺乏针对性。当客户数量提高、相应的信息量增多、所需保险种类复杂化,如果只依靠传统的营销模式来解决问题,那必定带来很大的人力和财力的损伤,同时会降低工作效率。如此下去,随着需求的不断增加或变更,传统的营销模式没有从根本上解决海量信息带来的挑战,甚至会流失一部分的客户。针对精准营销的主要研究内容如下: 3.1.1 ETL数据预处理

我们要对保险公司提供的原始数据进行预处理后,在可以加载到我们的处理平台上,这个过程,我们需要做到以下几部:

(1)数据清洗。数据清洗主要处理空缺值、噪声数据。针对于空缺值的处理,我们可以采用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。依靠现有的数据信息来推测空缺值,使空缺值有很大的机会保持与其他属性之间的联系。还可以用全部变量来替换空缺值、或是用平均值来填充。针对于噪声数据,我们可以采用分相或是回归的办法来处理。

(2)数据集成。我们从保险公司拿回来的数据,不可能是统一的格式,针对于不同来源的数据,我们要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的实体匹配来进行模式集成。在集成过程,会出现一个属性多次出现或一个属性命名不一致的问题,针对属性冗余的问题,可以用相关分析监测,然后删除冗余的属性。

(3)数据转换。数据转换的目的就是把数据转换成有利于进行数据挖掘的形式。针对于数据属性,我们可以删除一些无关的属性、也可以把一些属性进行维归约,甚至针对于一些关键性的属性,我们可以细化它的属性。

3.1.2 并行数据库运算环境下,提出客户精确分类和客户与产品关联分析组合算法

本文的目的是寻找一种适合保险营销的算法,来解决目前营销的困难,营销的最大的困难就是客户以及针对于客户的产品设计。针对于客户的管理,我们要做到对客户的分层,分类管理,把客户按照现居住地,性别,家庭状况,以及收入情况等属性进行细分。针对以购买保险的客户,关联出已购买的保险种类与细分的属性之间的

全日制工学(工程)硕士学位论文开题报告

关系,将关联出的关系应用到潜在客户,替潜在客户找到适合自己的产品;根据客户的生活状态、家庭状态,找出适合客户的隐藏产品,实现针对性、交叉性销售。3.1.3对挖掘出的结果进行验证

数据挖掘的模型,是要经过验证,一般的情况下,置信度在80%以上就可以投入应用中。挖掘结果验证的方法有两个,一是对现有数据进行抽样观察,用具体的结果支持我们的计算结果,这个是验证;另一个更重要和更有价值,需要保险公司的业务部门根据我们计算的结果,对客户进行深入的精准营销作业,然后搜集指导作业的结果,分析精准定向销售的成功率的提升情况,用实际业绩的数据来验证我们的研究成果。

3.2 关键技术方法

关键问题一:产品分类、客户分层,客户分类。特别是客户分类是精准营销的前提。当前寿险行业(我们目前能拿到主要就是寿险企业数据)的客户的分类,一般是基于下面几个分类模式的:地理变量、人口统计变量、心理变量、行为变量。由于是本地保险企业某个范围内的数据,地理变量的影响很小,人口统计变量对寿险的影响特别大,是本课题的研究重点。中国人对保险产品的认知和偏好,明显与西方不同,而保险行业在中国的真正的发展时间还很短,很多与中国国情和文化有关联的问题都没有得到比较深入的研究。比如,提出两个有关客户分类的问题,一是“代沟”,二是“家庭关系”。代沟问题是大家常谈的社会问题,中国最近30年发生剧烈的社会变革,年龄跨度几年的人,其对社会的认知模式和消费习惯就可能有重大的区别,必然影响保险产品的销售趋向,那么如何在保险客户数据中,找到并比较准确的“代沟分类阈值”?另一个“家庭关系”,建立稳定家庭的客户显然是购买人寿类保险产品的主力,而购买保险产品的过程中,中国体现了很强的“家主决策权”,在客户分类的过程中,家庭关系作为一个特殊的、多指向的、数据元内部有交叉关系的变量组,必然会深刻影响客户的分类方法,以及在后面依附于分类计算结果之上的关联计算方法和计算结果。这是本课题研究的另一个重要问题。本课题对保险用户的分类方法虽然还属于当前流行的大类分析方法中的类型,但相比一般粗糙的分类方式,我们采用了更精细、更深入的分类方法,当然对分类算法就需要进行深入的定制、优化研究。

关键问题二:根据前面对客户分类的设想,在分类中出现用关系表来描述的客户种类属性的情况下,客户属性要体现“家庭单位和成员关系的客户分类属性”,本身可能是一个多维表,那么当下普遍采用的关联关系的二维计算方法都是用来分析两个一

全日制工学(工程)硕士学位论文开题报告

维数据属性之间的关系,比如当前主流的Apriori算法。当前通用的算法如果不进行改进和局部的特殊设计,显然不能满足对本课题对应的保险客户数据属性表与产品表之间进行关联分析的运算要求。这就要求我们对关联算法的具体定制和完善,进行研究和创新。3.3技术、实验条件

如果采用传统的数据库进行海量数据的存储、并在其基础上进行查询分析操作时,会出现检索速度慢以及不易扩展的问题,提出基于GP的分布式存储模型(如图所示)。

Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部数据源并行装载或导出Master 节点Network Interconnect

图1.1 GP的系统结构

采用成熟的商用并行数据库平台Greenplum作为本项目的主要数据库和分析挖掘运算环境。该系统是基于postgreSQL发展的商业系统,特点是采用一组分布式多节点服务器组成并行运算结构,特别适合进行频繁的高密度表关联计算。

系统平台的基本配置是一个核心管理服务器管理一组运算节点单元服务器,运算节点单元服务器可以根据数据量和运算要求的增长扩容。目前实验室提供的环境可以存储大约2亿条数据,由于运算过程中需要产生大量的中间结果,因此推测可以对大约100万条保险客户和业务数据进行分析。3.4 预计目标

(1)适用于本地寿险行业的精准营销分析方法,能够用一种以上方法对客户进行精确分类,并根据分类属性确定保险产品的关联选择度,以指导保险行业提升客户价值; 基于保险数据的挖掘处理方法以及增量挖掘问题的处理方法

(2)在核心期刊上发表1-2篇论文

全日制工学(工程)硕士学位论文开题报告

4研究方案及进度安排,预期达到的目标

2014年 9月 1日——2014年10月30日:调研、准备开题

2014年11月1日——2014年11月30日:去保险企业搜集数据,分析其数据特点,实验方案再论证

2014年12月1日——2015年1月15日:建立模型与建立实验环境

2015年2月10日——2015年5月30日:编码、收集与分析实验数据,完成一篇论文 2015年 6月1日——2015年 9月10日:进一步的对精准营销系统进行优化 2015年 9月11日——2015年11月30日:硕士论文编写 2015年12月1日——2015年 12月31日:硕士论文答辩

第四篇:数据挖掘在房地产营销中的应用

文章摘要:信息资源的分析、整合在房地产行业的竞争中起着越来越重要的作用。数据挖掘作为一种系统地检查和理解大量数据的工具,能有效地帮助房地产企业从不断积累与更新的数据中提取有价值的信息。因此,数据挖掘被引入到房地产市场研究领域,并日益受到重视。本文从数据挖掘在房地产行业中的市场研究价值入手,分析了数据挖掘在房地产市场研究尤其是客户信息中的应用,并加以举例说明。关键词:数据挖掘 关联分析 分类

一、房地产行业需要数据挖掘技术的支持

随着房地产行业竞争的加剧,房地产企业要想在竞争中制胜,必然需要充分的信息支持和准确的市场判断。房地产行业拥有大量的数据积累,包括行业信息、经济环境信息、客户信息等。这些数据是房地产企业市场运作的重要参考。面对快速增长的海量数据收集,企业需要有力的数据分析工具将“丰富的数据”转换成“有价值的知识”,否则大量的数据将成为“数据丰富,但信息贫乏”的“数据坟墓”。

数据挖掘(Data Mining)是从大量数据中发现潜在关联、模式,做出预测性分析的有效工具,它是现有的一些人工智能、统计学等技术在数据库领域中的应用。应用数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出解决问题所需要的关键因素,使企业处于更有利的竞争位置。

二、数据挖掘在房地产行业的应用

1.数据挖掘的概念

对于企业的海量信息存储,数据挖掘是一种系统地检查和理解大量数据的工具。数据挖掘根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步生成相应的分析、预测模型。

数据挖掘发现的是以前未知的、可理解的、可执行的信息,所以也被称为“知识发现”(Knowledge Discovery in Databases)。与统计分析技术相比,数据挖掘技术能很好地和数据库技术相结合,而且数据挖掘工具用以发现数据中隐含的商业规律的方法已不局限于统计技术,还包括神经网络、遗传算法、自组织图、神经模糊系统等统计学科以外的方法。数据挖掘发现的“知识”一方面可以用于构建预测模型,另一方面可以被用于丰富统计分析师的背景知识,再被统计分析师应用到数据分析中。

数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。具体来讲,数据挖掘主要用于解决以下几种不同事情:

(1)关联分析(Association analysis),是寻找属性间的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一事件中出现的不同项的相关性,比如某个住宅项目的目标客户对该项目各方面评价之间的相关性序列分析寻找的是事件之间时间上的相关性,如对股票涨跌、房地产周期的分析。

(2)分类(Classification)和预测(Prediction)。分类根据某种标准将数据库记录分类到许多预先定义好的类别中。例如,将房地产企业客户根据消费决策模式进行分类;同时可以建立预测模型,给定潜在客户的收入、职业、家庭构成等个人属性,预测他们在购房支出;如将房地产企业客户分为潜在客户、购买者和实际客户。分类系统可以产生这样的规则:“如果客户可以并且愿意承担每月2000元的月供,计划在1年内在某地区买房,那么他/她是一个潜在客户;如果客户至少进行过一次业务访问,那么他/她是一个购买者。”

(3)聚类(Clustering)是把整个数据库分成不同的群组。它的目的是要群与群之间差别明显,而同一群之间的数据尽量相似。聚类与分类不同:分类之前已经知道要把数据分成哪几类,每个类的性质是什么;聚类则恰恰相反。

(4)演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。例如,结合人口构成变动趋势、教育水平发展趋势、社会经济发展趋势进行房地产消费趋向的分析。

(5)描述和可视化(Description and Visualization),对数据进行归约、概化或图形描述等。例如,通过空间聚集和近似计算对一些具体的地理位置概化聚类,形成对某区域的形象化描述。

2.数据挖掘的市场研究价值

数据挖掘技术在商业上实际应用十分丰富。应用数据挖掘技术,可以帮助房地产行业找出有价值的信息,十分有助于企业发现商机、制定开发计划与营销策略。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。包括但不局限于以下几个方面:

(1)宏观经济形势研究——1)房地产周期时序分析中的相似搜索:可找出已有房地产周期数据库中与给定查询序列最接近的数据序列。比较识别两个相似时间段间数据系列的主要差异,对房地产市场的宏观分析很有参考价值。2)宏观经济形势研究——房地产周期一般性因素关联分析:一般而言,房地产周期是影响不动产收益的一系列因素组成的总体概念。各因素均会对总体房地产周期起决定作用。关联分析方法可用于帮助发现各因素和房地产周期间的交叉与联系。

(2)市场发展趋势研究——1)销售量的增长与人均可支配收入的回归分析;2)个人购买与集团购买房地产比重的拟合与分析;3)对房地产销售波动率的回归分析。通过对市场总体状况、市场占有率、发展水平等动态的分析、总结和评价,及时获得准确数据,辅助经营决策。

(3)楼盘供应研究——地理发展空间的多维分析:综合人口住房条件及分布、土地利用现状及政府规划、交通现状分布信息,通过聚集及层次化描述,发掘区域内需建立的高档别墅、高、中、低档公寓的数量及各自的地理位置和发展计划。

(4)客户研究——客户信息的多维关联和序列模式分析:关联分析可在客户信息中发现客户的消费行为模式,帮助营销人员找出影响消费者的机会与方式。

目前,专业市场研究公司对房地产行业的调研主要集中在客户需求分析方面,并积累了一定的经验,因此,本文主要探讨房地产客户信息的数据挖掘。

3.数据挖掘在房地产客户研究中有着广泛的应用

房地产行业的客户信息有许多特点,如下图所示,一方面房地产行业面对的客户群广泛,而且客户的特征描述的结构复杂,另一方面房地产客户需求的层次不一,且易受外界因素影响,具有多层次性和多变性。

对于复杂、多样而且擅变的客户信息,房地产行业客户信息的数据挖掘有助于识别客户购买行为,发现客户购买模式和趋势。从而,帮助房地产企业改进服务质量,取得更好的客户关系和满意程度,设计更好的营销方案,减少商业成本。根据已有的数据挖掘经验,数据挖掘在房地产行业的应用可以归纳成以下几个方面:

4.明确商业目标

三、如何在房地产行业应用数据挖掘技术

应用数据挖掘的首要任务就是明确需要达到什么样的商业目标,并描述出需要解决的问题。目标的描述应该细化、清楚,以便于选择合适的挖掘方法,也方便检测数据挖掘效果,判断建立的模型的有效性。例如,下列目标是大而空的目标:获得客户行为的了解;在数据中发现有用的模型;发现一些有意思得东西。而另外一些目标有较强操作性:发现哪些客户不受某种促销手段的影响;找出项目封顶时哪类客户成交率增加。

5.数据准备

基于数据挖掘的商业目标,提取所需要的数据。为了保证数据的质量,除了对数据进行必要地检查和修正外,还需要考虑不同源之间数据的一致性问题。

如果数据集包含过多的字段,需采用一定的方法找到对模型输出影响最大的字段,适当的减少输入的字段。常用的方法包括:“描述型数据挖掘”、连结分析等。

很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。一些变量如果扩大它的范围会成为一个非常好的预测变量,比如用一段时间内收入变化情况代替一个单一的收入数据。因此,在数据准备阶段需考虑是否创建一些新的变量。

处理缺失数据也是数据准备阶段的一个重要工作。有些缺值本身就非常有意义。例如:富有的顾客会忽略“收入”,或者不在乎价格的影响。

6.建立模型

建立模型是一个反复的过程。首先需要选择适合解决当前问题的模型。对模型的选择过程可能会启发对数据的理解并加以修改,甚至改变最初对问题的定义。

一旦选择了模型的类型及应用的方法,所选择的模型将决定对数据的预处理工作。例如,神经网络需要做数据转换,有些数据挖掘工具可能对输入数据的格式有特定的限制等。

接下来是建立模型的工作。对于通过数据挖掘建立的模型需要有一定的数据来测试和验证。对于预测性任务,需通过反复的测试、验证、训练,才能不断提高模型的准确率。

大部分数据挖掘模型不是专为解决某个问题而特制的,模型之间也并不相互排斥。不能说一个问题一定要采用某种模型,别的就不行。例如:Cart决策树算法、神经网络既可以用于建立分类树,也可建立回归树。

7.输出结果的评价和解释

模型建立好之后,必须评价其结果,解释其价值。在实际应用中,模型的准确率会随着应用数据的不同发生变化。但准确度自身并不一定是选择模型的正确评价方法。对输出结果的理解需要进一步了解错误的类型和由此带来的相关费用的多少。如果模型每个不同的预测错误所需付出的代价(费用)也不同的话,代价最小的模型(而不一定是错误率最小的模型)将是较好的选择。

直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。

8.实施

模型在建立并经验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,由他通过查看和分析这个模型输出,并做出解释和方案建议;另一种是把模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一类客户打分等,还可以用模型在数据库中选择符合特定要求的记录,以用其他工具做进一步分析。

在应用模型之后,还要不断监控模型的效果。即使模型的运用很成功,也不能放弃监控。因为事物在不断发展变化,很可能过一段时间之后,随着购买方式、消费观点的变化,模型就不再起作用。因此随着模型使用时间的增加,要不断的对模型做重新测试,有时甚至需要更新建立模型。

四、应用举例:基于客户分类的关联分析

1.商业目标

为了更详尽地了解客户的消费决策,本案例设计的问题是:“给客户分类,并了解不同类的客户有什么特点?”针对此类问题挖掘出的结果可以被用于预测性分析,例如预测客户最倾向于做出哪种购买行为。2.数据准备

本案例中采用某一时点上的房地产消费者需求抽样调查,取出描述消费者个人属性和消费特点的字段。

3.建立模型

(1)对数据进行分类

本案例中由购房者选择最多五个自己在购房决策过程中比较看重的因素,并以总评分100分为前提给出每个因素的看重程度的评分。

案例得到的抽样数据显示,尽管地理位置是影响一个房地产项目定位的重要因素,人们对地理位置的看重程度仍有较大的差异。因此,以客户对地理位置的关注程度为分类标准,构建了一个简单的决策树。决策树中根据购房者对地理位置的看重程度,将购房者分为:地理位置决定型、地理位置重要参考型、地理位置参考型、地理位置不重要型、地理位置无关型五种类型。下表是应用决策树得到的客户分类结果。从各客户群评分的均值和标准差可以看出,各客户群具有较好的组内相似性和组间差异性,说明所构建的决策树的分类结果比较理想,可用于进一步的分析。

(2)关联分析运用关联分析的目的是寻找数据库中值的相关性。本例采用基于兴趣度的关联规则挖掘算法,挖掘每类客户不同属性间的相关性。经过挖掘,发现一些值得深入探讨的关联,见下表:

注:a)支持率反映了关联是否是普遍存在的规律。例如:支持率=5%,表示在1000个客户中有50个客户符合关联规则描述。

b)可信度反映了关联规则前提成立的条件下结果成例的概率。本例中,可信度=15%可以解释为,对应的客户群中有15个人符合关联规则的描述。

c)兴趣度反映了关联规则中元素的关系的密切程度。兴趣度越大于1说明该规则中的元素的关系越密切,该规则的实际利用价值越大。

d)最小支持度阈值、最小可信度和最小兴趣度的阈值可以由用户和领域专家设定。此例中以支持度>3.5%,可信度>15%,兴趣度>2为阈值。

上表中列出的关联规则均有较高的支持率、可信度和兴趣度。为了更加准确地挖掘关联规则。对挖掘出的关联规则更换因果关系,形成新的关联规则与之进行对比。如下例:

关联规则A1:地理位置无关型客户=≥重视物业管理

支持率=9.7% 可信度=30.3% 兴趣度=2.4与

关联规则B1:重视物业管理 =≥地理位置无关型客户

支持率=9.7% 可信度=76.9% 兴趣度=2.4

对比两个关联规则将发现,“重视物业管理的人不关心地理位置”的可能性(76.9%)高于“不关心地理位置的人重视物业管理”的可能性(30.3%)。说明关联规则B1:重视物业管理=≥地理位置无关型客户是一条更有意义的关联规则。

其他被发掘的关联也可以通过类似的比较,进行深一步的挖掘。在此不再全部做出详细分析。从本例挖掘出的信息可以看到,如果仅依赖于已有行业经验进行统计分析,往往会因为分析人员的主观性或者数据量太大难以实施而存在信息提取的局限性。而通过数据挖掘得到的信息,一方面能弥补直接应用统计分析时的局限性,开拓分析人员的思维,丰富分析人员的行业背景知识;另一方面可以通过反复的验证、机器学习建立模型,直接成为分析人员的分析、预测的工具。

需要说明:

a)本案例的目的在于说明数据挖掘算法的应用价值,得到的结果仅供参考,并不作为定论,而且数据挖掘的结果需要由行业内的商业分析人员判断:是否真的具有意义,是否有进一步分析、探讨的价值。也就是说数据挖掘作为信息提取的工具,其输出是决策分析的参考,不能代替行业内商业分析人员的分析工作。

b)案例中的数据挖掘作为方法应用的探讨,如要生成一个可操作的模型工具还需足够的数据集支持进行测试、验证、训练才能不断提高模型的准确率。

c)本案例中解决问题的方法不是唯一的,可能应用其他的分类手段、分类标准能得到更好的结果。具体方法的应用要取决于实施人员的建模能力、行业经验。也就是说,数据挖掘对人员有较高的要求。数据挖掘的人员不仅要有良好的统计概念、建模能力,还要懂得基本的商业和行业概念。

五、房地产行业数据挖掘的应用前景

随着IT/Internet等新技术发展,市场研究在房地产行业的应用已经不再局限于数据采集和简单的归纳、数据分析。更高的决策服务是建立在更大量的“数据——信息——知识”的基础上的,因此数据挖掘、商业智能等概念与技术的引入促进了数据挖掘在房地产行业的应用。与此同时,随着房地产企业数据挖掘应用的深入,数据、数据挖掘的任务和数据挖掘方法的多样性将给数据挖掘提出了许多挑战性的课题。例如:

1、应用地理信息系统(GIS)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。

2、web挖掘:由于web上存在大量信息,随着web的发展,有关web内容挖掘、web日志挖掘等网络上的数据挖掘将成为数据挖掘中一个最为重要和繁荣的应用领域。房地产公司的企业形象宣传、营销、客户维护等工作都将离不开网络,也必然将需要web挖掘数据支持。

第五篇:网对网和Web数据挖掘在搜索引擎中的运用论文

摘 要:当今网络信息技术日益发展,传统意义上的搜索引擎更加难以满足广大用户日益增长的信息检索需求。在这种趋势下,智能技术在搜索引擎中的应用显得越来越重要。只有将智能技术引进搜索引擎,才能提高用户的工作效率,满足人们日益增长的客观需求。主要介绍了如今搜索引擎的几大分类,传统搜索引擎需要改进的不足以及两大智能技术在搜索引擎中的应用。在智能技术将会更加智能更加发达的未来,搜索引擎也将不断地更新和发展,为人们提供更加高效的搜索体验。

关键词:智能技术;搜索引擎;网对网技术;数据挖掘。

搜索引擎是根据一定的策略,运用特定的计算机程序来搜索互联网上的信息,在对信息进行组织和处理后,将处理后的结果显示给用户,是为用户提供检索服务的系统。而智能技术在搜索引擎中的实际应用也越来越广泛,不断有新兴的智能技术,搜索引擎也不断地结合这些智能技术来进行自身的变革和发展。这是一个渐进的过程。本文将详细介绍 2 种智能技术在搜索引擎中的应用。

1.搜索引擎的分类。

搜索引擎可分为以下 3 类:①全文搜索引擎。全文搜索引擎是最标准的搜索引擎,国外的主要代表是 Google,而国内的主要代表则是百度。全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容,继而建立数据库,按序排列并且将其展示给用户。②目录搜索引擎。从本质来说,目录搜索引擎其实不能算是真正的搜索引擎。只是将网站链接目录分类,用户并不需要输入关键字,根据目录就完全可以找到想要的信息。目录索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用户的搜索请求后,可以在各个搜索引擎上同时搜索,随后将结果显示给用户。这一种搜索引擎的国内代表是搜星搜索引擎。

2.传统搜索引擎相比网络信息检索的缺点。

传统搜索引擎作为用户在互联网进行信息检索的一个重要途径,给广大用户提供了相当大的便利,随着互联网的迅速发展,用户对搜索引擎又提出了搜索速度更快、搜索效率更高等诸多要求。正是用户的这些需求刺激着搜索引擎的快速发展。传统搜索引擎越来越满足不了用户的需求,主要存在以下几点不足:①搜索引擎从互联网搜索的各种网页水准不一,存在着根本没用或者暂时性的网页。这严重加大了用户检索信息的困难程度,并且严重影响了检索速度。②主流搜索引擎大多采用关键词来检索,由于用户水平的差异,极少数可以总结出关键词或关键词组,以至于用户搜索不到想要的内容,从而加大了检索难度。③每个搜索引擎覆盖的范围虽然不小,但与庞大的互联网相比,简直是九牛一毛。④检索的结果不准确、不唯一,搜索结果为零或者为数万的情况时有发生。⑤不能智能搜索,难以满足用户深层次的需求。

3.智能技术的运用。

由于传统引擎的各种缺点,用户越来越渴望更好用、更便捷的搜索方式出现。在这种刺激下,智能技术在搜索引擎中的应用大量出现。这使得搜索引擎需具有一定的智能化和理解能力。当前主要有以下两大智能技术。

3.1 网对网技术。

顾名思义,“网对网技术”就是网络和网络对应起来的意思。这其中又要提到两个概念了,是两个单词。一个单词我们都相当熟悉了--Internet.我们常说的互联网,就是这个单词。而在这里,这个单词指的是一个信息网络,也就是我们所说的网络中的信息网。我们想要搜索什么东西时,将它输入搜索引擎中,引擎就会在这个网络库中查找,找到相关信息,然后呈现在我们面前。而另一个词可能就有一些陌生了--Innernet.表面上看起来与 Internet 很像,英文词典中并没有这个词,我们在这里叫它“内联网”.与看起来更像数据库的 Internet 比起来,内联网更像是人类大脑的一个信息网络。这里面不仅仅有我们生活和工作中所用到的各种各样的信息,更重要的是,信息之间繁杂又紧密的联系。就像我们在生活中和他人交流,提到“小伙伴”这个词,我们会想到其他与之有联系的词汇,比如“朋友”“同学”等。同样的,当提到“师父”,我们的大脑也会迅速联想到“师门”“师生”这样的相关词汇。我们所说的内联网,它所着重的,也是信息与信息之间这样息息相关的联系。Internet 和 Innernet都是知识的网络,互联网时代的信息社会发展日新月异,因此无论是哪个网络,其内的信息都是不断变化着的。人们将这个技术运用在搜索引擎中,大大提高了搜索引擎的实用性。作为内联网的 Innernet 和 Internet 联结起来,运用信息之间存在的各种各样的联系,将用户输入搜索引擎中,将复杂的联系正确分割开,然后各自拓展出一些对人们而言有用的信息,将 Internet 中庞大、杂乱的信息进行有序化的筛选和整理,最终将信息呈现在人们的眼前。这大大提高了搜索引擎的可操作性,缩短了人们不断删改语句来配合 Internet 的时间,自然也就提高了用户的工作效率。

3.2 Web 数据挖掘技术。

数据挖掘作为一门交叉学科,其原理比较复杂,可以从庞大的数据中将更有用、更有新意的数据挖掘出来,而 Web 挖掘,便是将数据挖掘和 Web 发展联系起来。Web 数据挖掘有 3 种不同的挖掘形式,即内容挖掘、结构挖掘和使用记录的挖掘。

3.2.1 内容挖掘。

内容挖掘指的是从 Web 文档中或是描述中挖掘,在网页中进行数据挖掘,其中包括文本、超链接、图像和视频等,而半结构化的数据和无结构的文本便是主要的挖掘对象。

3.2.2 结构挖掘。

Web 结构挖掘则是通过网页中的超链接,发现其中信息之间的结构及其紧密或稀疏的联系。在平时上网时,我们只能看到一个个的网页,打开浏览或者关闭。但是在这些页面的背后,其实隐藏着无数个结构链接。Web 数据挖掘就能够通过这些结构上的链接,发现页面与页面、数据与数据之间的联系,随后对它们分类,以便为用户提供含有相似信息的更多页面,帮助用户完善自己想要在搜索引擎中得到的信息。

3.2.3 使用记录的挖掘。

与前两者相比,Web 使用记录的挖掘让我们感觉更加熟悉,至少“使用记录”4 个字是我们上网过程中能够看到的。当我们点击一下搜索引擎的输入框想要输入文本时,搜索引擎会自动下拉出我们前几次使用时所查询的内容,以便我们重复查看相似内容的信息。搜索引擎有时也会为我们推荐一些内容的信息。这些信息也会是我们所感兴趣的一些内容,是搜索引擎结合了我们之前的使用记录,为我们提供感兴趣的相类似的内容。这些都是 Web 使用记录挖掘在搜索引擎中的实用例子,但并不是全部。搜索引擎会从用户的访问痕迹中挖掘出很多有意义的数据,包括数据端、服务器端和代理端的数据。而其获得这些数据的途径又分为 KDD 和专业化追踪。这些方法和深度的挖掘,使搜索引擎更加“智能”地了解用户的兴趣和需要。

4.总结。

搜索引擎是我们工作、学习和生活中必不可少的实用性技术,正如一个调查中所显示的,85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站,可见搜索引擎的重要性。随着智能技术的不断更新,人们的生活变得越来越智能,对搜索引擎的要求也会随之越来越高,因此不断利用新的技术完善和提高搜索引擎的智能性,是用户的选择,也是时代的选择,是搜索引擎在现在和未来的发展中必然的趋势,且将一直持续下去。

参考文献:

[1]陈勇跃,张玉峰。智能技术在搜索引擎中的应用[J].情报杂志,2004(02):2-3,6.[2]杨占华,杨燕。数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.[3]朱素媛,马溪俊,梁昌勇。人工智能技术在搜索引擎中的应用[J].合肥工业大学学报(自然科学版),2003(S1):657-661.

下载基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘word格式文档
下载基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐