第一篇:易观智库:大数据下的用户分析及用户画像(18页PPT附下载)
大数据下,用户分析的核心是什么? ——解决实际问题
确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理?
确定目的后开始选择合适的数据,然后搭建模型,最后得出结果,并用数据可视化解读。大数据时代,用户数据使用成为企业发展的重中之重 数据基础平台:
1、用户唯一+ 用户行为ID + 用户画像 + 用户兴趣
2、数据接入系统计算任务调度系统+ 元数 完善产品运营,提升用户体验:
1、业务运营监控 异动智能分析 金字塔体系 用户路径分析 数据体系
2、用户/客户体验优化 产品体验分析 口碑监测
用户/客户体验研究 对外服务,提升盈利
3、对外服务,提升盈利 精细化营销 个性化推荐
用户生命周期管理 活动效果提升
自助提取和分析工具
4、数据服务 数据分析产品化 分析结果可视化 分析结果实时化 战略分析 业务经营分析 收入分析 竞争分析 用户维护
用户数据的构成——用户画像基础数据
1、网络行为数据指标 活跃人数
访问/启动次数 页面浏览量 访问时长 装机量 激活率 渗透率 外部触点
2、网站内行为数据指标 唯一页面浏览次数 页面停留时间 直接跳出访问数 访问深度
进入或离开页面 浏览路径
评论次数与内容
3、用户内容偏好数据指标 使用APP/登陆网站 时间/频次 浏览/收藏内容 评论内容 互动内容
用户生活形态偏好 用户品牌偏好 用户地理位置
4、用户交易数据指标 贡献率
客单件/客单价 连带率 回头率 流失率
促销活动转化率 唤醒率
下面是详细的PPT,最后附下载:
文档下载:大数据下的用户分析.pdf
第二篇:用户定位数据分析报告
用户定位数据分析报告
目的
运用可利用的数据资源,分析魔秀客户端产品所面向的主要用户群体特征,包括用户的人口学属性,使用产品的目标、行为、动机,以及用户价值观和对某些事物的倾向等
数据来源
本分析报告中所采用的数据,主要来自艾瑞、第一象限以及GA、友盟、DCCI 数据分析
用户基本属性
人口属性
第一象限----性别和年龄 / 22
第一象限----学历分布
第一象限----职业分布
第一象限----收入分布 / 22
第一象限----地区分布
艾瑞----性别比例 / 22
艾瑞----年龄分布
艾瑞----学历分布 / 22
艾瑞----职业分布
DCCI----年龄与学历分布
分析: / 22
20到39岁中青年为主体;男女用户比例接近,男性比例略高于女性用户;受教育程度主要分布在高中至大学本科阶段;主要集中在北京、上海、广州、深圳等一线城市,以及天津、郑州、成都、重庆、西安等二线城市;按地区分布的特征为华东,华北、华南和东北地区分布较集中,西北和西南地区的用户占比相对较低;学生在用户群体中的比例最高,其次为普通企业员工和个体工商业者
终端使用情况
操作系统
第一象限----操作系统分布 / 22
艾瑞----操作系统分布
在此项数据上,第一象限与艾瑞的数据分歧较大,塞班借助诺基亚曾经的市场份额,仍然拥有较大的存量市场占有率;anroid和ios系统的占比上升迅速,并且在新增终端中占据更大比重,随着用户终端的更新换代,android和ios系统将逐步取代symbian的市场地位,成为主要的智能终端操作系统;微软的Windows Mobile和Windows Phone紧随其后,后期的市场表现有待观察;黑莓排名第六,用户比例不足1% / 22
手机品牌
第一象限----终端品牌分布
艾瑞----终端品牌分布
诺基亚仍然占据首位,但比重已较前几年有较大下降;三星在android终端市场发力,其市场份额有明显成长,进一步拉近与诺基亚的距离;苹果的市场份额超过10%;HTC与苹果相比份额已有明显差距;华为、中兴等国产品/ 22
牌,凭借在二三线城市的优势,市场份额也有较大提高
第一象限----安卓用户年龄收入分布
第一象限----收入分布 / 22
DCCI----收入分布 / 22
DCCI----手机价格分布
安卓系统受低收入年轻人及三十岁左右的高收入人群亲睐 / 22
常用功能
第一象限----用户常用功能
手机除了上网功能外,最常扮演的角色是相机、音乐播放器和游戏机,人群使用比例在75%以上;另外摄像、蓝牙/红外传输、电子书、彩信功能使用比例也较高,用户比例达到七成左右
上网行为
第一象限----用户上网行为 / 22
艾瑞----用户上网行为
浏览新闻,即时通讯、在线阅读和应用下载在手机用户的上网行为中占据很大比重,其次手机搜索、收发邮件,地图导航的用户比例也较高
使用习惯
第一象限----操作习惯
90%以上的用户习惯使用右手操作 / 22
第一象限----手机使用场合
同2011相比,2012年手机人在睡前、醒后、厕所里使用手机的比例基本维持稳定。手机仍是最晚离开和最早接触的媒介
常用APP类型
第一象限----常用APP类型 / 22
游戏娱乐类App最受欢迎,安装比例最高为61.70%,其次网络浏览、即时聊天、影音播放类App的用户安装比例也超过50%。输入法、导航地图、图像拍照、阅读、系统软件、词典等类型的App也活获得用户较多偏好。不过总体来看,在App上用户的偏好类型相对较广,更愿意用多种类型的App来辅助自己的手机生活
产品关注点
第一象限----产品关注点
用户在选择App的时候,依然是价格敏感人群,有超过一半的人会关注软件是否免费,其次用户的评价、下载量也是用户选择App的考量标准。另外,App软件需要占用多大的空间,也成为关注的重点。而中文界面由于更加接近我国手机用户的使用习惯,也获得30.36%的用户关注 / 22
第一象限----用户APP更换频率
第一象限----用户APP更换频率
用户更换APP并非固定的使用习惯,产品的使用体验成为用户更换的重要条件,接近一半的用户只在遇到使用体验更好的产品时才会进行更换 / 22
第一象限----用户产品忠诚度变化
APP转换使用成本较低,多数类别的APP均存在不同程度的多产品并用、换用情况 游戏娱乐类的APP流动性最强,安装多个、频繁更换比例均为最高
桌面美化、影音播放、网络浏览、阅读等对手机功能补充扩展并且其功能可以脱机使用的APP忠诚度尤其低 导航地图、安全防护、办公工具、邮件、同步备份等需要服务商持续提供服务的APP产品换用、并用比例相对较低 / 22
第一象限----个性化桌面工具使用情况
个性化需求飙升,桌面管理类软件在APP用户中基本普及,使用桌面管理类APP的用户占比达到84.20% 常用的手机桌面应用包括GO桌面、点心桌面、91桌面、安卓桌面、QQ桌面、小米桌面、QQ桌面、宝软桌面等
基本属性分析结论
目前手机终端用户群以20到39岁,学历为高中到大学本科的学生和企业员工、个体户为主,男性比例略高于女性用户,主要集中在北京、上海、广州、深圳等一线城市,以及天津、郑州、成都、重庆、西安等二线城市,除iphone之外,主要使用价格在1000到3000元之间的三星、华为、htc等android手机以及NOKIA塞班手机,主要使用手机上网浏览,拍照,听音乐,看书和玩游戏,对个人终端有很强的个性化需求,相当一部分用户使用桌面管理类应用对自己的手机终端进行美化和管理;在选择APP产品时,受价格因素、下载量和评价内容影响较大,有从众心理,对产品的忠诚度较低;除通话、短信等基本通讯功能外,主要的使用时间分布仍呈碎片化,使用场景主要集中在睡前,醒后,厕所以及交通工具内 用户关注的内容 / 22
GA----用户关注内容(关键词)
通过GA数据,获得用户关注度比较高的部分关键词,由此得出,用户对时尚、娱乐、体育、名车、明星以及设计感较强的内容关注度较高,将关键词内容再提炼,可以得出一些用户关注内容的形容词,包括但不限于: 流行、时尚、炫酷、科技、可爱、唯美、小清新、浪漫、帅气 …… …… 百度指数分析
百度指数反应出关注某一关键词的用户分布,使用百度指数,分析各关键词和竞品被关注情况 关键词:手机主题
百度指数----相关关键词 / 22
百度指数----关注用户地区分布
百度指数----关注用户群人口属性
关注“手机主题”的用户,主要分布在北上广等一线城市与郑州、天津、西安等二线城市,主要使用三星、HTC,以及华为、中兴等品牌的手机,年龄层以16到29岁为主,男女用户比例非常接近,女性比例略高于男性,绝大多数用户的受教育程度在高中至大学本科阶段,以学生为主,其次为IT企业员工;除“手机主题”外,延伸的关键词包括“免费”、“安卓”、“小米”和“OPPO”,说明大部分用户倾向于使用免费的安卓主题管理应用,小米和OPPO手机用户对手机主题的关注度高于其他品牌手机用户 关键词:GO桌面 / 22
百度指数----相关关键词
百度指数----关注用户地区分布
百度指数----关注用户群人口属性
关注“GO桌面”的用户,其地理分布,以及年龄层、教育程度和职业分布情况,与关注“手机主题”的用户群的人口属性基本一致,差别在于男女用户的比例出现了变化,男性用户占比达到67.94%,是女性用户的两倍 / 22
关键词:点心桌面 竞品分析
相关的影响因素分析(不同用户群、类别、因素等在产品使用中的差异性和相关性分析)/ 22
第三篇:信用卡的用户画像与场景分析
信用卡的用户画像与场景分析
曾设想过一个问题:如果让我做一个信用卡有关的APP,我会怎么做?先调研市场,重点研究数据,得出用户画像,从而进行场景分析,这将是我的步骤。根据《中国银行卡产业发展蓝皮书(2016)》相关的信用卡报告,持卡用户的用户画像内容涵盖了以下三部分: 第一部分:信用卡持卡用户特征分析第二部分:信用卡用户消费行为分析第三部分:用户信用卡管理行为分析第一部分:信用卡持卡用户特征分析
1、“80后”为持卡主力,占比接近四成目前的持卡人群以“80后”和“90后”为主,“80后”持卡用户占比高达42.15 %,堪称主力;“90后”持卡用户紧随其后,占比为28.04%。“70后”持卡用户占比为21.63 %,70后与80后一共接近七成多的比例。
2、男性持卡用户占绝对优势男性持卡用户占比高达86.06%,女性持卡用户仅占13.94%,男女比例约6:1。
3、城市持卡用户占比近90%目前,信用卡持卡用户主要集中在城市地区,市郊及乡镇地区由于办卡业务不普及、满足办卡条件的人群较少等客观原因,持卡用户占比较低,仅为11.06%。从地域分布情况看,南方的持卡用户要多于北方持卡用户。
4、月收入万元以下的持卡用户占比高持卡人群中,近八成用户月收入在万元以下,其中,月收入5000-10000元(含)的用户占比最高,为49.04%;月收入5000元以下(含)的用户,占比为27.88%;月收入在10000元以上的用户仅占22.59%。以上数据得出结论:80后为主,70、90后为辅,大部分为男性,年龄在27-37之间,有房贷车贷,小孩年龄0-15岁,消费偏理性(1)金融理财场景 用户场景一:办理信用卡本质是借款,借款额度无法满足需求,继续借款,借款场景搭建。用户场景二:拥有一定财富积累的男性,身价的升值,理财保险购买的场景搭建。(2)购买商品场景 用户场景三:男性爱车,与汽车厂商合作,推出分期购买车以及车的周边设备购买。用户场景四:90后使用信用卡趋势越发明显,大热的王者荣耀游戏,除了推出王者荣耀信用卡,也可与腾讯举办信用卡打折购买皮肤等活动。用户场景五:信用卡的用户男性为主,意味着商品分期的品类、积分兑换商品的品类等等商品,在选品上,建议更多地以男性为主,而不是女性(女性更多的购物场景为淘宝支付宝)第二部分:信用卡用户消费行为分析1、66%的用户持有三张以下信用卡“玩转”多张信用卡的用户占比不高,66%的用户持有三张以下信用卡;45.83%的用户持有信用卡的时间在一年以内。
2、败家指数:七成用户月均消费金额在收入金额50%(含)以内70.52%的用户平均每月消费金额不超过月收入金额的50%,“每月消费占总收入的比例” 最多为30%-50%,达到37.98%。根据相关性分析,收入越高的用户,每月消费占收入比越高。月收入2万-3万的持卡用户每月花销比例最高,当中有67.6%的人每月花掉收入的50%以上。
3、月刷万元以上的用户占比最高超五成用户平均每月刷卡消费次数在10次以下。55.40%的持卡用户平均每月刷卡金额在5000元以上,月均刷卡以达5505.80元。平均每月信用卡账单金额(所有卡账单总和)在10000元以上的用户占比最多,达到23.56%,其次为1000元-3000元,占比为21.79%。
4、信用卡里的钱花费渠道在信用卡日常消费类型中,占大头的是超市购物、网络购物和美食餐饮这三项。85.26%的用户预期明年“刷卡消费”会提高,对“消费能力”具有较强信心。
5、用户日常消费支付方式以刷信用卡为主用日常消费支付方式采用“信用卡刷卡支付”的占比最高,达到75.48%;其次为通过第三方绑定信用卡支付,占比超过50%。数据可见,当前信用卡支付的渗透,无论从线下消费,还是线上消费角度,都处于第一位。以上数据得出结论:大部分用户手持三张以下信用卡,且时间较短,消费额度在50%以内,偏理性,但在高收入群体中,收入与消费比例成正比,花费渠道最多的是超市购物,使用场景最多的是日常消费支付。用户场景一:收入越高,消费占比越高,以此证明高端客户使用信用卡的频次越高,借款的需求越大,所以可以针对信用卡额度较高的这部分客户,推送推荐办卡的高额奖励,通过推荐办卡,获取高质量的信用卡客户。用户场景二:招行可与沃尔玛等超市进行合作推出活动,首页推荐超市活动,场景结合。第三部分:用户信用卡管理行为分析
1、超过六成用户信用卡总额度在5万元以下75.28%的持卡用户信用卡总额度不超过5万元;信用卡总额度1万-5万的持卡用户占比45,35%,总额度5万-10万的用户占比15.22%,信用卡总额度10万以上的“富人”仅占9.5%。43.43%的持卡用户未申请信用卡提额,对现有额度表示满意,而31.57%的用户会主动向银行申请提升信用卡额度,其中,27.24%的用户通过网上、手机银行、银行微信等渠道申请提额,用户更倾向于选择网络渠道办理业务。
2、八成用户使用支付宝、微信进行账单管理用户普遍会对信用卡账单进行管理,不做管理的用户占比仅为2.67%;其中,最常用的账单管理方式是通过支付宝、微信进行管理,占比达82.05%。
3、用户最常用支付宝、微信进行信用卡还款通过线上渠道为信用卡还款简单快捷,成为大部分持卡用户的选择。75.48%的持卡用户使用支付宝、微信进行信用卡还款,其次为绑定银行储蓄卡自动还款和使用网上银行、银行手机APP等方式还款;通过银行柜台或ATM机等线下方式还款的占比仅为9.94%。
4、近三成用户有过逾期还款行为2016年,27.72%的持卡用户有过信用卡逾期还款行为,逾期次数多在1-3次。其中,58.93%的用户是因为粗心大意、忘记还款导致信用卡逾期,34.52%的用户是因为还款渠道导致未能及时到账导致信用卡逾期。以上数据得出结论:约80%的客户的信用卡额度在5万以下,对额度不满意占比为60%,八成用户使用微信和支付宝进行账单管理以及信用卡还款,且近三次用户有逾期还款行为。(1)大数据风控用户场景一:用户对额度不满占比为60%,说明有市场,银行不提升额度,担心风控问题,导致损失。常规的调查薪资证明,获取该客户在招商以及其他行的资金数据,算法分析风控与支付宝的芝麻信用体系合作,获取接口,对用户消费数据进行算法分析,评估风控等等通过以上方式,获取用户数据,保证资金安全,同时保证银行利益最大化。(2)消息提示用户场景二:三成用户逾期还款,且粗心大意、忘记还款的比例很高,另外一部分由于还款渠道太慢导致。逾期还款比例越高,银行获利越高,但从长远来看,用户体验不好,没有一个明显的消息提示,容易让用户丧失忠诚度。在还款日当天发一条短信到手机,以及在信用卡个人中心中新建消息中心功能,进行通知。通过分析信用卡的用户画像,剥离出用户画像,最后搭建场景,通过场景的梳理,衍生出需求,最终需求实现,形成产品。可分为四个模块:首页、推荐、金融、我的 首页为banner活动以及电影、商城、积分商城等场景的搭建推荐为招行每个月主推的一些活动,以及用户购买商品、积分兑换的排行榜等信息金融为借款、理财、保险等场景我的为个人借款、额度、个人账号、消息通知等等场景当前市场,有关信用卡的APP,大多做得十分复杂,非常臃肿,各行体验吐槽。#专栏作家#不羁,人人都是产品经理专栏作家,对于电商以及社交领域产品有深入了解,重业务逻辑,喜深入思考,欢迎与我交流~题图来自 Pixabay,基于 CC0 协议
第四篇:基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,最终得到复赛第32名。正好这学期《机器学习与数据挖掘》课程需要一个实验报告的大作业,于是就那它来写了。本博文会在这几周不断的完善更新ing
1.选题背景与意义
1.1 用户画像与精准营销
“用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
消费方式的改变促使用户迫切希望尽快获取自己想要了解的信息,所以说,基于用户画像上的精准营销不管对企业还是对用户来说,都是有需求的,这会给双方交易带来极大便捷,也为双方平等沟通搭建了一个畅通平台。
1.2 搜索引擎下用户画像的挑战
在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用户的流动性、查询的实时性等,带来了与企业传统的对用户信息进行收集与分析有着巨大的不同、更加艰巨的挑战。
例如,我们实时获取到的是用户的查询语句,而由于用户的流动性,并不能直接获取到如年龄、性别、学历等用户的标签信息。这么一来,也就无法根据用户属性对用户进行分群处理,而后再通过推荐系统进行产品上的优化
1.3 本文内容概要
本文内容概要如下:
第1章:简介用户画像与搜索引擎下用户画像的精准营销的挑战。第2章:说明实验集群、数据与课题研究目标。
第3章:介绍使用分词工具对用户的搜索词列进行分词,以及相关的优化方案。第4章:介绍在分词的基础上,对文本进行特征的抽取与转换,以及相关的优化方案。第5章:介绍在原始特征向量上,进行聚类与降维。第6章:介绍实验中试验过各分类模型 第7章:介绍模型参数调优
第8章:总结本课题研究中不足与展望后续的优化方案 第9章:参考文献 2.课题实验准备
2.1 Spark集群
节点 cdh01 cdh02 cdh03 cdh04 备注
8核,32G内存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 2.2 数据集
数据文件 备注
Train.csv 带标注的训练集 Test.csv 测试集 2.3 数据介绍
本数据来源于搜狗搜索数据,ID经过加密,训练集中人口属性数据存在部分未知的情况(需要解决方案能够考虑数据缺失对算法性能的影响)。数据所有字段如下表所示:
字段 ID age 说明 加密后的ID 0:未知年龄;1:0-18岁;2:19-23岁;3:24-30岁;4:31-40岁;5:41-50岁;6: 51-999岁
Gender 0:未知1:男性2:女性
Education 0:未知学历;1:博士;2:硕士;3:大学生;4:高中;5:初中;6:小学 Query List 搜索词列表 2.4 数据示例
对于train.csv中的数据记录:
00627779E16E7C09B975B2CE13C088CB 4 2 0 钢琴曲欣赏100首 一个月的宝宝眼睫毛那么是黄色 宝宝右眼有眼屎 小儿抽搐怎么办 剖腹产后刀口上有线头 属羊和属鸡的配吗 2.5 课题任务描述
根据提供的用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
3.查询词分词
3.1 NLPIR
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。
全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
我们传入每个用户的搜索词列,表经过NLPIR分词工具得到的分词。之后,我们做个进一步的优化策略:
3.1.1 去停用词
我们根据分词后词语所带的词性,对一些特征代表性不够强的词语进行过滤:
for(int i = 0;i < sbtmp.length();++i){
char cc = sbtmp.charAt(i);
if(cc == ' '){
sbtmp.deleteCharAt(i);
--i;
} else if(cc == '/'){
// 去词条件
Boolean isdel =
// 1.去标点
(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')
// 2.疑问词
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'
&& sbtmp.charAt(i + 2)== 'y')
// 3.数字
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')
// 4.连词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')
// 5.副词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')
// 6.叹词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')
// 7.拟声词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')
// 8.介词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')
// 9.量词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')
// 10.助词
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')
// 11.纯动词
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'
&& sbtmp.charAt(i + 2)== ' ');
// 去词
if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'
&& sbtmp.charAt(i + 1)!= 'h'
&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){
while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
while(i >= 0 && sbtmp.charAt(i)!= ','){
sbtmp.deleteCharAt(i);
--i;
}
}
// 若无需去词,把‘/’转为‘,’,并去除随后的词性标志
else {
sbtmp.setCharAt(i, ',');
while(sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
}
}
}
for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){
sbtmp.deleteCharAt(i);
--i;
}
// 去中间单个字
else if(sbtmp.charAt(i1);
sbtmp.deleteCharAt(i1] == Y[j1][j1][j];
//删除X第i个字符
t1 = t1 < dp[i][j1];
//删除Y第j个字符
t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同
dp[i][j] = t1 + 1;
这里我们所使用的优化方案为:
对整个训练集和测试集的搜索词列做分词后的词频统计表
对每个用户的搜索词列分词后的各个词与词频统计表各词(排除前者自身)进行编辑距离计算。得到词频统计表中编辑距离与该词编辑距离最小词,在这些词中在选择一个词频最高的词将该词替代。4.7 额外增加数据量
在大数据时代背景下,只要数据量足够的大,反而我们所选用的不同的算法模型对最终的预测准确率的影响会变小,获取更多数据会使模型更完善更准确。我们这里用不同方案所得到的分词结果,人为的增加训练集的数据。如将10万条记录的训练集进行NLPIR分词得到结果,与进行”结巴”提取关键词得到的结果拼接,就将训练集记录人为的翻倍了。后续的分类实验中证明了,使用该方案,在模型相同的情况下,相比原来会有1%左右的准确率的提升。
5.聚类与降维
2009年结束的Nexfix竞赛表明,很多参数团队用到的高等矩阵因子分解对模型提高预测准确略非常有帮助。模型使用矩阵因子分解方法从特征矩阵中抽取一组潜在的属性,并通过这些属性来描述用户。20世纪80年代后期,利用潜在的”语义”属性的思想被成功的应用于信息检索领域。Deerwesteret al.在1990年提出使用奇异值分解(SVD)方法发现文档中的潜在的属性。[2]而本课题在实验中会使用到LDA方法。
5.1 LDA
隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种主题模型(Topic Model,即从所收集的文档中推测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。那么何谓“主题”呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。也就是说 在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词(参见下面的图),这些单词与这个主题有很强的相关性。这里写图片描述
LDA可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
LDA可以被认为是如下的一个聚类过程:
各个主题(Topics)对应于各类的“质心”,每一篇文档被视为数据集中的一个样本。
主题和文档都被认为存在一个向量空间中,这个向量空间中的每个特征向量都是词频(词袋模型)
与采用传统聚类方法中采用距离公式来衡量不同的是,LDA使用一个基于统计模型的方程,而这个统计模型揭示出这些文档都是怎么产生的。5.1.1 模型训练
Spark API 参数介绍:
K:主题数量(或者说聚簇中心数量)
maxIterations:EM算法的最大迭代次数,设置足够大的迭代次数非常重要,前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。,至少需要设置20次的迭代,50-100次是更合理的设置,取决于数据集。
docConcentration(Dirichlet分布的参数α):文档在主题上分布的先验参数(超参数α)。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。topicConcentration(Dirichlet分布的参数β):主题在单词上的先验分布参数。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。checkpointInterval:检查点间隔。maxIterations很大的时候,检查点可以帮助减少shuffle文件大小并且可以帮助故障恢复。
val lda=new LDA()
.setK(20)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(100)
val model=lda.fit(dataset_lpa)
5.1.2 模型评价
生成的model不仅存储了推断的主题,还包括模型的评价方法。模型的评价指标:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
用评价方法,在online 方法下,对setMaxIter进行调参:
for(i<-Array(5,10,20,40,60,120,200,500)){
val lda=new LDA()
.setK(3)
.setTopicConcentration(3)
.setDocConcentration(3)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(i)
val model=lda.fit(dataset_lpa)
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
println(s“$i $ll”)
println(s“$i $lp”)}
可以看到,logPerplexity在减小,LogLikelihood在增加,最大迭代次数需要设置50次以上,才能收敛:
5.1.3 对语料的主题进行聚类
val topicsProb=model.transform(dataset_lpa)
topicsProb.select(“label”, “topicDistribution”)show(false)
/**
+-----++
|label|topicDistribution
|
+-----++
|0.0 |[0.***,0.***147,0.***77] |
|1.0 |[0.***3,0.***623,0.***]
|
|2.0 |[0.***7,0.***417,0.***]
|
...*/
label是文档序号,文档中各主题的权重,我们可以将该DataFrame带入后续的分类器中,进行训练。
5.1.4 其他聚类与降维
Spark在基于RDD的MLlib中还提供了SVD、PCA的降维方法,而基于DataFrame的聚类方法还包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API类似与LDA,可以直接为我们返回文档中各主题的权重,以便于后续的分类。但是由于LDA在主题聚类上的典型性,我们的课题实验只试验了LDA的方案
第五篇:易观推荐:家庭日用品直销平台Alice – 易观智库
易观推荐:家庭日用品直销平台Alice – 易观智库
厂商简介:
北京时间2012年2月1日,美国家庭日用品直销平台Alice(http: /)再获360万美元融资,其清晰的商业模式以及稳步增长的用户数再次得到了投资机构的认可。随着电子商务的飞速发展,越来越多的消费者选择通过网络购买书籍、衣服、鞋、家电等商品。然而,真正专注于像牙膏、卫生纸、狗粮等家庭日常消耗品的电商并不多,更多的消费者还是选择去超市等实体店进行线下采购。Alice正是抓住了这一商机,创建了以经营家庭日用消耗品为主的直销平台,通过对消费者使用情况进行跟踪,并以定期邮件的形式通知消费者某种日用品可能需要进行补充。这样消费者不用再自己监测日用品使用情况,也省去了一次性去超市购买大量的日用品的不便。
厂商特点描述:
特点一:家庭日用品直销平台
商品类别商品类别卫生间用品卫生纸、洗发液、漱口水等洗衣用品洗衣粉、洗洁剂婴儿用品食品、浴液以及营养品化妆品香水、唇膏、粉底卧室用品床上用品、安眠药、空气清新剂医药急救药、感冒药、维生素清洁用品除锈剂、管道疏通剂家用文具及电器打印纸、笔、灯泡、电池食品零食、咖啡、柴米油盐宠物用品猫粮、狗粮、清洗用品厨房用品保鲜膜、垃圾袋、洗涤灵
Alice是一家针对美国用户的家庭日用品直销平台,其首要特点是其线上产品全部围绕一般家庭日常消耗的生活用品,下面来简单看一下它的商品种类:
商品类别商品类别
卫生间用品卫生纸、洗发液、漱口水等洗衣用品洗衣粉、洗洁剂
婴儿用品食品、浴液以及营养品化妆品香水、唇膏、粉底
卧室用品床上用品、安眠药、空气清新剂医药急救药、感冒药、维生素
清洁用品除锈剂、管道疏通剂家用文具及电器打印纸、笔、灯泡、电池
食品零食、咖啡、柴米油盐宠物用品猫粮、狗粮、清洗用品
厨房用品保鲜膜、垃圾袋、洗涤灵
从上图可以看出,Alice的商品种类几乎覆盖了全部家庭中可能会用到的日常
消耗品。Alice提供了一个线上的平台并列出了清晰的产品种类分类,消费者可以通过日常生活的使用习惯在该平台找到想要的细分产品,并掌握详细的产品信息介绍和其它同类产品的对比。
除此之外,Alice还添加了用户评价系统,用户可以在购买前参考其他用户在使用后的评价,从而做出更加放心的决定。
Alice的另一特点便是其采用的直销平台的模式,通过该平台将消费者与日用品的生产厂商直接联系在了一起。当消费者付款下单后,Alice会将订单信息直接转给日用品的生产厂商,只要顾客达到了一定的购买量,生产商便会直接为用户提供免费的物流配送,省去了中间环节的费用。目前,虽然只有少部分商品采用了这种模式,但Alice在其网站的介绍中强调到,未来会有更多的商品被列入到厂商直接递送的模式。对于Alice而言,这种模式使其降低了仓储和快递的运营投入,便可将更多的精力投入在用户使用习惯的分析上。对于厂商来说,201388888,随着Alice的用户数增长,必会为其带来大量的忠诚度更高的用户。而对于用户来说,消费者可以通过互联网平台,通过对比来选择价格更加便宜、口碑更好的商品。同时,也省去了搭乘交通工具去几家实体店才能买齐全部日用品的不便。
特点二:用户监测提醒
Alice的第二大特点便是其用户监测提醒系统,当用户在网站注册时,网站会要求用户填写一些简单的家庭信息,例如注册用户在家庭中的角色,以及其他家庭成员的构成。当用户把心怡的商品放入购物车的时候,网站会希望用户填写该商品的购买频率,如每周、每月一次。这样,Alice会根据用户的家庭成员组成和使用速度,在定期通过邮件的方式通知用户订购该类产品。Alice通过这种监测提醒的增值服务,帮助用户避免了经常检查各种日常生活用品的烦恼。与此同时,Alice的这种提醒服务起到了有效的广告功能,这样以来大大提升了用户对网站的黏性以及对各厂商产品的忠诚度。
Enfodesk易观智库分析师点评:
与美国电子商务相比,中国的电子商务还处于发展的初级阶段,京东、凡客等大型B2C电商网站还是以服饰、鞋、3C类产品为主。只有一号店、我买网等少数网上超市平台经营着一部分日常用品的网上销售,但营收状况并不理想。下面来看一下Alice的家用日常用品网上直销模式在中国发展可能存在的优势和潜在的风险:
投资亮点:客户关系管理模式+细分市场需求
一、客户主动选择的监测提醒服务有效的保持了客户粘性及产品忠诚度
Alice的家庭日用品直销平台的成功模式最值得国内同行学习的地方便是其有效的客户关系管理模式。这种人性化的监测提醒服务保障了很强的用户黏性,让消费者自愿的接受了曾经一度厌烦的广告促销信息,并有效的管理了与客户的关系。另外,由于生活日常消耗品的特点,消费者一旦选定了一个品牌便不容易经常更换品牌,因此当消费者收到补充一些日用品的邮件提醒时,消费者只需对以前购买过的订单再次确认付费即可,这样以来消费者对选中的品牌有着很强的忠诚度。
二、家庭日常用品网上零售细分市场需求日益增加
对于中国电子商务市场来说,家庭日常用品的网上零售细分还是一片蓝海。与美国市场相比,在中国推广家庭日用品网上零售的另一优势便是受到大型零售超市网上业务的竞争较少。在美国、英国等发达国家,一些像Wal-mart(沃尔玛)和Tesco(乐购)等大型零售超市都在几年前就已经完善了网上购物和物流配送的体系建设。而中国的一些大型超市在网上平台建设方面的投入还相对较少,随着人们生活节奏的加快以及线下采购时遇到的交通、停车等诸多不便,导致了都市白领人群对于家庭日用品网购的需求将日益增高。
风险:物流压力或成家庭日用品网上销售最大阻力
与美国电商市场环境相比,中国物流发展状况相对落后,且持续增加的物流成本迫使电商更愿意做利润高的服装及3C类等产品。
欲了解更多研究内容,请访问Enfodesk易观智库或致电客服。
研究说明:
Enfodesk易观智库提供的产业分析,主要是在产业宏观数据、最终用户季度调研数据、厂商历史数据以及厂商季度业务监测信息等基础上,运用易观的产业分析模型,并结合市场研究、行业研究以及厂商研究方法得出的,日用品,,主要反映了市场现状、趋势、拐点和规律,以及厂商的发展现状。
Enfodesk易观智库相信通过上述产业研究方法得出的数据在行业公认可接受误差范围内,可以准确反映行业走势与变化规律。
通过专业研究方法得到的研究结果,旨在供决策参考。厂商的实际数据请查询厂商发布的财务报告。
研究领域:
电子商务:
移动互联网:
新媒体:
互动娱乐:
行业互联网化:,