数据服务 电子科技大学:一体化大数据提供师生精准画像

时间:2019-05-13 03:00:53下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《数据服务 电子科技大学:一体化大数据提供师生精准画像》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《数据服务 电子科技大学:一体化大数据提供师生精准画像》。

第一篇:数据服务 电子科技大学:一体化大数据提供师生精准画像

数据服务

电子科技大学:一体化大数据提供师生精准画像

近年来,有部分国内高校开始了数据挖掘的探索。比如,浙江大学通过对资产的归纳、整理,最终形成权威、全面的资产数据,并提供数据查询和分析服务。这些数据分析的结果能够提高教室、实验室等资源的利用率。复旦大学对特定群体的学生进行数据分析,发现了来自不同区域、不同背景学生成绩的显著差异性。清华大学开展了对优秀学生成长追踪,观察成长路径的研究。以上可以看出,虽然这些高校已经开始通过简单统计和相关分析进行数据挖掘,但是这些数据没有完全打通并协同分析,而且分析缺乏深度性和广度性。

针对这些智慧校园建设的不足,电子科技大学利用大数据技术,研究设计了统一的校园大数据分析决策平台,并首次提出教育大数据一体化平台的概念。

该平台不仅可以自动化地接入来自于校内的业务系统数据、资源使用数据、网络日志数据,而且能够接入来自于校外的互联网数据。在数据治理和隐私保护之后,进行数据的标准化,存放在数据中心,同时通过应用程序接口的方式,进行数据认证式的共享,成功地解决了全校各个管理服务系统分割独立,数据共享困难的问题。

更突出的是一体化平台中的计算中心周期性地调用数据接口,进行包括挂科预警、贫困生挖掘等的大数据分析与预测,将分析与预测的结果提供给最上层的各类应用服务。电子科技大学运用教育大数据一体化平台提升高校管理服务水平和质量,既是一个集成不同部门、层次信息数据的系统性工程,又是一个面向世界一流大学创新管理服务体系。教育大数据一体化平台体系架构教育大数据一体化平台是数据整合、清洗与分析挖掘的开放平台。教育大数据一体化平台的架构如图1所示,它由三大中心组成,分别为数据中心、应用中心和运维中心。

数据中心旨在打破数据孤岛,以80%的通用性对接现有的校园业务系统,整合教务处、学生处、图书馆等部门的业务数据,同时对整合后的数据进行清洗、管理与隐私保护,形成标准化的校园数据。

应用中心不仅提供隐私化的数据认证接口与大数据算法服务,而且整合如学生画像、教师画像等多样化的校园管理应用,并不断横向扩展,形成“一平台、多应用”的服务体系。运维中心采集系统应用日志以及机器数据并为其建立索引,构建强有力的搜索、分析和可视化能力,以提供日常运维支持。

通过三大中心的协同工作,一体化平台打破了学校各职能部门的数据孤岛,不仅可以为校园师生提供便捷、高效、精准的个性化引导和服务,而且能为学校开展精准化、智能化师生服务提供总体解决方案。

基于该平台,电子科技大学已开发了多项成熟的应用服务,如学生画像、精准资助、失联告警、教师画像、科研探索、财务评估等系统。本文将以“学生画像”系统和“教师画像”系统为例介绍教育大数据一体化平台的应用创新。学生画像:让学生得到精准的帮助学生画像利用数据中心提供的标准化行为与内容数据,包括课程成绩、图书馆借阅、一卡通消费等,运用大数据分析手段,量化学生在规律性、努力程度、学习技能、经济状况、社交关系等多维度的特性,揭示学生成长轨迹,基于预测模型对学生的学业成绩、就业倾向、心理状况等进行预测,从而可以为学校对学生进行个性化与精准化的教育管理与引导提供重要依据。下面针对以下几个方面进行进一步阐述。1学业成绩预测成绩特别好、特别差和成绩突变的学生是教育者最关心的人群。直观地说,学生成绩和他们的基础知识掌握情况有密切关系。特别地,基础知识的掌握好坏可以影响到学生在相关课程中的成绩。

为此,借助以往课程成绩信息,基于矩阵分解的降维技术,分析学生对具体基础知识的掌握程度,并获得每门课程所含有的知识体系。基于这些信息,该系统不仅可以预测出每个学生在其他课程的得分,也可以预测出这个学生在其他课程的挂科可能性。这个算法背后的思想是通过分析课程之间在知识体系上的相关性来进行成绩预测或者挂科预测。比如某学生在以往课程中曾修过微积分Ⅰ但成绩不好而且挂科了,那么当他在修读微积分Ⅱ的时候,预警系统就会预警该学生的挂科可能性比较大,提示教育者及早发现问题并进行干预,尽可能避免挂科问题。因而,挂科预警实现了从后置性应急管理转变为前置性预警引导。

由于课程成绩数据更新频率低,挂科预警无法实时更新预测结果。然而,根据我们研究发现,学生成绩也和自身的学习以及生活行为习惯特性密切相关。学生在校园内的行为习惯的变化是可以实时监测的,对于预测成绩的变化特别有价值,所以为实时地预测学生成绩提供可能。该学业成绩预测系统借助了两个影响成绩最显著的行为特性:努力程度和生活规律性对学生进行刻画。用学生去教学楼打水、出入图书馆的次数度量其努力程度。该次数可以反映学生上自习或者上课的频率,间接反映了学生花在学习上的时间。因而,去教学楼打水次数高的学生、频繁去图书馆的同学成绩较好。用学生出入宿舍、吃早饭、洗澡等行为习惯数据衡量其生活规律性。生活规律性与心理学中大五人格中的尽责性密切相关,而心理学的研究表明,尽责性高的学生,表现为自律、细心、有条理性,有更好的学习成绩。因而为研究行为规律性和成绩的相关性提供了理论支持。在实证研究中,我们发现,按时吃早餐的学生往往会显出更好的成绩。这背后的原因可能是早饭进餐这个事件在个体层面具有很强的随意性,因而对个体的自律与自控能力有较高的要求。除了努力程度和生活规律性这两个指标外,学生的图书借阅历史也和成绩密切相关。因为借阅的图书可以反映出学生的兴趣爱好,不同的兴趣爱好会对成绩有不同的影响。研究发现成绩好的学生借阅专业方向的进阶读物,而成绩差的同学喜欢借阅诸如小说的各类课外读物。此外,量化了每本书和成绩的相关性,使得可以更加精准地进行图书推荐。最后,基于努力程度、生活规律性、基础知识以及兴趣爱好这些特性,设计多任务迁移学习算法来进行未来成绩的预测。该算法不仅通过多任务特性考虑了特征相关性在学院之间的差异性,而且还通过迁移学习特点考虑了不同学期之间相关性的变化。得出学生的成绩预测分析,能很好地反映出学生成绩的未来走势。

2职业倾向预测数据分析发现学生家庭经济状况、技能掌握情况、兴趣爱好是影响学生就业去向的关键因子。家庭经济状况主要通过分析学生消费数据,建立起消费数据时间序列,度量消费的波动性、周期性与冲动性等。通过分析学生的课程成绩,判断出学生所掌握的专业技能来预测职业选择。

最后,不同职业倾向的人的图书借阅偏好会表现出较大差别,如考研的学生往往倾向于数学等考研科目的书,出国的学生则对外国文学和历史、雅思和托福类书籍情有独钟。通过对以上三类数据的收集、分析和挖掘,就能很好地对学生未来就业倾向进行精准的预测,有利于就业指导教师为毕业生提供个性化的就业引导。

3社交网络构建与挖掘社交网络的构建是通过分析学生之间校园行为轨迹相似性来实现的,特别是统计学生在地点共现(短时间内出现在同一地点)的频率,分析共现的显著性。同时通过大数据的挖掘与分析,给不同个体赋上独特属性标签,如专业、性别、民族等,并以此分析出其个性化的社交需求,对其社交圈进行刻画。以此为其定制与之适应的社交网络推荐与信息推送服务,并将个体数据分析结果展现给学校学生管理工作者为其提供更好的管理工作参考。系统为学生匹配有相同行为习惯及兴趣爱好的个体与其建立社交关系,以此构建具有共同文化认可的社交群体,更好地服务于学生个体的社会交往需要,对学生成长起到良性正面的促进作用。

4精准资助认定准确定位扶助对象是实施“精准扶贫”管理服务的前提,客观、动态和多维度大数据整合库,是实施“精准扶贫”的基础。对贫困生判定的影响因子主要有以下几类:(1)学生家庭信息,包括学生家庭成员组成、家庭成员就职单位、成员学历、家庭年收入、负债金额等基本家庭信息。(2)历史资助信息,收集学生以往获得的资助信息,为其建立基础的数据库,以便于查询学生是否获得资助、资助金额以及经济困难情况。(3)在校一卡通消费数据特征,包括一卡通平均单次消费金额、单次充值金额及充值间隔、月消费总额、逐月消费变化趋势、消费时间段规律等。国内某大学就是利用这方面数据判别贫困生,将1个月消费次数在60次以上,月消费金额在200元以下的学生认定为贫困生。这种单一的判别方式误差会很大,影响判定贫困生的因素很多,应该综合考虑。(4)资助获得后消费习惯改变的数据信息,如在获得资助之后出现冲动消费及大额消费的数据信息。(5)他人的客观评价,收集来自于辅导员及周围同学日常评价并转换为量化数据。通过对以上数据的收集和处理分析,构建起家庭经济困难学生专项大数据库,在大数据分析的基础上,建立起经济困难学生精准识别系统如图2所示。它可以实现两个主要功能:一是识别虚假贫困生,能够有效识别家庭情况较好的学生申报贫困生冒领国家资助的现象,对于这类学生取消其资助资格并降低其信用评级;二是发现潜在贫困生,个别家庭贫困学生由于自尊心较强等因素,往往不主动申请资助,使得这类学生难以通过传统的方式来发现。现在通过精准资助识别系统,能迅速地发现此类学生,采取发放隐性补助的方式进行帮扶(如每月定时向其银行卡中转入一定数额资金),以及实施动态补助等方式,很好地帮助困难资助管理工作者对学生资助信息实施动态管理。通过以上流程构建起数据收集、存储、分析和数据挖掘为一体的大数据精准筛选、甄别和定位系统,客观公正且及时、动态和准确地识别校园亟待资助和扶助对象。

同时建立学生网络诚信档案体系,坚持精准资助与诚信教育结合,核实学生资助申请材料并将其转化为大数据记录,将申请资助过程中的不诚信行为记入学生诚信档案并做好大数据标识,为管理者切实做好精准资助工作提供有力的技术支持。该精准奖助识别系统已经在电子科技大学等高校推广应用,取得了很好的应用效果。

教师画像:为教师学术发展提供信息“教师画像”系统是通过打通校园管理层面不同业务系统之间的数据孤岛,实现以教师为主体的数据挖掘,对教师个体及群体的人事信息、科研项目、学科成果及教学状况进行精准刻画,服务于高校人事、科研管理的数据支撑系统。

它具有三大优势,一,全面:建立各门类数据桥梁,全盘掌握学校的人事、科研、教学现状;二,高效:打通数据流通渠道,实现信息聚合,提高数据汇总效率;三,前瞻:挖掘数据相关性,发现数据潜在价值,为管理者提供决策依据。“教师画像”系统应用方案如图3所示,它首先整合校内外数据,内部数据包括高校自身产生的项目、人员、经费、设备等数据信息;外部数据包括各大公开的科研成果数据库,以及各大知名高校的科研人才数据等。然后对这些数据进行清洗、转换、重构提取有效信息并将提取后的信息存入数据仓库;使用关联分析技术对科研管理系统、财务系统、人事系统以及基于互联网的大型科技文献数据库、专利库等数据资源进行关联分析,找出数据的相关性,提取有价值的信息。将提取的信息应用在教师工作评估、教师成长轨迹分析、高质量人才引进建议、学科前沿研究方向探索、科技评价方法完善等服务上,为解决高校人事管理工作两大核心问题“外引”、“内培”提供建设性意见,为传统的专家定性决策管理提供广泛的、深入的数据支持。该画像系统的主要应用表现在以下几个方面: 1.教师工作绩效自动评估

教师工作绩效自动评估系统通过整合人事、科研、财务、教学等多门类数据信息,采用教师经费效益、经费使用情况、成果影响力、成果转化、同行意见等多维度的评价因素,并支持不同单位结合各单位的实际情况调整评价模型,全方面呈现教师在科研和教学工作的成绩,从而为教师的入职、晋升、聘任、培训和奖惩提供定量化决策依据。避免了传统教师绩效评估受到的人为因素影响,使得评估结果更加客观、准确。2.工作轨迹评估

传统的教师发展研究主要停留在经验层面,传统的教师信息系统只能看到单一的信息,而“教师画像”是利用大数据刻画教师,基于教师基础信息数据(包括学习经历、海外经历、工作经历、岗位聘任经历、科研项目、学科成果等),围绕教师职业素养、专业知识、专业能力、工作绩效等多方面构建教师成长轨迹,并分析影响教师的发展因素,从而制定个性化成长方案,如预测发表论文数量、能否入选人才计划、优秀青年教师等。寻求适合教师的个性化发展路线,引导教师可持续发展,实现教师个人与学校发展的“双赢”。3.学术圈层研究

搜集学术、社交网络等多门类广泛的数据,如搜索每个文章的合作者,构建合作者网络,挖掘隐藏其中的人才关系。实现以人才为中心的数据整合,构建各学科的学术圈层网络。利用该网络一方面可以为校内教师寻找帮助自己提升的外部老师,另一方面挖掘有潜力的学术新星,帮助高校人事部门有针对性地获悉人才有效信息,成功猎取高质量人才。4.科研热点

科研工作不能闭门造车,及时掌握时下国内外的科研热点及难点,结合自身能力与学科特点进行有效的科研工作对于科研工作者至关重要。而在海量数据中分析当下学科研究的热点及前沿,单凭人力是很难做到的,需要借助于大数据分析技术。科研热点分析首先收集国内外论文数据库、专利申报及项目审批等科研热点数据信息,再对过滤后的海量数据利用大数据算法进行挖掘分析,最后有效预测科研热点,并结合高校学科建设现状与特点,分析各学科前沿研究方向。为科研工作者的科研工作提供有力的科研数据支撑,为其选定符合自身学科特点的科研发展方向提供有效建议,帮助其有效定位自身科研工作努力方向及深度。

目前,一场以云计算、大数据、物联网、移动应用、智能控制技术为核心的“新IT”浪潮风起云涌。大数据技术在教育领域的广泛应用,必将催生教育领域的深刻变革。对此,电子科技大学抓住机遇,迎接挑战,利用大数据技术开创性地构建了教育大数据一体化平台,基于此平台创新性地分别开发了服务于学生和教师的“学生画像”和“教师画像”系统。利用“学生画像”系统提供了精准预测学生成绩,就业倾向预测和指导,助力学生精准资助等个性化、精准化的管理服务;利用“教师画像”系统提供教师工作评估、教师成长轨迹分析、高质量人才引进建议、学科前沿研究方向探索、科技评价方法完善等服务。作者:吕红胤 于晨阳 苏涵 连德富 颜凯

第二篇:基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,最终得到复赛第32名。正好这学期《机器学习与数据挖掘》课程需要一个实验报告的大作业,于是就那它来写了。本博文会在这几周不断的完善更新ing

1.选题背景与意义

1.1 用户画像与精准营销

“用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点。

用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

消费方式的改变促使用户迫切希望尽快获取自己想要了解的信息,所以说,基于用户画像上的精准营销不管对企业还是对用户来说,都是有需求的,这会给双方交易带来极大便捷,也为双方平等沟通搭建了一个畅通平台。

1.2 搜索引擎下用户画像的挑战

在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用户的流动性、查询的实时性等,带来了与企业传统的对用户信息进行收集与分析有着巨大的不同、更加艰巨的挑战。

例如,我们实时获取到的是用户的查询语句,而由于用户的流动性,并不能直接获取到如年龄、性别、学历等用户的标签信息。这么一来,也就无法根据用户属性对用户进行分群处理,而后再通过推荐系统进行产品上的优化

1.3 本文内容概要

本文内容概要如下:

第1章:简介用户画像与搜索引擎下用户画像的精准营销的挑战。第2章:说明实验集群、数据与课题研究目标。

第3章:介绍使用分词工具对用户的搜索词列进行分词,以及相关的优化方案。第4章:介绍在分词的基础上,对文本进行特征的抽取与转换,以及相关的优化方案。第5章:介绍在原始特征向量上,进行聚类与降维。第6章:介绍实验中试验过各分类模型 第7章:介绍模型参数调优

第8章:总结本课题研究中不足与展望后续的优化方案 第9章:参考文献 2.课题实验准备

2.1 Spark集群

节点 cdh01 cdh02 cdh03 cdh04 备注

8核,32G内存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 8核,12G内存,角色:Spark Worker,HDFS DataNode 2.2 数据集

数据文件 备注

Train.csv 带标注的训练集 Test.csv 测试集 2.3 数据介绍

本数据来源于搜狗搜索数据,ID经过加密,训练集中人口属性数据存在部分未知的情况(需要解决方案能够考虑数据缺失对算法性能的影响)。数据所有字段如下表所示:

字段 ID age 说明 加密后的ID 0:未知年龄;1:0-18岁;2:19-23岁;3:24-30岁;4:31-40岁;5:41-50岁;6: 51-999岁

Gender 0:未知1:男性2:女性

Education 0:未知学历;1:博士;2:硕士;3:大学生;4:高中;5:初中;6:小学 Query List 搜索词列表 2.4 数据示例

对于train.csv中的数据记录:

00627779E16E7C09B975B2CE13C088CB 4 2 0 钢琴曲欣赏100首 一个月的宝宝眼睫毛那么是黄色 宝宝右眼有眼屎 小儿抽搐怎么办 剖腹产后刀口上有线头 属羊和属鸡的配吗 2.5 课题任务描述

根据提供的用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

3.查询词分词

3.1 NLPIR

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。

全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。

我们传入每个用户的搜索词列,表经过NLPIR分词工具得到的分词。之后,我们做个进一步的优化策略:

3.1.1 去停用词

我们根据分词后词语所带的词性,对一些特征代表性不够强的词语进行过滤:

for(int i = 0;i < sbtmp.length();++i){

char cc = sbtmp.charAt(i);

if(cc == ' '){

sbtmp.deleteCharAt(i);

--i;

} else if(cc == '/'){

// 去词条件

Boolean isdel =

// 1.去标点

(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')

// 2.疑问词

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'

&& sbtmp.charAt(i + 2)== 'y')

// 3.数字

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')

// 4.连词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')

// 5.副词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')

// 6.叹词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')

// 7.拟声词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')

// 8.介词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')

// 9.量词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')

// 10.助词

||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')

// 11.纯动词

||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'

&& sbtmp.charAt(i + 2)== ' ');

// 去词

if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'

&& sbtmp.charAt(i + 1)!= 'h'

&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){

while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

while(i >= 0 && sbtmp.charAt(i)!= ','){

sbtmp.deleteCharAt(i);

--i;

}

}

// 若无需去词,把‘/’转为‘,’,并去除随后的词性标志

else {

sbtmp.setCharAt(i, ',');

while(sbtmp.charAt(i + 1)!= ' '){

sbtmp.deleteCharAt(i + 1);

}

}

}

}

for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){

sbtmp.deleteCharAt(i);

--i;

}

// 去中间单个字

else if(sbtmp.charAt(i1);

sbtmp.deleteCharAt(i1] == Y[j1][j1][j];

//删除X第i个字符

t1 = t1 < dp[i][j1];

//删除Y第j个字符

t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同

dp[i][j] = t1 + 1;

这里我们所使用的优化方案为:

对整个训练集和测试集的搜索词列做分词后的词频统计表

对每个用户的搜索词列分词后的各个词与词频统计表各词(排除前者自身)进行编辑距离计算。得到词频统计表中编辑距离与该词编辑距离最小词,在这些词中在选择一个词频最高的词将该词替代。4.7 额外增加数据量

在大数据时代背景下,只要数据量足够的大,反而我们所选用的不同的算法模型对最终的预测准确率的影响会变小,获取更多数据会使模型更完善更准确。我们这里用不同方案所得到的分词结果,人为的增加训练集的数据。如将10万条记录的训练集进行NLPIR分词得到结果,与进行”结巴”提取关键词得到的结果拼接,就将训练集记录人为的翻倍了。后续的分类实验中证明了,使用该方案,在模型相同的情况下,相比原来会有1%左右的准确率的提升。

5.聚类与降维

2009年结束的Nexfix竞赛表明,很多参数团队用到的高等矩阵因子分解对模型提高预测准确略非常有帮助。模型使用矩阵因子分解方法从特征矩阵中抽取一组潜在的属性,并通过这些属性来描述用户。20世纪80年代后期,利用潜在的”语义”属性的思想被成功的应用于信息检索领域。Deerwesteret al.在1990年提出使用奇异值分解(SVD)方法发现文档中的潜在的属性。[2]而本课题在实验中会使用到LDA方法。

5.1 LDA

隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种主题模型(Topic Model,即从所收集的文档中推测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。那么何谓“主题”呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。也就是说 在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词(参见下面的图),这些单词与这个主题有很强的相关性。这里写图片描述

LDA可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

LDA可以被认为是如下的一个聚类过程:

各个主题(Topics)对应于各类的“质心”,每一篇文档被视为数据集中的一个样本。

主题和文档都被认为存在一个向量空间中,这个向量空间中的每个特征向量都是词频(词袋模型)

与采用传统聚类方法中采用距离公式来衡量不同的是,LDA使用一个基于统计模型的方程,而这个统计模型揭示出这些文档都是怎么产生的。5.1.1 模型训练

Spark API 参数介绍:

K:主题数量(或者说聚簇中心数量)

maxIterations:EM算法的最大迭代次数,设置足够大的迭代次数非常重要,前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。,至少需要设置20次的迭代,50-100次是更合理的设置,取决于数据集。

docConcentration(Dirichlet分布的参数α):文档在主题上分布的先验参数(超参数α)。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。topicConcentration(Dirichlet分布的参数β):主题在单词上的先验分布参数。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。checkpointInterval:检查点间隔。maxIterations很大的时候,检查点可以帮助减少shuffle文件大小并且可以帮助故障恢复。

val lda=new LDA()

.setK(20)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(100)

val model=lda.fit(dataset_lpa)

5.1.2 模型评价

生成的model不仅存储了推断的主题,还包括模型的评价方法。模型的评价指标:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

用评价方法,在online 方法下,对setMaxIter进行调参:

for(i<-Array(5,10,20,40,60,120,200,500)){

val lda=new LDA()

.setK(3)

.setTopicConcentration(3)

.setDocConcentration(3)

.setOptimizer(“online”)

.setCheckpointInterval(10)

.setMaxIter(i)

val model=lda.fit(dataset_lpa)

val ll = model.logLikelihood(dataset_lpa)

val lp = model.logPerplexity(dataset_lpa)

println(s“$i $ll”)

println(s“$i $lp”)}

可以看到,logPerplexity在减小,LogLikelihood在增加,最大迭代次数需要设置50次以上,才能收敛:

5.1.3 对语料的主题进行聚类

val topicsProb=model.transform(dataset_lpa)

topicsProb.select(“label”, “topicDistribution”)show(false)

/**

+-----++

|label|topicDistribution

|

+-----++

|0.0 |[0.***,0.***147,0.***77] |

|1.0 |[0.***3,0.***623,0.***]

|

|2.0 |[0.***7,0.***417,0.***]

|

...*/

label是文档序号,文档中各主题的权重,我们可以将该DataFrame带入后续的分类器中,进行训练。

5.1.4 其他聚类与降维

Spark在基于RDD的MLlib中还提供了SVD、PCA的降维方法,而基于DataFrame的聚类方法还包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API类似与LDA,可以直接为我们返回文档中各主题的权重,以便于后续的分类。但是由于LDA在主题聚类上的典型性,我们的课题实验只试验了LDA的方案

下载数据服务 电子科技大学:一体化大数据提供师生精准画像word格式文档
下载数据服务 电子科技大学:一体化大数据提供师生精准画像.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐